Saltar al contenido

Una historia concisa de las redes neuronales

septiembre 29, 2021

Una historia concisa de las redes neuronales

Jaspreet

13 de ago. De 2016·6 min de lectura

«De los paisajes áridos dentro de nuestros dispositivos personales llegan himnos furtivos tarareados por esos servidores digitales que algún día serán nuestros señores»

AI invierno

La idea de las redes neuronales comenzó como era de esperar como un modelo de cómo funcionan las neuronas en el cerebro, denominado ‘conexionismo’ y utilizaba circuitos conectados para simular el comportamiento inteligente. En 1943, retratado con un circuito eléctrico simple por el neurofisiólogo Warren McCulloch y el matemático Walter Pitts. Donald Hebb llevó la idea más allá en su libro, The Organization of Behavior (1949), proponiendo que las vías neuronales se fortalecen con cada uso sucesivo, especialmente entre neuronas que tienden a dispararse al mismo tiempo, comenzando así el largo viaje hacia la cuantificación de los complejos procesos de el cerebro.

Dos mayores CLos conceptos que son precursores de las redes neuronales son

  • ‘Threshold Logic’: conversión de entrada continua en salida discreta

ambos propuestos en la década de 1940. En la década de 1950, cuando los investigadores comenzaron a tratar de traducir estas redes en sistemas computacionales, la primera red Hebbian se implementó con éxito en el MIT en 1954.

Por esta época, Frank Rosenblatt, psicólogo de Cornell, estaba trabajando para comprender los sistemas de decisión comparativamente más simples presentes en el ojo de una mosca, que subyacen y determinan su respuesta de huida. En un intento por comprender y cuantificar este proceso, propuso la idea de un perceptrón en 1958, llamándolo Perceptrón Mark I. Era un sistema con una relación simple entrada-salida, modelado en un McCulloch-Pitts neurona, propuesta en 1943 por Warren S. McCulloch, un neurocientífico, y Walter Pitts, un lógico para explicar los complejos procesos de decisión en un cerebro utilizando una puerta de umbral lineal. Una neurona McCulloch-Pitts toma entradas, toma una suma ponderada y devuelve ‘0’ si el resultado está por debajo del umbral y ‘1’ en caso contrario.

1*iaL39eI1UXwlCqnIFP5BOg

Una neurona McCulloch-Pitts

La belleza de Mark I Perceptron radica en el hecho de que sus pesos se «aprenden» a través de entradas pasadas sucesivamente, al tiempo que se minimiza la diferencia entre la salida deseada y la real.

1*LMSP9DXInKHhYocqQrSBPA

Primera implementación conocida de un perceptrón Mark I. La máquina estaba conectada a una cámara que utilizaba fotocélulas de sulfuro de cadmio de 20 × 20 para producir una imagen de 400 píxeles. La principal característica visible es un panel de conexiones que permitió experimentar con diferentes combinaciones de características de entrada. A la derecha hay una serie de potenciómetros que implementaron los pesos adaptativos.[wiki]

¿Un gran inconveniente? Este perceptrón solo pudo aprender a separar clases linealmente separables, haciendo que el circuito o exclusivo, simple pero no lineal, sea una barrera infranqueable.

1*sWLQQAiKwW8jggMuGEJUHg

A pesar del advenimiento desordenado y algo insatisfactorio del uso del aprendizaje automático para cuantificar los sistemas de decisión además del cerebro, las redes neuronales artificiales actuales no son más que varias capas de estos perceptrones.

Las cosas comenzaron a moverse rápidamente para las redes neuronales en esta época y en 1959 en Stanford, Bernard Widrow y Marcian Hoff desarrollaron la primera red neuronal aplicada con éxito a un problema del mundo real. Estos sistemas fueron nombrados ADALINE y MADALINE después de su uso de múltiples elementos ADAptive LINear, el último de los cuales fue diseñado específicamente para eliminar el ruido en las líneas telefónicas y todavía se usa hoy (!). Sin embargo, estas neuronas artificiales eran diferentes de los perceptrones en lo que devolvían como salida, que en este caso era la entrada ponderada.

Como es el caso con cada pequeña mejora en la tecnología de IA en la historia, estos primeros éxitos dieron lugar a un aumento de la exageración sobre la capacidad y el potencial de las redes neuronales, mientras que los investigadores se enfrentaban a un obstáculo tras otro. En el pico de la exageración en torno a estas ‘máquinas de pensar’, NYtimes publicó este artículo sobre el potencial de las redes neuronales, mientras que este video se lanzó casi al mismo tiempo,

Al igual que con las varias ‘llamadas cercanas’ anteriores, todavía no estábamos ni cerca de escupir seres conscientes creados por el hombre tanto como siempre nos ha gustado creer (o temer, depende de cómo se mire). Uno de los problemas que surgió fue con los tiempos de ejecución imprácticamente largos requeridos para ejecutar estas redes, dado que estábamos en los años 60, aparte de su incapacidad para aprender circuitos booleanos exclusivos o simples.

Todo esto llegó a su fin en 1969 con la publicación de un libro “Perceptrons” de Marvin Minsky, fundador del MIT AI Lab, y Seymour Papert, director del laboratorio. El libro argumentó de manera concluyente que el enfoque de percepción única de Rosenblatt para las redes neuronales no podría traducirse de manera efectiva en redes neuronales de múltiples capas. Evaluar los valores relativos correctos de los pesos de las neuronas distribuidas a través de las capas en función del resultado final tomaría varias, si no infinitas, iteraciones y llevaría mucho tiempo calcularlo.

En su texto, Minsky expuso estos y otros problemas con las redes neuronales y condujo efectivamente a la comunidad científica en general y, lo que es más importante, a los establecimientos de financiación a la conclusión de que una mayor investigación en esta dirección no conduciría a ninguna parte. El efecto de este texto fue poderoso y agotó los fondos hasta el punto de que, durante los siguientes 10 a 12 años, nadie en las instituciones de investigación más grandes en ese momento y, por lo tanto, las más pequeñas también, asumirían ningún proyecto que tuviera ese objetivo. tenía como premisa las redes neuronales condenadas. Había comenzado la era ahora conocida como «el invierno de la IA».

El deshielo del invierno de esta década comenzó en 1982 en la Academia Nacional de Ciencias cuando Jon Hopfield presentó su artículo sobre lo que llegó a conocerse como Hopfield Net, mientras que el mismo año en la conferencia EE.UU.-Japón sobre redes neuronales cooperativas / competitivas, Japón anunció su intención de comenzar su esfuerzo de quinta generación en redes neuronales. Esto hizo que los fondos comenzaran a fluir nuevamente desde las arcas de una nación que temía quedarse atrás. Pronto, el Instituto Americano de Física, en 1985e estableció una reunión anual de «Redes neuronales en la informática» seguida de la primera Conferencia Internacional sobre Redes Neuronales del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) en 1987.

Sin embargo, fue un importante redescubrimiento de un concepto que ya existía desde los años 60 y que ayudó a las redes neuronales a salir de su tumba prematura. La retropropagación, un método ideado por investigadores desde los años 60 y desarrollado continuamente hasta bien entrado el invierno de la IA, era un método basado en la intuición que atribuía una importancia reducida a cada evento a medida que uno retrocedía en la cadena de eventos. La primera persona que vio su potencial para las redes neuronales y resolvió la pregunta de cómo se traduciría para MLP fue Paul Werbos, quien, inspirado en parte por su aplicación a la mente humana y el trabajo de Freud sobre el flujo hacia atrás de la asignación de créditos, escribió una tesis doctoral exponiendo su importancia. Sin embargo, nadie en la comunidad se dio cuenta de este trabajo hasta que Parker publicó un informe sobre su trabajo en el MIT en 1985. Fue solo después de que Rumelhart, Hinton y Williams lo redescubrieran y lo volvieran a publicar en un marco claro y detallado. que la técnica se apoderó de la comunidad por asalto. Los mismos autores también abordaron los inconvenientes específicos expuestos por Minsky en su publicación de 1969 en un texto posterior.

La retropropagación junto con Gradient Descent forma la columna vertebral y la potencia de las redes neuronales. Mientras que Gradient Descent actualiza y mueve constantemente los pesos y el sesgo hacia el mínimo de la función de costo, la retropropagación evalúa el gradiente del costo wrt y los sesgos, cuya magnitud y dirección se usa en el descenso del gradiente para evaluar el tamaño y la dirección del correcciones a pesos y parámetros de sesgo.

Una descripción visual simple del movimiento hacia los mínimos de una función 2d. El tamaño del paso del salto está determinado por el valor del gradiente en cada punto.

Y así, en la década de 1990, las redes neuronales definitivamente regresaron, esta vez realmente capturando la imaginación del mundo y finalmente llegando a la par, si no superando, sus expectativas. Una vez más, estamos haciendo las mismas preguntas a la IA y proyectando sobre ella nuestros miedos demasiado humanos, y una vez más estamos más lejos de lo que pensamos de inclinarnos en deferencia a nuestros señores digitales.

close