in

Aprendizaje de un extremo a otro, el método de aprendizaje automático (casi) de todos los propósitos

0QPN775P6Tgzb8HJ0

Aprendizaje de un extremo a otro, el método de aprendizaje automático (casi) de todos los propósitos

¿Se puede utilizar E2E para resolver todos los problemas de aprendizaje automático?

Felp Roza

31 de mayo de 2019·8 min de lectura

0*QPN775P6Tgzb8HJ0

OUna de las habilidades más importantes para quienes trabajan con Machine Learning es saber qué método es la mejor opción para un problema determinado. Algunas opciones son triviales (por ejemplo, supervisadas o no supervisadas, regresión o clasificación) porque están relacionadas con la formulación del problema en sí. Sin embargo, incluso después de definir lo que está intentando resolver, suele haber una gran cantidad de algoritmos que se pueden utilizar.

Por ejemplo, imagina que quieres DDesarrollar un sistema capaz de predecir una variable categórica. Para resolver este problema, se pueden utilizar el árbol de clasificación, los vecinos más cercanos K o incluso las redes neuronales artificiales. Por supuesto, hay una razón para que existan muchos algoritmos diferentes, incluso cuando resuelven problemas similares: cada uno tiene sus particularidades de las que podemos beneficiarnos.

Lo que dificulta aún más la tarea es que para resolver algunos problemas, como el reconocimiento de voz y la conducción autónoma, es necesaria una arquitectura que consta de muchas capas (por ejemplo, preprocesamiento, extracción de características, optimización, predicción, toma de decisiones). Para cada capa, se pueden utilizar muchos algoritmos diferentes.

El problema es: para lograr mejores resultados, se deben aplicar cambios en las capas internas y sus correspondientes algoritmos. Sin embargo, como cada capa es responsable de resolver tareas particulares, resulta realmente difícil determinar cómo afectarán dichos cambios al sistema en su conjunto.

El aprendizaje de extremo a extremo (E2E) se refiere al entrenamiento de un sistema de aprendizaje posiblemente complejo representado por un solo modelo (específicamente una red neuronal profunda) que representa el sistema de destino completo, sin pasar por las capas intermedias generalmente presentes en los diseños tradicionales de canalización.

Aprendizaje integral

miEl aprendizaje nd-to-end es un tema candente en el campo del Deep Learning para aprovechar la estructura de Deep Neural Network (DNN), compuesta por varias capas, para resolver problemas complejos. De manera similar al cerebro humano, cada capa DNN (o grupo de capas) puede especializarse para realizar tareas intermedias necesarias para tales problemas. Tobias Glasmachers evidencia cómo E2E se enmarca en el contexto del Deep Learning [1]:

«Esta técnica elegante, aunque sencilla y algo de fuerza bruta [E2E] se ha popularizado en el contexto del aprendizaje profundo. Es una consecuencia aparentemente natural de las arquitecturas neuronales profundas que difuminan los límites clásicos entre la máquina de aprendizaje y otros componentes de procesamiento al lanzar una tubería de procesamiento posiblemente compleja en el lenguaje de modelado coherente y flexible de las redes neuronales. «

Ese enfoque alternativo se ha aplicado con éxito para resolver muchos problemas complejos. A continuación, puede encontrar cómo se aplica E2E para problemas de reconocimiento de voz y conducción autónoma.

Reconocimiento de voz

1*g2WohWmyNZJ3Hp4qrMiyVQ

TEl diseño de enfoque tradicional para un sistema de comprensión del lenguaje hablado es una estructura de canalización con varios componentes diferentes, ejemplificados por la siguiente secuencia:

Audio (entrada) -> extracción de características -> detección de fonemas -> composición de palabras -> transcripción de texto (salida).

Una clara limitación de esta arquitectura canalizada es que cada módulo debe optimizarse por separado bajo diferentes criterios. El enfoque E2E consiste en reemplazar la cadena antes mencionada por una única Red Neural, permitiendo el uso de un único criterio de optimización para mejorar el sistema:

Audio (entrada) – – – (NN) – → transcripción (salida)

Mike Lewis y col. introducir un enfoque de aprendizaje E2E para las negociaciones del lenguaje natural [2]. El sistema resultante es un agente de diálogo basado en una única Red Neuronal capaz de negociar para lograr un acuerdo. Esto se hizo entrenando a la NN utilizando datos de un gran conjunto de datos de registros de negociación humano-humano que contienen una variedad de tácticas de negociación diferentes.

1*S5OZc6 nz1NmFbSM4 E ww

Otro beneficio del enfoque E2E es que es posible diseñar un modelo que funcione bien sin un conocimiento profundo del problema, a pesar de su complejidad. Ronan Collobert y col. explicar cómo se puede utilizar una arquitectura de red neuronal unificada y un algoritmo de aprendizaje apropiado para el procesamiento del lenguaje natural (PNL) para evitar la ingeniería de tareas específicas y muchos conocimientos previos [3]:

«[…] tratamos de sobresalir en múltiples puntos de referencia tiempo evitar la ingeniería de tareas específicas. En su lugar usamos un sistema de aprendizaje único capaz de descubrir representaciones internas adecuadas. […] Nuestro deseo de evitar las características de ingeniería específicas de la tarea nos impidió utilizar una gran cantidad de conocimientos lingüísticos. En cambio, logramos buenos niveles de rendimiento en la mayoría de las tareas mediante la transferencia de representaciones intermedias descubiertas en grandes conjuntos de datos sin etiquetar. Llamamos a este enfoque «casi desde cero» para enfatizar la reducida (pero aún importante) dependencia del conocimiento a priori de la PNL. «

Conducción autónoma

ALos sistemas de conducción autónomos pueden clasificarse como un ejemplo notable de sistemas complejos compuestos por muchas capas. Siguiendo la arquitectura propuesta por Alexandru Serban et al., Podemos diseñar un sistema de conducción autónoma utilizando 5 capas diferentes [4]:

Los datos de entrada provienen de varios sensores (cámaras, LIDAR, radares, etc.) que se procesan en el fusión de sensores capa para extraer las características relevantes (por ejemplo, detección de objetos). Con todos los datos procesados ​​y las características relevantes extraídas, un «modelo mundial”Se crea en la segunda capa. Ese modelo comprende la imagen completa del entorno circundante junto con el estado interno del vehículo.

A partir de este modelo, el sistema debe elegir qué decisiones tomar en el capa de comportamiento. Según los objetivos del vehículo, plantea múltiples opciones de comportamiento en función de la política del sistema y selecciona la mejor aplicando algún criterio de optimización.

Con las decisiones tomadas el sistema determina las maniobras que debe ejecutar el vehículo para satisfacer el comportamiento elegido en el planificación capa y, finalmente, los valores de control se envían a los módulos de interfaz del actuador en el control de vehículos capa.

En el artículo “Aprendizaje de extremo a extremo para automóviles autónomos”, Mariusz Bojarski et al. proponer un sistema E2E capaz de controlar un coche autónomo directamente desde los píxeles proporcionados por las cámaras integradas [5]. El sistema pudo aprender representaciones internas de pasos intermedios, como detectar características útiles de la carretera, con solo el ángulo de dirección humano como señal de entrenamiento. El uso de redes neuronales convolucionales (CNN) juega un papel importante en el sistema propuesto por su capacidad de extraer características útiles de los datos de imágenes:

“El gran avance de las CNN es que las funciones se aprenden automáticamente a partir de ejemplos de capacitación. El enfoque de CNN es especialmente poderoso en tareas de reconocimiento de imágenes porque la operación de convolución captura la naturaleza 2D de las imágenes «.

La CNN diseñada va más allá del reconocimiento de patrones para aprender todo el proceso de procesamiento necesario para conducir un automóvil. La arquitectura de red consta de 9 capas, incluida una capa de normalización, 5 capas convolucionales y 3 capas completamente conectadas. El sistema se entrenó utilizando datos reales de conducción registrados recopilados en el centro de Nueva Jersey, Illinois, Michigan, Pensilvania y Nueva York. La siguiente figura muestra el diagrama de bloques del diseño del sistema de entrenamiento:

1*a2W

Con aproximadamente 72 horas de datos de conducción, el sistema pudo aprender a conducir el automóvil en diferentes tipos de carreteras y condiciones climáticas:

“Una pequeña cantidad de datos de entrenamiento de menos de cien horas de conducción fue suficiente para entrenar el automóvil para operar en diversas condiciones, en carreteras, caminos locales y residenciales en condiciones soleadas, nubladas y lluviosas. La CNN puede aprender características importantes de la carretera a partir de una señal de entrenamiento muy escasa (solo dirección). El sistema aprende, por ejemplo, a detectar el contorno de una carretera sin la necesidad de etiquetas explícitas durante el entrenamiento ”.

Limitaciones de E2E

Si el uso de un solo DNN entre la entrada y la salida funciona para los ejemplos mencionados anteriormente, ¿por qué no usarlo como un enfoque general para resolver todos los problemas de aprendizaje automático?

Muchas son las razones que hacen de E2E una opción inviable en diferentes casos:

  • Se necesita una gran cantidad de datos: La incorporación de algunos conocimientos previos a la formación se considera un elemento clave que permitirá incrementar el rendimiento en muchas aplicaciones. Para que el aprendizaje E2E no integre este conocimiento previo, se deben proporcionar más ejemplos de capacitación.
  • Difícil de mejorar o modificar el sistema: Si se debe aplicar algún cambio estructural (por ejemplo, aumentar las dimensiones de entrada agregando más características), el modelo anterior no tiene uso y el DNN del orificio debe reemplazarse y entrenarse de nuevo.
  • Los módulos disponibles de alta eficiencia no se pueden utilizar: Muchas técnicas son eficientes para resolver algunas tareas. A modo de ejemplo, los sistemas de reconocimiento de objetos de última generación se distribuyen en gran medida, pero tan pronto como se integra en un sistema E2E, ya no se puede considerar E2E.
  • Difícil de validar: Si es necesario un alto nivel de validación, E2E puede volverse inviable. Debido a la arquitectura compleja, el número potencial de pares de entrada / salida puede ser lo suficientemente grande como para hacer imposible la validación. Esto es especialmente importante para algunos sectores como la industria automotriz.

Además de estos problemas, es posible que E2E no funcione para algunas aplicaciones, como se muestra en [1]:

“Hemos demostrado que el aprendizaje de un extremo a otro puede ser muy ineficiente para entrenar modelos de redes neuronales compuestos por múltiples módulos no triviales. El aprendizaje de un extremo a otro puede incluso romperse por completo; en el peor de los casos, ninguno de los módulos logra aprender. Por el contrario, cada módulo puede aprender si los otros módulos ya están entrenados y sus pesos congelados. Esto sugiere que el entrenamiento de máquinas de aprendizaje complejas debe realizarse de manera estructurada, entrenando módulos simples primero e independientemente del resto de la red. «

Conclusión

mind-to-end es indiscutiblemente una gran herramienta para resolver tareas complicadas. La idea de utilizar un modelo único que pueda especializarse para predecir los resultados directamente a partir de las entradas permite el desarrollo de sistemas extremadamente complejos que pueden considerarse de última generación. Sin embargo, cada mejora tiene un precio: aunque está consagrada en el campo académico, la industria sigue siendo reacia a utilizar E2E para resolver sus problemas debido a la necesidad de una gran cantidad de datos de formación y la dificultad de validación.

Referencias

[1] Glasmachers, Tobias. «Límites del aprendizaje de un extremo a otro». preimpresión de arXiv arXiv: 1704.08305 (2017).

[2] Lewis, Mike y col. “¿Trato o no? aprendizaje de principio a fin para los diálogos de negociación «. preimpresión de arXiv arXiv: 1706.05125(2017).

[3] Collobert, Ronan y col. «Procesamiento del lenguaje natural (casi) desde cero». Revista de investigación sobre aprendizaje automático 12 de agosto (2011): 2493-2537.

[4] Serban, Alexandru Constantin, Erik Poll y Joost Visser. «Una arquitectura de software impulsada por estándares para vehículos totalmente autónomos». 2018 IEEE International Conference on Software Architecture Companion (ICSA-C). IEEE, 2018.

[5] Bojarski, Mariusz y col. «Aprendizaje integral para vehículos autónomos». preimpresión arXiv arXiv: 1604.07316 (2016).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

3tQfZWCFCLVbkQ5ZyaPaTc 1200 80

¿Qué tamaño de televisor necesito? Cómo elegir el televisor de tamaño perfecto

Tecnologías Java para aplicaciones web