NeurIPS 2020: 10 elementos esenciales que no debe perderse
1899 ponencias, 20k + asistentes, 62 talleres, 7 charlas invitadas. Elegir a qué prestar atención es clave en un paisaje tan denso, por lo que aquí hay algunas ideas sobre dónde debería estar mirando.
Sergi Castella i Sapé
2 de diciembre de 2020·10 min de lectura
La Conferencia sobre sistemas de procesamiento de información neuronal siempre es emocionante porque sirve como una colección de lo mejor que el campo ha ofrecido en el año anterior. A pesar de ser completamente virtual por primera vez, este año no es diferente; Quiero decir, mira los 25 artículos publicados más importantes ya citados👇
Dar sentido a esta impresionante alineación no es fácil hazaña, pero con la ayuda de AI Research Navigator en Zeta Alpha, revisamos los artículos más relevantes de NeurIPS por citas, presentaciones destacadas y algunas recomendaciones de la plataforma e identificamos algunos trabajos realmente interesantes que nos gustaría destacar; algunos ya son bien conocidos, y otros son más Gema oculta. Por supuesto, estas selecciones no pretenden ser una descripción general completa; nos faltaremos en muchos temas como ML multimodal, aprendizaje federado, GAN, aprendizaje por refuerzo, teoría ML, ML para ODE, entre otros, pero bueno, he escuché que a menudo es mejor elegir escasa y profunda que amplia y superficial; así que aquí está mi top 10, ¡disfrútalo!
Semi y Auto-Supervisión
Dejar atrás la costosa dependencia de los datos etiquetados ha sido uno de los principales enfoques en la agenda de ML de los últimos años, incluso tiene su propio taller completo en NeurIPS este año.
1. Bootstrap Your Own Latente, un nuevo enfoque para el aprendizaje auto-supervisado | Cartel virtual
❓Por qué: los resultados de este artículo parecen increíbles, por eso es tan interesante. ¿Cómo se pueden aprender representaciones con solo positivo muestras y no colapsar en una solución trivial?
💡Perspectivas clave: el método es bastante similar a un entorno de aprendizaje contrastivo estándar para la visión por computadora, donde se aplican aumentos a las imágenes y una pérdida contrastiva obliga a las imágenes que provienen de la misma fuente a unirse y aleja el resto. Sin embargo, en este documento, no hay muestras negativas. En cambio, hay dos codificadores:
- T es el en línea codificador, cuyos parámetros se actualizan en cada iteración a través de SGD.
- T ‘es un codificador cuyos parámetros son un promedio exponencial de T (en cierto sentido, simplemente retrasos un poco detrás de T).
El procedimiento de entrenamiento consiste en codificar representaciones de diferentes vistas de una imagen a través de T y T ‘y maximizar el producto escalar de estas representaciones. El hecho de que este método no se convierta en una representación trivial ya es impresionante, pero los resultados en ImageNet tampoco se quedan cortos.
2. Aumento de datos sin supervisión para el entrenamiento de coherencia | Cartel virtual
❓Por qué: el entrenamiento de consistencia tiene mucho potencial para ser un procedimiento genérico que mejora la supervisión débil en muchas tareas. Como dato extra divertido, el artículo fue rechazado en ICLR 2020, pero ahora está en NeurIPS con un récord de citas ya sólido.
💡Perspectivas clave: en pocas palabras, el pérdida de consistencia no supervisada consiste en una pérdida de acuerdo sobre diferentes variaciones de una entrada (como la traducción inversa de texto o el aumento aleatorio de imágenes). La intuición es: diferentes variaciones de una entrada necesitan tener la misma clasificación de salida, a pesar de no saber cuál, que es una señal de aprendizaje válida para un modelo de clasificación. METRO. Bajo esta configuración, se necesitan muy pocas etiquetas verdaderas para aprender un buen clasificador.
Los resultados son nada menos que impresionantes tanto en Visión por computadora como en Procesamiento del lenguaje natural, donde tan solo 20 etiquetas son suficientes para obtener un rendimiento decente en tareas como el análisis de sentimientos en el conjunto de datos de IMDb¹.
3. ¿Qué aporta buenas vistas para el aprendizaje contrastado? | Cartel virtual
❓Por qué: El aprendizaje contrastivo puede entenderse desde el lente de la Teoría de la Información, y este artículo es una excelente combinación de resultados empíricos y teóricos que son útiles para comprender mejor los fundamentos de esta familia de métodos.
💡Ideas clave: El Aprendizaje Constrastivo en Visión por Computador a menudo implica generar diferentes puntos de vista de una imagen, como recortes, filtros u otras transformaciones, y aprenda un modelo que sea capaz de discriminar entre las vistas de esta imagen y el resto. Curiosamente, esto puede formularse maximizando la información mutua entre vistas de la imagen. Profundizando en este marco, el documento muestra:
- La cantidad de información compartida entre las vistas se puede demasiado poco o demasiado, y existe un punto óptimo donde las representaciones resultantes funcionarán mejor, que forma una forma de U invertida. Los autores proporcionan varias pruebas empíricas que muestran el fenómeno.
- Muestran cómo se puede utilizar esta información para formular lo que llaman el marco de «Aprendizaje de vista no supervisado» que aprende a encontrar este punto óptimo al tener dos modelos, F y gramo, uno maximizando y otro minimizando la estimación de información mutua entre vistas.
4. Mezcla fuertemente negativa para el aprendizaje contrastivo | Cartel virtual
❓Por qué: al igual que en la sugerencia anterior, el aprendizaje contrastivo es uno de los pilares del aprendizaje de representación auto-supervisado, pero en negativos duros, su impacto en la calidad de las representaciones aprendidas no se comprende bien.
💡Perspectivas clave: los autores proponen un nuevo método para agregar negativos duros sintéticos durante el entrenamiento que son baratos computacionalmente: MoCHi (Mezcla de negativos duros contrastivos). El método crea negativos duros sintéticos directamente en el espacio de incrustación mediante:
- Para negativos duros: características de mezcla lineal de las muestras negativas más difíciles.
- Para negativos aún más difíciles: mezclar la propia consulta con negativos.
Sorprendentemente, este método simple mejora el aprendizaje de la representación auto-supervisada en imágenes, y se realizan ablaciones amplias para comprender su efecto.
Otros: Razonamiento relacional auto-supervisado para el aprendizaje de representaciones y una selección más completa.
Transformadores y Atención
5. Desenredar las compensaciones entre la recurrencia y la auto-atención en las redes neuronales | Cartel virtual
❓Por qué: alrededor de 2017 y 2018, los modelos seq2seq pasaron de ser RNN casi en todos los ámbitos (GRUs², LSTMs³) a estar completamente basados en la atención (Transformers⁴). Pero, ¿no sigue la recurrencia un sesgo inductivo válido en los NN? ¿Podemos arrojar algo de luz sobre los RNN auto-atentos, en el sentido de qué principios generales los hacen buenos para el aprendizaje? Este artículo proporciona un marco teórico para pensarlo.
💡Perspectivas clave: la auto-atención completa tiene el problema de que escala mal con la longitud de la secuencia (cuadrática), y la recurrencia tiene el problema de que el flujo de información no viaja «largas distancias temporales» debido al conocido efecto de gradiente de desaparición, para el cual solo se basan en la heurística existen soluciones. Este documento formaliza esta compensación y muestra cómo la atención escasez y flujo de gradiente profundidad limita la complejidad computacional y el flujo de información en este tipo de redes. En algún lugar de esta compensación suceden cosas interesantes, como una intrigantemente buena generalización en RL.
6. Big Bird: Transformadores para secuencias largas | Cartel virtual
❓Por qué: si bien BigBird no es ni la primera ni la última reencarnación de un transformador eficiente (vea el zoológico de enfoques en el fantástico Efficient Transformers Survey⁵), esta versión contiene ingeniosos trucos de ingeniería y resultados sólidos.
💡 Idea clave: Combina 3 formas de atención diferentes: ventana, global y aleatoria. Con estos trucos, el número de operaciones necesarias para el mecanismo de atención puede ser lineal con respecto a la longitud de la secuencia. Si bien este no es de ninguna manera un modelo diminuto, el atención de la ventana para sus experimentos ya es de 512 tokens, al igual que el OG BERT⁶: este modo de atención permite modelar secuencias mucho más largas, como las requeridas en genómica, para las cuales esta publicación proporciona algunos resultados.
7. Generación aumentada de recuperación para tareas de PNL intensivas en conocimientos | Cartel virtual
❓Por qué: el principal atractivo es el uso de memoria completamente no paramétrica, que aunque no es novedosa, tiene el potencial de permitir sistemas de respuesta a preguntas que no necesitan ser reentrenados para adaptarse a conocimientos nuevos o cambiantes porque se basan completamente en conocimientos externos .
💡 Idea clave: recuperar documentos como evidencia, cuyo texto se utiliza como contexto para la generación de texto. Además de que los resultados son de vanguardia, muestran resultados en la respuesta a preguntas sobre el cambio de conocimiento y muestran cómo RAG puede responder preguntas para las que no recibió capacitación al intercambiar la colección de documentos de los que obtiene el conocimiento (sin necesidad de volver a capacitar ). Además, la corrección fáctica parece ser una característica importante de este enfoque, aunque todavía no puede considerarse verdaderamente confiable.
8. Los modelos lingüísticos son aprendices puntuales | Cartel virtual
❓Por qué: (también conocido como GPT-3) se ha dicho mucho sobre la serie GPT-X⁷ y no hay duda de que la última versión ha impresionado a las personas más escépticas en el campo. Lanzado originalmente en julio, ahora vale la pena leer esta versión simplificada del trabajo.
💡La idea principal: tamaño, tamaño, tamaño. La ampliación de los modelos sigue mejorando el rendimiento y conduce a resultados sorprendentes; el techo parece estar todavía muy lejos… GPT-3 entrena un modelo de 175 mil millones de parámetros que muestra resultados sorprendentes en el aprendizaje de pocas tomas, donde el modelo solo necesita un par de ejemplos para aprender cualquier tarea de lenguaje en un grado asombroso. Aún así, surgen muchas preocupaciones, como el costo y el impacto ambiental de dichos modelos, así como los sesgos que revelan.
Otros: Entrenamiento acelerado de modelos de lenguaje basados en transformadores con caída progresiva de capas, las conexiones O (n) son lo suficientemente expresivas: Aproximación universal de transformadores dispersos, Transformadores profundos con profundidad latente y una lista más completa.
Benchmarks y evaluación
9. Aprender a resumir con retroalimentación humana | Cartel virtual
❓Por qué: a veces, medir el desempeño en una tarea es tan difícil, si no más difícil, que resolver la tarea en sí. El resumen es un buen ejemplo: las obras a menudo se basan en medidas como ROUGE⁸, que se correlacionan con los juicios humanos sólo hasta cierto punto; y cuando los modelos están cerca de ese límite, la medida deja de ser útil.
💡 Idea clave: 3 pasos que se pueden repetir iterativamente