in

Introducción a la clasificación de videos

1ZoQWsEGwL0ieYTK62BfinA

Introducción a la clasificación de videos

Connor acortar

15 de enero de 2019·7 min de lectura

Muchos artículos y tutoriales de Deep Learning se centran principalmente en tres dominios de datos: imágenes, voz y texto. Estos dominios de datos son populares por sus aplicaciones en clasificación de imágenes, reconocimiento de voz y clasificación de sentimientos de texto. Otra modalidad de datos muy interesante es el video. Desde una perspectiva de dimensionalidad y tamaño, los videos son uno de los tipos de datos más interesantes junto con conjuntos de datos como redes sociales o códigos genéticos. Las plataformas de carga de videos como YouTube están recopilando enormes conjuntos de datos, lo que potencia la investigación de Deep Learning.

Un video es realmente solo una pila de imágenes. Este artículo revisará un artículo [1] en la investigación de clasificación de video dirigió Andrej Karpathy, actualmente Director de IA en Tesla.

https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf

Este documento modela videos con redes convolucionales de una manera muy similar a cómo modelan imágenes las CNN. Este artículo es una gran anécdota del poderoso poder de representación de las redes convolucionales. Antes de este trabajo, la investigación de clasificación de video estaba dominada por una serie de características visuales de bolsa de palabras cuantificadas en un diccionario de k-medias y clasificadas con un modelo de aprendizaje automático como un SVM. Este trabajo destaca el poder de las CNN para abstraer todos estos algoritmos de ingeniería de características anteriores. El documento también sirve como una buena base de ideas para integrar el componente temporal de los videos en los modelos de CNN.

Este documento explora tres componentes diferentes de la clasificación de video, diseñando CNN que dan cuenta de la conectividad temporal en videos, CNN de múltiples resoluciones que pueden acelerar el cálculo y la efectividad del aprendizaje por transferencia con la clasificación de video.

Conjuntos de datos discutidos

Uno de los componentes más importantes de cualquier proyecto de Deep Learning es la comprensión del conjunto de datos que se utiliza. Este documento utilizó un conjunto de datos que consta de 1 millón de videos de YouTube en 487 clases. Este documento también experimenta con el aprendizaje de transferencia de las características aprendidas en este conjunto de datos masivo al conjunto de datos UCF-101 más pequeño que consta de 13,320 videos que pertenecen a 101 categorías.

Hay dos preocupaciones inmediatas relacionadas con los conjuntos de datos de video utilizados. El primero es el enorme tamaño del conjunto de datos, por lo que la posibilidad de cargar todo el conjunto de datos en la memoria local es poco práctica. Una solución para esto es usar una biblioteca de análisis de URL para descargar dinámicamente los videos de sus enlaces de YouTube y sobrescribir los videos actualmente en la memoria que se usaron en un tamaño de lote anterior. Para acelerar esto, se utiliza un sistema informático paralelo de modo que estos lotes se puedan cargar y preprocesar en una máquina distinta a la que está entrenando el modelo. Karpathy y col. utilice un clúster de computación para implementar estos experimentos, que es muy adecuado para este tipo de canalización de procesamiento de datos.

Una segunda preocupación con este conjunto de datos es una que se encuentra con frecuencia en las aplicaciones de minería de texto, la longitud variable de cada instancia. Por ejemplo, un video puede durar 30 segundos, mientras que otro dura 2 minutos. En el texto, esto se resuelve rellenando con 0 los extremos del texto de modo que todas las entradas tengan la misma longitud. Este documento soluciona esto prediciendo los cultivos de los videos y agregando predicciones en los cultivos. Creo que este es un detalle muy importante del artículo para recordar. Los videos completos no se envían a la red, sino que utilizan una colección de clips de medio segundo. Los videos generalmente se graban a 30 cuadros por segundo. Por tanto, estos clips constan de 15 fotogramas.

La agregación de predicciones en clips de medio segundo es un concepto similar al aumento del tiempo de prueba en la clasificación de imágenes. Una predicción de clase para una imagen se combina con predicciones de la misma imagen después de que se haya girado, recortado, recortado o se haya aumentado su espacio de color. Estos experimentos con clasificación de video también prueban los aumentos de volteo y recorte con los clips de medio segundo.

Fusión de información de tiempo

¿Qué patrón de conectividad temporal en una arquitectura CNN es mejor para aprovechar la información de movimiento local presente en el video?

¿Cómo influye la información de movimiento adicional en las predicciones de una CNN y cuánto mejora el rendimiento en general?

Quizás el tema más interesante de este artículo es cómo se modifica una red convolucional clásica para dar cuenta de las dependencias temporales en los videos. En este documento, se concatenan una pila de marcos uno encima del otro y se ingresan en la CNN. Clásicamente, una CNN toma como entrada una matriz (alto x ancho x canales de color). Por ejemplo, esto podría ser un tensor de entrada de 224 x 224 x 3. En estos experimentos, los fotogramas anteriores se apilan sobre el eje del canal de color de modo que una entrada que consta de dos fotogramas de imágenes en el video tiene la forma 224 x 224 x 6. Karpathy et al. proponer 3 estrategias diferentes para combinar marcos como entrada a la CNN y contrastar estos enfoques con un modelo de línea de base para clasificar los marcos uno a la vez.

1*ZoQWsEGwL0ieYTK62BfinA

El modelo de fotograma único es un ejemplo de clasificación de videos simplemente agregando predicciones en fotogramas / imágenes individuales. El modelo Late Fusion combina fotogramas concatenando el primero y el último fotograma del clip. El modelo Early Fusion toma un segmento contiguo más grande del clip. Por último, el modelo de fusión lenta tiene un esquema mucho más sofisticado en el que 4 segmentos contiguos parcialmente superpuestos se combinan progresivamente en las capas convolucionales. La experimentación encontró el éxito más individual con la estrategia Slow Fusion, aunque no sustancialmente mayor que el modelo Single Frame. Los mejores resultados generales se obtuvieron promediando los resultados en todos los modelos (Único + Temprano + Tardío + Lento).

CNN multiresolución

Otro concepto muy interesante discutido en este documento es una estrategia convincente para el procesamiento de imágenes. La CNN de resolución múltiple funciona de la siguiente manera: dos entradas separadas se alimentan a capas convolucionales separadas que se fusionan después de 2 secuencias aisladas de Conv-MaxPool-BatchNorm. Estas entradas de resolución múltiple se componen de un fotograma de 178 x 178 reducido a 89 x 89 y un recorte central de 89 x 89 del fotograma original de 178 x 178.

1*RFXk8Rd1et3KSPHY WTXPg

Esta estrategia ahorra mucho tiempo de cálculo para las capas convolucionales. Los autores informan de un aumento de 2-4 veces en la velocidad debido a este esquema de dimensionalidad reducida. Específicamente, citan una velocidad de 5 clips por segundo con una red de fotograma completo y 20 clips por segundo con una red de resolución múltiple. También destacan que esto podría acelerarse aún más si se usa una GPU de gama alta en lugar de paralelizarlo en su clúster informático con 10 a 50 réplicas de modelos. Además de la aceleración, también informa una pequeña mejora con respecto a un modelo de fotograma único que incluye los fotogramas originales de 178 x 178.

Transferir el aprendizaje en la clasificación de videos

El aprendizaje por transferencia en la clasificación de imágenes ha sido muy estudiado y es un concepto muy intuitivo. Entrene en un conjunto de datos masivo como ImageNet, imágenes de 1,2 millones, transfiera estos pesos a un problema con menos datos y luego ajuste los pesos en el nuevo conjunto de datos. En este artículo, Karpathy et al. transfiera las características del conjunto de datos de Youtube-1M a un conjunto de datos de clasificación de video popular, UCF-101. Experimentaron con 3 niveles de aprendizaje por transferencia y lo compararon con el entrenamiento desde cero en el conjunto de datos UCF-101.

Los niveles de aprendizaje de transferencia estudiados incluyeron el ajuste fino de la capa superior, el ajuste fino de las 3 capas superiores y el ajuste fino de todas las capas. Por ejemplo, al ajustar la capa superior, el resto de los pesos de la red se ‘congelan’ durante el entrenamiento, lo que significa que solo participan en el paso directo de la red y no se actualizan mediante retropropagación.

1*Tquc

A partir de este documento, el aumento de rendimiento de las estrategias Time Fusion y Multi-Resolution fue algo decepcionante. Sin embargo, los resultados de Transfer Learning son muy reveladores. Hubiera sido interesante que este informe también mostrara los resultados con la red Single Frame para contrastar si el esquema de fusión lenta era más efectivo para el aprendizaje por transferencia.

Conclusión

Me impresionaron los resultados que informaron que el esquema de fusión lenta superó constantemente a los modelos de fotograma único. Al comenzar este artículo, esperaba que los algoritmos de fusión temporal consistieran en características de CNN introducidas en un modelo recurrente como LSTM. Creo que el diseño de la fusión lenta podría mejorarse simplemente duplicando el tamaño de los bloques contiguos, tal vez conectando bloques contiguos espaciados por un número paramétrico de cuadros y agregando conexiones residuales.

Creo que el procesamiento de resolución múltiple es una idea muy interesante con imágenes y video que podría extenderse a voz y audio también. Este mecanismo está diseñado principalmente para aumentar la velocidad de cálculo con la entrada de tamaño reducido, sin embargo, creo que sería interesante invertir esto y probar la precisión de la clasificación después de muestrear imágenes con una técnica de superresolución como SR-GAN.

Es alentador ver el éxito de la transferencia de aprendizaje en imágenes extendidas a videos. ¡El aumento de casi un 25% en la precisión en UCF-101 después del entrenamiento en el conjunto de datos de YouTube-1M es sorprendentemente alto!

Este documento es una base excelente para explorar la clasificación de videos. Está muy bien escrito y analiza muchas de las características importantes de la creación de modelos de aprendizaje profundo a partir de datos de video. Gracias por leer, ¡deje un comentario con sus pensamientos sobre el periódico o este artículo!

Referencia

[1] Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, Li Fei-Fei. Clasificación de video a gran escala con redes neuronales convolucionales. 2014.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

pYPQeg362EMo87z5BwAkuZ 1200 80

Las mejores ofertas y ventas de termostatos Nest para septiembre de 2021

social util cust 1200x630

Servicios al cliente y facturación de servicios públicos