in

Detección de objetos: simplificado

1j zE5G5zttpWLd5hXsv0jA

Detección de objetos: simplificado

Eche un vistazo al mundo de una de las declaraciones de problemas más famosas de Computer Vision

Prakhar Ganesh

12 de agosto de 2019·6 min de lectura

La detección de objetos es un problema común de visión por computadora que se ocupa de identificar y localizar objetos de ciertas clases en la imagen. La interpretación de la localización del objeto se puede realizar de varias formas, incluida la creación de un cuadro delimitador alrededor del objeto o el marcado de cada píxel de la imagen que contiene el objeto (lo que se denomina segmentación).

1*j zE5G5zttpWLd5hXsv0jA

Detección de objetos mediante cuadros delimitadores
1*ltungS3ZQwFEMbs7lDuI6A

Segmentación de objetos mediante la predicción de máscaras a nivel de píxel
1*h2MnS255rpP27anTPLXJ3Q

La detección de objetos se estudió incluso antes de la gran popularidad de las CNN en Computer Vision. Si bien las CNN son capaces de extraer automáticamente características mejores y más complejas, echar un vistazo a los métodos convencionales puede, en el peor de los casos, ser un pequeño desvío y, en el mejor de los casos, una inspiración.

ObjmiLa detección de ct antes de Deep Learning era un proceso de varios pasos, comenzando con la detección de bordes y extracción de características utilizando técnicas como SIFT, HOG, etc. Estas imágenes se compararon con plantillas de objetos existentes, generalmente a niveles de múltiples escalas, para detectar y localizar objetos presentes en el imagen.

1*WXSkTrkm0iTmoewsWw3Z8w

Intersección sobre Unión (IoU): No se puede esperar que la predicción del cuadro delimitador sea precisa a nivel de píxel y, por lo tanto, es necesario definir una métrica para la extensión de la superposición entre 2 cuadros delimitadores.

Intersección sobre Unión hace exactamente lo que dice. Toma el área de intersección de los 2 cuadros delimitadores involucrados y la divide con el área de su unión. Esto proporciona una puntuación, entre 0 y 1, que representa la calidad de la superposición entre las 2 casillas.

1*2LPQLE87SJBRCSXhpow9sA

Precisión promedio y recuperación promedio: La precisión medita qué tan precisas son nuestras predicciones, mientras que el recuerdo explica si somos capaces de detectar todos los objetos presentes en la imagen o no. La precisión promedio (AP) y la recuperación promedio (AR) son dos métricas comunes que se utilizan para la detección de objetos.

Ahora que hemos disfrutado de la sopa, ¡pasemos directamente al plato principal! La detección de objetos en dos pasos implica algoritmos que primero identifican los cuadros delimitadores que potencialmente pueden contener objetos y luego clasifican cada límite por separado.

El primer paso requiere un Red de propuestas regionales, proporcionando una serie de regiones que luego se pasan a arquitecturas de clasificación basadas en DL comunes. Desde el algoritmo de agrupación jerárquica en RCNN (que son extremadamente lentos) hasta el uso de CNN y la agrupación de ROI en RCNN rápidos y anclajes en RCNN más rápidos (lo que acelera la canalización y el entrenamiento de un extremo a otro), se han utilizado muchos métodos y variaciones diferentes. proporcionado a estas redes de propuestas regionales (RPN).

1*NXWE7BHug0i

Se sabe que estos algoritmos funcionan mejor que sus homólogos de detección de objetos en un solo paso, pero son más lentos en comparación. Con varias mejoras sugeridas a lo largo de los años, el cuello de botella actual en la latencia de las redes de detección de objetos en dos pasos es el paso RPN. Puede consultar este bonito blog a continuación para obtener más detalles sobre la detección de objetos basada en RPN.

Detección de objetos mediante enfoques de aprendizaje profundo: una perspectiva teórica de principio a fin

Una mirada detallada a los artículos más influyentes en la detección de objetos

haciadatascience.com

Con la necesidad de detección de objetos en tiempo real, se han propuesto muchas arquitecturas de detección de objetos en un solo paso, como YOLO, YOLOv2, YOLOv3, SSD, RetinaNet, etc. que intentan combinar el paso de detección y clasificación.

Uno de los principales logros de estos algoritmos ha sido la introducción de la idea de «retroceder» las predicciones del cuadro delimitador. Cuando cada cuadro delimitador se representa fácilmente con unos pocos valores (por ejemplo, xmin, xmax, ymin e ymax), resulta más fácil combinar el paso de detección y clasificación y acelerar drásticamente la canalización.

1*CYTDLg54ol NpBOnrhFo2A

Por ejemplo, YOLO dividió toda la imagen en cuadrículas más pequeñas. Para cada celda de la cuadrícula, predice las probabilidades de clase y las coordenadas xey de cada cuadro delimitador que pasa a través de esa celda de la cuadrícula. ¡Un poco como el captcha basado en imágenes donde seleccionas todas las cuadrículas más pequeñas que contienen el objeto!

Estas modificaciones permiten que los detectores de un solo paso funcionen más rápido y también a nivel global. Sin embargo, dado que no funcionan en cada cuadro delimitador por separado, esto puede hacer que su rendimiento sea peor en el caso de objetos más pequeños u objetos similares cercanos. También se han introducido múltiples arquitecturas nuevas para dar más importancia a las características de nivel inferior, tratando de proporcionar un equilibrio.

La detección de objetos basada en mapas de calor puede considerarse, en cierto sentido, una extensión de la detección de objetos basada en un solo disparo. Mientras que los algoritmos de detección de objetos basados ​​en un disparo intentan retroceder directamente las coordenadas (o compensaciones) del cuadro delimitador, la detección de objetos basada en mapas de calor proporciona una distribución de probabilidad de las esquinas / centro del cuadro delimitador.

Según el posicionamiento de estos picos de esquina / centro en los mapas de calor, se predicen los cuadros delimitadores resultantes. Dado que se puede crear un mapa de calor diferente para cada clase, este método también combina detección y clasificación. Si bien la detección de objetos basada en mapas de calor lidera actualmente una nueva investigación, todavía no es tan rápida como los algoritmos convencionales de detección de objetos de un solo disparo. Esto se debe al hecho de que estos algoritmos requieren arquitecturas troncales más complejas (CNN) para obtener una precisión respetable.

1*vIRqFX6

Si bien la detección de objetos es un campo en crecimiento que ha experimentado varias mejoras a lo largo de los años, es evidente que el problema aún no está completamente resuelto. Con tanta variedad disponible en términos de diferentes enfoques para la detección de objetos, todos ellos con sus pros y sus contras, siempre se puede elegir el método que mejor se adapte a sus requisitos y, por lo tanto, ningún algoritmo gobierna actualmente el campo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

dgaU4g4gZryFswWbBvZxtG 1200 80

Las mejores antenas de TV para interiores 2021: 6 antenas de TV digital que vale la pena tener

social og illustration acx 1200x628

Versión actual de oracleCRM On Demand