¿Cuáles son los mejores artículos sobre visión por computadora? La Ciencia y la Tecnología mejoran el futuro

Hay muchos documentos interesantes sobre visión por computadora (CV), así que enumeraré los que creo que han ayudado a dar forma al CV tal como lo conocemos hoy.

Transformación de características invariantes de escala (SIFT) [1]:
Acelerado características robustas (SURF) [2]:
Histograma de gradientes orientados (HOG) [3]:

Los documentos anteriores utilizan características cuidadosamente diseñadas a mano extraídas de distintos puntos de características detectados por un detector de características como un detector de esquinas o manchas. Esos detectores de puntos clave, normalmente motivados por el teorema del espacio a escala, están diseñados para encontrar puntos que son fáciles de localizar de manera consistente en diferentes grados de condiciones, como distorsiones debidas al punto de vista de la cámara y cambios de iluminación. Dichos detectores de puntos clave siguen siendo importantes para las aplicaciones de cosido panorámico automatizado, visión 3D y localización y mapeo simultáneo (SLAM) y aplicaciones de estructura desde movimiento (SfM). El sistema de visión de mamíferos en realidad usa tales características en el procesamiento de movimiento usando las llamadas células hipercomplejas [4] y la operación de agrupamiento está motivada por células complejas [5] en la corteza visual primaria.

El libro [6] de Richard Szeliski [7] es un libro introductorio muy completo para aquellos que desean saber más sobre los algoritmos de visión por computadora anteriores.

Los enfoques recientes se basan más en la categorización y la recuperación del cuadro delimitador con la capacidad de aprender de principio a fin. Por lo tanto, los recientes documentos interesantes sobre reconocimiento y detección de imágenes están utilizando en gran medida redes neuronales convolucionales (CNN) y en la detección de objetos utilizan CNN + cabezales de regresión de cuadro delimitador para detectar objetos conocidos. Por lo tanto, una gran cantidad de currículums actuales está utilizando el aprendizaje automático (ML)

Clasificación de ImageNet usando CNN profundo [8]:
Redes neuronales residuales muy profundas (ResNet) [9]:

En la detección de objetos, los sistemas de detección actuales de última generación se asemejan a la hipótesis de dos corrientes [10] de la corteza visual.

CNN regionales (R-CNN) [11]:
R-CNN rápido [12]:
R-CNN más rápido [13]:
Solo miras una vez (YOLO) [14]:

La lista anterior no es exhaustiva, hay muchos más excelentes documentos por ahí.

Espero que esto ayude.

Notas al pie

[1] https://www.cs.ubc.ca/~lowe/pape…

[2] http://www.vision.ee.ethz.ch/~su…

[3] http://ieeexplore.ieee.org/docum…

[4] Célula hipercompleja – Wikipedia

[5] Célula compleja – Wikipedia

[6] Visión por computadora: algoritmos y aplicaciones

[7] Richard Szeliski.

[8] https://www.nvidia.cn/content/te…

[9] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[10] Hipótesis de dos corrientes – Wikipedia

[11] https: //people.eecs.berkeley.edu…

[12] [1504.08083] Rápido R-CNN

[13] Hacia la detección de objetos en tiempo real con redes de propuestas regionales

[14] Detección unificada de objetos en tiempo real

Documentos académicosVisión por computadora