¿Cuáles son los mejores artículos sobre visión por computadora?

Hay muchos documentos interesantes sobre visión por computadora (CV), así que enumeraré los que creo que han ayudado a dar forma al CV tal como lo conocemos hoy.

  • Transformación de características invariantes de escala (SIFT) [1]:
  • Acelerado características robustas (SURF) [2]:
  • Histograma de gradientes orientados (HOG) [3]:

Los documentos anteriores utilizan características cuidadosamente diseñadas a mano extraídas de distintos puntos de características detectados por un detector de características como un detector de esquinas o manchas. Esos detectores de puntos clave, normalmente motivados por el teorema del espacio a escala, están diseñados para encontrar puntos que son fáciles de localizar de manera consistente en diferentes grados de condiciones, como distorsiones debidas al punto de vista de la cámara y cambios de iluminación. Dichos detectores de puntos clave siguen siendo importantes para las aplicaciones de cosido panorámico automatizado, visión 3D y localización y mapeo simultáneo (SLAM) y aplicaciones de estructura desde movimiento (SfM). El sistema de visión de mamíferos en realidad usa tales características en el procesamiento de movimiento usando las llamadas células hipercomplejas [4] y la operación de agrupamiento está motivada por células complejas [5] en la corteza visual primaria.

El libro [6] de Richard Szeliski [7] es un libro introductorio muy completo para aquellos que desean saber más sobre los algoritmos de visión por computadora anteriores.

Los enfoques recientes se basan más en la categorización y la recuperación del cuadro delimitador con la capacidad de aprender de principio a fin. Por lo tanto, los recientes documentos interesantes sobre reconocimiento y detección de imágenes están utilizando en gran medida redes neuronales convolucionales (CNN) y en la detección de objetos utilizan CNN + cabezales de regresión de cuadro delimitador para detectar objetos conocidos. Por lo tanto, una gran cantidad de currículums actuales está utilizando el aprendizaje automático (ML)

  • Clasificación de ImageNet usando CNN profundo [8]:
  • Redes neuronales residuales muy profundas (ResNet) [9]:

En la detección de objetos, los sistemas de detección actuales de última generación se asemejan a la hipótesis de dos corrientes [10] de la corteza visual.

  • CNN regionales (R-CNN) [11]:
  • R-CNN rápido [12]:
  • R-CNN más rápido [13]:
  • Solo miras una vez (YOLO) [14]:

La lista anterior no es exhaustiva, hay muchos más excelentes documentos por ahí.

Espero que esto ayude.

Notas al pie

[1] https://www.cs.ubc.ca/~lowe/pape…

[2] http://www.vision.ee.ethz.ch/~su…

[3] http://ieeexplore.ieee.org/docum…

[4] Célula hipercompleja – Wikipedia

[5] Célula compleja – Wikipedia

[6] Visión por computadora: algoritmos y aplicaciones

[7] Richard Szeliski.

[8] https://www.nvidia.cn/content/te…

[9] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[10] Hipótesis de dos corrientes – Wikipedia

[11] https: //people.eecs.berkeley.edu…

[12] [1504.08083] Rápido R-CNN

[13] Hacia la detección de objetos en tiempo real con redes de propuestas regionales

[14] Detección unificada de objetos en tiempo real