Hay muchos documentos interesantes sobre visión por computadora (CV), así que enumeraré los que creo que han ayudado a dar forma al CV tal como lo conocemos hoy.
- Transformación de características invariantes de escala (SIFT) [1]:
- Acelerado características robustas (SURF) [2]:
- Histograma de gradientes orientados (HOG) [3]:
Los documentos anteriores utilizan características cuidadosamente diseñadas a mano extraídas de distintos puntos de características detectados por un detector de características como un detector de esquinas o manchas. Esos detectores de puntos clave, normalmente motivados por el teorema del espacio a escala, están diseñados para encontrar puntos que son fáciles de localizar de manera consistente en diferentes grados de condiciones, como distorsiones debidas al punto de vista de la cámara y cambios de iluminación. Dichos detectores de puntos clave siguen siendo importantes para las aplicaciones de cosido panorámico automatizado, visión 3D y localización y mapeo simultáneo (SLAM) y aplicaciones de estructura desde movimiento (SfM). El sistema de visión de mamíferos en realidad usa tales características en el procesamiento de movimiento usando las llamadas células hipercomplejas [4] y la operación de agrupamiento está motivada por células complejas [5] en la corteza visual primaria.
El libro [6] de Richard Szeliski [7] es un libro introductorio muy completo para aquellos que desean saber más sobre los algoritmos de visión por computadora anteriores.
- ¿Cuál es la diferencia entre el trabajo de investigación y el informe de investigación?
- Soy estudiante de secundaria y quiero escribir un trabajo de investigación sobre teoría de cuerdas, pero tengo problemas para estructurarlo. ¿Qué debo incluir?
- ¿Qué estilo de escritura es más útil para un estudiante de finanzas? ¿Es Chicago, APA o MLA?
- ¿Cuáles son algunas posibles razones por las que Aaron Swartz se suicidó?
- ¿Cómo juzga la gente el potencial académico encontrado en alguien que ha escrito un trabajo de investigación?
Los enfoques recientes se basan más en la categorización y la recuperación del cuadro delimitador con la capacidad de aprender de principio a fin. Por lo tanto, los recientes documentos interesantes sobre reconocimiento y detección de imágenes están utilizando en gran medida redes neuronales convolucionales (CNN) y en la detección de objetos utilizan CNN + cabezales de regresión de cuadro delimitador para detectar objetos conocidos. Por lo tanto, una gran cantidad de currículums actuales está utilizando el aprendizaje automático (ML)
- Clasificación de ImageNet usando CNN profundo [8]:
- Redes neuronales residuales muy profundas (ResNet) [9]:
En la detección de objetos, los sistemas de detección actuales de última generación se asemejan a la hipótesis de dos corrientes [10] de la corteza visual.
- CNN regionales (R-CNN) [11]:
- R-CNN rápido [12]:
- R-CNN más rápido [13]:
- Solo miras una vez (YOLO) [14]:
La lista anterior no es exhaustiva, hay muchos más excelentes documentos por ahí.
Espero que esto ayude.
Notas al pie
[1] https://www.cs.ubc.ca/~lowe/pape…
[2] http://www.vision.ee.ethz.ch/~su…
[3] http://ieeexplore.ieee.org/docum…
[4] Célula hipercompleja – Wikipedia
[5] Célula compleja – Wikipedia
[6] Visión por computadora: algoritmos y aplicaciones
[7] Richard Szeliski.
[8] https://www.nvidia.cn/content/te…
[9] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes
[10] Hipótesis de dos corrientes – Wikipedia
[11] https: //people.eecs.berkeley.edu…
[12] [1504.08083] Rápido R-CNN
[13] Hacia la detección de objetos en tiempo real con redes de propuestas regionales
[14] Detección unificada de objetos en tiempo real