No hay muchos principios de diseño sistemáticos para llegar a la representación de entrada / salida adecuada y la arquitectura de red para una tarea en particular. Entonces, la forma correcta es realmente mirar la literatura relevante y ver qué ideas han probado otros.
Dado que parece estar muy interesado en aplicar el aprendizaje profundo a los problemas de visión por computadora, le recomiendo que lea la mayor cantidad de documentos de las últimas conferencias CVPR que pueda, así como seguir a los principales investigadores y blogueros que a menudo comparten nuevos e interesantes arXiv documentos en su twitter, etc. Una vez que haya leído suficientes de tales documentos, debería ser capaz de encontrar la arquitectura adecuada para una tarea novedosa.
Los siguientes son algunos documentos que cubren una variedad de tareas de comprensión visual y, en consecuencia, una variedad de formas de diseñar redes y elegir representaciones de entrada / salida. Esta lista debería servir como un buen punto de partida. He tratado de organizar los documentos en un orden que minimice los requisitos previos externos.
- Fuera de Turquía, ¿qué país tiene más arquitectura otomana?
- ¿Por qué debería importarme la arquitectura?
- ¿Qué tipo de bombillas hay en las torres de radio, quién las fabrica, cuánto duran y quién las cambia?
- ¿Qué país tiene las casas más bellas?
- ¿Cuáles son las 100 mejores firmas de arquitectura en los Estados Unidos?
Arquitecturas y componentes genéricos de CNN (a menudo aplicados a la clasificación, pero también reutilizados en los documentos posteriores para otras tareas)
0. Uno de los primeros documentos de CNN de Yann LeCun
http://www.dengfanxin.cn/wp-cont…
0.5 Documento NIPS 2012 de Alex Krizhevsky que inició la actual revolución del aprendizaje profundo (describe AlexNet).
http://papers.nips.cc/paper/4824…
1. Evaluación sistemática de los avances de CNN en ImageNet
https://arxiv.org/pdf/1606.02228…
2. Normalización por lotes: acelerar el entrenamiento de redes profundas al reducir el cambio interno de covariables
https://arxiv.org/pdf/1502.03167…
3. Aprendizaje residual profundo para el reconocimiento de imágenes.
http://www.cv-foundation.org/ope…
4. Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje [Nota: consejos y trucos sobre el diseño de la arquitectura CNN]
[1602.07261] Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje
Capa de deformación de imagen especial
5. Redes de transformadores espaciales
http://papers.nips.cc/paper/5854…
Dos imágenes como entrada para comparar
6. Papel original de la arquitectura siamesa
http://ftp.cs.nyu.edu/~sumit/pub…
7. Red de correspondencia universal
[1606.03558] Red de correspondencia universal
8. WarpNet: emparejamiento débilmente supervisado para la reconstrucción de una sola vista
http://www.cv-foundation.org/ope…
Agrupación como una forma de combinar el conocimiento de múltiples imágenes
6.5 Redes neuronales convolucionales de múltiples vistas para el reconocimiento de formas 3D
http://www.cv-foundation.org/ope…
Imagen como entrada, imagen como salida
9. Redes desconvolucionales
https://www.cs.nyu.edu/~fergus/p…
10. Redes completamente convolucionales para la segmentación semántica.
http://www.cv-foundation.org/ope…
10.5 Puntos de vista y puntos clave
http://www.cv-foundation.org/ope…
Detección de objetos: múltiples salidas de una sola CNN
11. R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuestas de región [Nota: Podría requerir pasar por R-CNN, Fast R-CNN y documentos de Pool de pirámides espaciales para comprender esto. Pero es una tubería de detección de objetos universalmente utilizada en este momento.]
Hacia la detección de objetos en tiempo real con redes de propuestas regionales
11.5 Máscara R-CNN
https://arxiv.org/pdf/1703.06870…
12. Reconocimiento de lugares con puntos de referencia de ConvNet: robusto al punto de vista, robusto al estado, sin capacitación
http://eprints.qut.edu.au/84931/…
Salida vectorial que representa más que solo una clase de imagen: reconstrucción de objetos 3D con CNN
13. Supervisión profunda con conceptos de forma para el análisis de objetos 3D con reconocimiento de oclusión [completamente imparcial ;-)]
https://arxiv.org/pdf/1612.02699…
Dos imágenes de entrada, una imagen de salida = Siamés + Codificador-Decodificador / Arquitectura totalmente convolucional
14. Flownet: aprendizaje del flujo óptico con redes convolucionales
http://www.cv-foundation.org/ope…
Generación de imágenes (aprendizaje no supervisado / semi-supervisado con CNN)
15. Traducción de imagen a imagen con redes adversas condicionales [Gran documento sobre C-GAN, la nueva herramienta para personas CV / ML]
[1611.07004] Traducción de imagen a imagen con redes adversas condicionales
Imagen entrante, cuadrícula de voxel: reconstrucción de objetos en 3D con CNN
16. 3D-R2N2: un enfoque unificado para la reconstrucción de objetos 3D en una o varias vistas
https://arxiv.org/pdf/1604.00449…
Procesamiento de videos con CNN (varios fotogramas en un solo pase directo)
17. Aprendizaje de características espaciales temporales
http://www.cv-foundation.org/ope…
Procesamiento de videos con CNN (cuadro único a la vez, empleando RNN)
18. Evaluación empírica de redes neuronales recurrentes activadas en el modelado de secuencias [Nota: gran introducción general a RNN / LSTM. No imagen]
https://arxiv.org/pdf/1412.3555.pdf
Nota: Consulte también la publicación de blog de Andrej Karpathy en RNN para obtener una excelente introducción.
La efectividad irracional de las redes neuronales recurrentes
19. RNN para el modelado del lenguaje (aprendizaje secuencial a secuencia con RNN, necesario para comprender los siguientes documentos de visión por computadora)
http://papers.nips.cc/paper/5346…
20. Uso de RNN con CNN para el reconocimiento de acciones
http://www.cv-foundation.org/ope…
Usando RNNs para generar texto
21. Uso de RNN con CNN para subtítulos de imágenes
http://www.cv-foundation.org/ope…
Combinando entrada de imagen con una entrada de vector
22. Modelos 3D de múltiples vistas a partir de imágenes individuales con una red convolucional
https://arxiv.org/pdf/1511.06702…
Usar CNN como una tabla hash de imágenes (o usar CNN para su capacidad de memorización frente a su capacidad de generalización)
23. Redes convolucionales para la relocalización de cámaras 6-DOF en tiempo real http://mi.eng.cam.ac.uk/~agk34/r…
Nube de puntos no estructurados, salida de clase
24. Deep Kd-Networks para el reconocimiento de modelos de nube de puntos 3D