¿Dónde aprendo sobre la arquitectura de aprendizaje profundo? La Ciencia y la Tecnología mejoran el futuro

No hay muchos principios de diseño sistemáticos para llegar a la representación de entrada / salida adecuada y la arquitectura de red para una tarea en particular. Entonces, la forma correcta es realmente mirar la literatura relevante y ver qué ideas han probado otros.

Dado que parece estar muy interesado en aplicar el aprendizaje profundo a los problemas de visión por computadora, le recomiendo que lea la mayor cantidad de documentos de las últimas conferencias CVPR que pueda, así como seguir a los principales investigadores y blogueros que a menudo comparten nuevos e interesantes arXiv documentos en su twitter, etc. Una vez que haya leído suficientes de tales documentos, debería ser capaz de encontrar la arquitectura adecuada para una tarea novedosa.

Los siguientes son algunos documentos que cubren una variedad de tareas de comprensión visual y, en consecuencia, una variedad de formas de diseñar redes y elegir representaciones de entrada / salida. Esta lista debería servir como un buen punto de partida. He tratado de organizar los documentos en un orden que minimice los requisitos previos externos.

Arquitecturas y componentes genéricos de CNN (a menudo aplicados a la clasificación, pero también reutilizados en los documentos posteriores para otras tareas)

0. Uno de los primeros documentos de CNN de Yann LeCun

http://www.dengfanxin.cn/wp-cont…

0.5 Documento NIPS 2012 de Alex Krizhevsky que inició la actual revolución del aprendizaje profundo (describe AlexNet).

http://papers.nips.cc/paper/4824…

1. Evaluación sistemática de los avances de CNN en ImageNet

https://arxiv.org/pdf/1606.02228…

2. Normalización por lotes: acelerar el entrenamiento de redes profundas al reducir el cambio interno de covariables

https://arxiv.org/pdf/1502.03167…

3. Aprendizaje residual profundo para el reconocimiento de imágenes.

http://www.cv-foundation.org/ope…

4. Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje [Nota: consejos y trucos sobre el diseño de la arquitectura CNN]

[1602.07261] Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje

Capa de deformación de imagen especial

5. Redes de transformadores espaciales

http://papers.nips.cc/paper/5854…

Dos imágenes como entrada para comparar

6. Papel original de la arquitectura siamesa

http://ftp.cs.nyu.edu/~sumit/pub…

7. Red de correspondencia universal

[1606.03558] Red de correspondencia universal

8. WarpNet: emparejamiento débilmente supervisado para la reconstrucción de una sola vista

http://www.cv-foundation.org/ope…

Agrupación como una forma de combinar el conocimiento de múltiples imágenes

6.5 Redes neuronales convolucionales de múltiples vistas para el reconocimiento de formas 3D

http://www.cv-foundation.org/ope…

Imagen como entrada, imagen como salida

9. Redes desconvolucionales

https://www.cs.nyu.edu/~fergus/p…

10. Redes completamente convolucionales para la segmentación semántica.

http://www.cv-foundation.org/ope…

10.5 Puntos de vista y puntos clave

http://www.cv-foundation.org/ope…

Detección de objetos: múltiples salidas de una sola CNN

11. R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuestas de región [Nota: Podría requerir pasar por R-CNN, Fast R-CNN y documentos de Pool de pirámides espaciales para comprender esto. Pero es una tubería de detección de objetos universalmente utilizada en este momento.]

Hacia la detección de objetos en tiempo real con redes de propuestas regionales

11.5 Máscara R-CNN

https://arxiv.org/pdf/1703.06870…

12. Reconocimiento de lugares con puntos de referencia de ConvNet: robusto al punto de vista, robusto al estado, sin capacitación

http://eprints.qut.edu.au/84931/…

Salida vectorial que representa más que solo una clase de imagen: reconstrucción de objetos 3D con CNN

13. Supervisión profunda con conceptos de forma para el análisis de objetos 3D con reconocimiento de oclusión [completamente imparcial ;-)]

https://arxiv.org/pdf/1612.02699…

Dos imágenes de entrada, una imagen de salida = Siamés + Codificador-Decodificador / Arquitectura totalmente convolucional

14. Flownet: aprendizaje del flujo óptico con redes convolucionales

http://www.cv-foundation.org/ope…

Generación de imágenes (aprendizaje no supervisado / semi-supervisado con CNN)

15. Traducción de imagen a imagen con redes adversas condicionales [Gran documento sobre C-GAN, la nueva herramienta para personas CV / ML]

[1611.07004] Traducción de imagen a imagen con redes adversas condicionales

Imagen entrante, cuadrícula de voxel: reconstrucción de objetos en 3D con CNN

16. 3D-R2N2: un enfoque unificado para la reconstrucción de objetos 3D en una o varias vistas

https://arxiv.org/pdf/1604.00449…

Procesamiento de videos con CNN (varios fotogramas en un solo pase directo)

17. Aprendizaje de características espaciales temporales

http://www.cv-foundation.org/ope…

Procesamiento de videos con CNN (cuadro único a la vez, empleando RNN)

18. Evaluación empírica de redes neuronales recurrentes activadas en el modelado de secuencias [Nota: gran introducción general a RNN / LSTM. No imagen]

https://arxiv.org/pdf/1412.3555.pdf

Nota: Consulte también la publicación de blog de Andrej Karpathy en RNN para obtener una excelente introducción.

La efectividad irracional de las redes neuronales recurrentes

19. RNN para el modelado del lenguaje (aprendizaje secuencial a secuencia con RNN, necesario para comprender los siguientes documentos de visión por computadora)

http://papers.nips.cc/paper/5346…

20. Uso de RNN con CNN para el reconocimiento de acciones

http://www.cv-foundation.org/ope…

Usando RNNs para generar texto

21. Uso de RNN con CNN para subtítulos de imágenes

http://www.cv-foundation.org/ope…

Combinando entrada de imagen con una entrada de vector

22. Modelos 3D de múltiples vistas a partir de imágenes individuales con una red convolucional

https://arxiv.org/pdf/1511.06702…

Usar CNN como una tabla hash de imágenes (o usar CNN para su capacidad de memorización frente a su capacidad de generalización)

23. Redes convolucionales para la relocalización de cámaras 6-DOF en tiempo real http://mi.eng.cam.ac.uk/~agk34/r…

Nube de puntos no estructurados, salida de clase

24. Deep Kd-Networks para el reconocimiento de modelos de nube de puntos 3D

Aprendizaje automáticoAprendizaje profundoArquitecturaRedes neuronales artificialesvisión