¿Cuáles son algunos documentos de aprendizaje profundo que deben implementarse que todo investigador de DL debe implementar?

Hmm pregunta interesante, gracias por el A2A! Por lo general, no es trivial volver a implementar un documento de aprendizaje profundo existente. Así que responderé a esta pregunta de una manera ligeramente diferente sugiriendo documentos que creo que todo investigador de DL debería saber (¡y entender!) Para asimilar las ideas fundamentales. Obviamente, esta lista es subjetiva y refleja mis propios antecedentes / pensamiento, por lo que otros probablemente tendrán una lista diferente.

“Reducción de la dimensionalidad de los datos con redes neuronales” (https://www.cs.toronto.edu/~hint…) ofrece una buena visión general de alto nivel de cómo funciona un codificador automático (implementado con un RBM). Este documento es bastante antiguo y el modelo en sí mismo no es tan importante, ya que la mayoría de las investigaciones de DL se han alejado de RBM. Pero este documento sigue siendo muy relevante para ilustrar lo que está haciendo una red neuronal al modelar datos, que es una lectura bastante perspicaz antes de sumergirse en la literatura más reciente. En particular, captura los principios principales detrás de la idea del aprendizaje basado en características que es fundamental para el aprendizaje profundo.
La “Clasificación de ImageNet con redes neuronales convolucionales profundas” (https://www.nvidia.cn/content/te…) es el documento OG que impulsó el dominio de las CNN en la visión por computadora. Además, reavivó el interés en la investigación de redes neuronales después de haber sido abandonado en gran medida durante un par de décadas (Yann LeCun tiene algunas historias interesantes de lo que era hacer investigación en CNN antes de 2010). Además de la relevancia histórica, también ilustra por qué un enfoque basado en el aprendizaje de características es deseable para problemas de IA a gran escala.
“Un modelo de lenguaje neural probabilístico” (http://www.jmlr.org/papers/volum…) es uno de los documentos más antiguos (2003?) Que describe cómo se puede aplicar una red neuronal al problema del modelado del lenguaje. Fue uno de los primeros documentos que ilustraron la noción de usar una red neuronal para aprender la inserción de palabras. Una vez que haya leído este documento, debe tener una idea bastante intuitiva de cómo funcionan las incorporaciones de palabras y qué tipo de propiedades capturan.
Las “Redes neuronales de rectificador de dispersión profunda” (http://proceedings.mlr.press/v15…) son realmente agradables para comprender qué está haciendo una función de activación ReLu al entrenar redes profundas y los problemas que aborda. Además, debería darle una idea bastante clara de cuándo y cuándo no utilizar las funciones de activación de ReLu.
“Abandono: una forma simple de evitar que las redes neuronales se sobreajusten” (http://www.jmlr.org/papers/volum…) es un documento muy relevante para comprender lo que sucede al entrenar una red con abandono. La investigación sobre los métodos relacionados con la deserción ha explotado desde que se publicó este documento, con algunos enfoques que reemplazan el enfoque descrito aquí en los sistemas de vanguardia. Pero aún es importante entender este documento para conectar todos esos otros trabajos en su cabeza y saber cómo se relacionan entre sí.

Aprendizaje automáticoAprendizaje profundoDocumentos académicosRedes neuronales artificiales