¿Cuál es la conexión entre la mecánica estadística y el aprendizaje profundo?

El método de retropropagación para entrenar una red neuronal artificial minimiza una función de pérdida: la precisión de la red neuronal en el conjunto de entrenamiento aumenta a medida que disminuye la función de pérdida. Debido a que esta función de pérdida se define en el espacio multidimensional de los coeficientes del modelo, es útil hacer la analogía con otro problema de minimización multidimensional, la minimización de energía potencial para sistemas físicos de muchos cuerpos.

La técnica estándar de descenso de gradiente encuentra el mínimo local. Tanto en las redes neuronales como en los sistemas de materia condensada, la función de pérdida puede ser no convexa en función de sus grados de libertad, por lo que el mínimo local podría no ser el mínimo global. Haciendo la analogía con la topografía bidimensional, puede ser una cuenca separada de otras cuencas por crestas y monturas. En estos casos, el descenso de gradiente encontrará una solución local que es menos precisa que la solución global. Para encontrar el mínimo global, es útil tomar prestadas técnicas adicionales de la física.

Una forma de encontrar el mínimo de energía de un modelo teórico para un sistema de materia condensada es simular el movimiento de las partículas de acuerdo con las leyes físicas (por ejemplo, las leyes de Newton) a medida que la temperatura se reduce de una temperatura alta a una temperatura baja. Esta técnica mecánica estadística, llamada recocido simulado, permite al sistema explorar diferentes cuencas en el paisaje energético mientras la temperatura es alta. A medida que disminuye la temperatura, el sistema pasa más tiempo en cuencas más grandes y profundas (cuencas con mayor entropía a esa temperatura). Con una programación juiciosa de la reducción de la temperatura, el sistema a menudo eventualmente se instalará en la cuenca de energía más baja. Para sistemas complejos no hay garantía de que el recocido simulado encuentre el mínimo global, pero generalmente encuentra un mínimo igual o menor que el encontrado por el descenso de gradiente.

El descenso de gradiente y el recocido simulado también están relacionados con procesos físicos reales. Por ejemplo, un líquido se puede enfriar lentamente (recocido), lo que permite que el líquido encuentre configuraciones cristalinas cercanas a su mínimo global, o se puede enfriar rápidamente (vitrificado), lo que obliga a la configuración a acercarse a la energía cuesta abajo y producir un configuración vítrea, una configuración que es sólida porque está en un mínimo local profundo pero está desordenada porque está lejos de su mínimo global cristalino.

Debido a la naturaleza igualmente compleja y no convexa de las redes neuronales artificiales, también se ha encontrado que el recocido simulado es una técnica útil para entrenar redes neuronales artificiales.

Otras técnicas para minimizar las redes neuronales artificiales también utilizan analogías con la física debido a la similitud entre las funciones de pérdida de la red neuronal y las funciones de energía potencial de muchas partículas. El descenso de gradiente con impulso le da al conjunto de coeficientes un término de impulso para que, en lugar de ir estrictamente cuesta abajo en la función de pérdida, el equilibrio de impulso de los coeficientes continúe en la misma dirección con el descenso en la función de pérdida, en analogía exacta con un sistema físico con impulso.

Cabe señalar que no todos los aspectos de la propagación hacia atrás tienen analogías con la física. La técnica de mini lotes aborda específicamente la tendencia de la propagación hacia atrás para sobreajustar un conjunto de entrenamiento. Esto es un problema porque el modelo entrenado debe aplicarse a conjuntos de prueba separados. La analogía más cercana en mecánica estadística podría ser una minimización de energía que sobreajuste un conjunto particular de interacciones entre partículas. Sin embargo, en física no es necesario aplicar la solución a una minimización de energía a un sistema con diferentes interacciones: nadie esperaría que un sistema con interacciones modificadas tuviera exactamente la misma configuración minimizada. En cambio, a menudo se aplican consideraciones teóricas para comprender cómo las configuraciones o propiedades estadísticas de las configuraciones dependen de los detalles de las interacciones entre partículas.

A lo mejor de mi conocimiento bastante limitado, la estadística es importante porque los algoritmos solo buscan patrones estadísticos en los datos cuando aprenden y luego generan predicciones basadas en esos modelos. Por ejemplo, si arrojas una moneda 30 veces y ves la cabeza 25 veces, si el resto sale, predecirás que un futuro lanzamiento será cara. Ejemplo demasiado simplificado pero tipo de lo que sucede

Aquí hay uno que me ha dejado una impresión recientemente: las técnicas de grupo de renormalización variacional se han utilizado para teorizar que las redes neuronales profundas son efectivas en la generalización porque son esencialmente de grano grueso sus entradas: https://arxiv.org/pdf/1410.3831 .pdf

Otros resultados provienen de áreas como la teoría de matrices aleatorias, que nació en la década de 1950 a partir del estudio de los espectros atómicos de núcleos pesados ​​y desde entonces se ha aplicado al caos cuántico, la neurociencia teórica y ahora aparentemente el paisaje de pérdida de las redes neuronales. Los trabajos recientes de Jeffrey Pennington (por ejemplo, https: //static.googleusercontent …).