¿Qué hace que las arquitecturas de redes neuronales convolucionales sean diferentes?

AlexNet, VGG, GoogLeNet y ResNets emplean métodos (por ejemplo, abandono, regularización, aumento de datos, etc.) para evitar el sobreajuste, lo que significa que tienen la capacidad suficiente para capturar el patrón del conjunto de datos. ¿Por qué se desempeñan de manera diferente?

Que yo sepa, esta pregunta está por lo menos parcialmente sin resolver todavía. Nadie puede darte una respuesta completa. Pero déjenme escribir mis propios pensamientos (quizás confusos) sobre el asunto.

Estos métodos tienen que emplear la regularización, no necesariamente porque la red respectiva en general tiene capacidad más que suficiente, sino porque el método de entrenamiento y la capacidad en diferentes capas pueden causar que algunas partes de la red se sobreajusten (aprenda correlaciones accidentales en lugar de solo correlaciones representativas) . Es decir, en una arquitectura de red dada, tal vez la capacidad en la capa 3 sea más de la necesaria aunque las capas posteriores y / o anteriores tengan cuellos de botella en la capacidad.

Por otro lado, dado que nadie está señalando explícitamente cuáles son las correlaciones accidentales: simplemente están allí porque el tamaño del conjunto de entrenamiento es relativamente pequeño (incluso con millones de imágenes), queremos proporcionar una capacidad más que suficiente y buena suficiente regularización que expone solo la capacidad que es realmente necesaria para el problema en cuestión, es decir, limitar artificialmente el número efectivo de parámetros, ¡y luego mantener los dedos cruzados!

Creo que la mayoría de la gente dirá que AlexNet casi con certeza no se ajusta al problema de reconocimiento visual, razón por la cual ha sido superado por todas las arquitecturas más recientes, sin embargo, uno tiene que utilizar esquemas de regularización como DropOut incluso cuando se entrena AlexNet para garantizar que el aprendizaje se mantenga enfocado en correlaciones representativas (las más fuertes) y no en el ruido de entrenamiento. Por otro lado, los enfoques de destilación de conocimiento han producido precisiones superiores incluso con AlexNet, cuando es “enseñado” por una red de ancianos. ¡Esto significa que simplemente no tenemos los algoritmos de aprendizaje y los esquemas de regularización óptimos!