¿Por qué la pérdida de entropía cruzada sigue disminuyendo incluso si la pérdida del indicador ha dejado de disminuir cuando se usa una capa softmax para la clasificación?

Debido a que la pérdida de entropía cruzada depende del “margen” (la probabilidad de la etiqueta correcta menos la probabilidad de la etiqueta incorrecta más cercana), mientras que la pérdida del indicador solo analiza si la etiqueta correcta tiene la probabilidad más alta. Entonces, esencialmente, están mirando diferentes cantidades, y no hay razón para que se comporten de manera idéntica.

Veamos un ejemplo rápido de juguete. Supongamos que tiene un punto de datos con solo 1 instancia de entrenamiento y 5 posibles clases 1, 2, 3, 4, 5. Deje que la verdadera etiqueta de la única instancia de entrenamiento sea 2.

Suponga que en algún momento del entrenamiento, sus probabilidades predichas por el modelo son [matemáticas] [0.3, 0.4, 0.2, 0.1, 0] [/ matemáticas]. Entonces la clase predicha es 2, que es correcta. La pérdida del indicador es, por lo tanto, 0. La pérdida de entropía cruzada es la negativa de la probabilidad de la clase 2, que es -0.4. Ahora, si entrena más su modelo, y las nuevas probabilidades son [matemáticas] [0.1, 0.8, 0.05, 0.05, 0] [/ matemáticas], la pérdida del indicador permanece en cero, pero la pérdida de entropía cruzada se reduce a – 0.8. Claramente, este es un resultado más deseable que el último conjunto de probabilidades porque el “margen” es mayor. Por lo tanto, tiene sentido seguir entrenando su modelo incluso después de que la pérdida del indicador haya dejado de disminuir, si la pérdida de entropía cruzada sigue disminuyendo.

La salida ideal es [matemática] [0, 1, 0, 0, 0] [/ matemática].

More Interesting

Cómo etiquetar cada eje en un gráfico lineal con relaciones

Si un hombre va de A a B a C y se fue a casa a B y A, ¿cuántos caminos diferentes podría recorrer el hombre?

Cómo enamorarse de las matemáticas

¿Qué es la secuencia en el análisis real? ¿Puedes elaborar el concepto de convergencia de secuencia con la ayuda de un gráfico?

Soy pobre en matemáticas. ¿Qué dice eso sobre mi inteligencia?

Rompecabezas matemáticos: A y B borran líneas de una serie de N líneas, tomando turnos. Si A comienza a borrar líneas, ¿qué estrategia debe adoptar para asegurarse de que no tenga que borrar el último conjunto de líneas?

¿Cuál es el valor de [matemáticas] x [/ matemáticas], para [matemáticas] [x [x [x [x]]]] = 2001 [/ matemáticas], donde [matemáticas] [x] [/ matemáticas] es el mayor función entera de [matemáticas] x [/ matemáticas]?

¿Alguna vez has oído hablar de un talento puro en la lectura de fórmulas matemáticas? Estoy hablando de comprender el significado de una fórmula tan pronto como la leas.

¿Cuál es el problema abierto más antiguo en matemáticas?

¿Cuántas veces aparece el dígito [math] 2 [/ math] en la representación decimal de enteros de [math] 1 [/ math] a [math] n [/ math]?

¿Cuál es la respuesta de 1 + 1?

¿Son todas las paradojas lógicas causadas por la autorreferencia?

¿Cómo se usan las matemáticas en la teoría de juegos?

¿Podría Shinichi Mochizuki haber usado razonablemente un asistente de prueba como Coq para formalizar su prueba de la Conjetura ABC?

¿Qué se entiende por "en la teoría de conjuntos podemos construir las estructuras de todo tipo"?