Debido a que la pérdida de entropía cruzada depende del “margen” (la probabilidad de la etiqueta correcta menos la probabilidad de la etiqueta incorrecta más cercana), mientras que la pérdida del indicador solo analiza si la etiqueta correcta tiene la probabilidad más alta. Entonces, esencialmente, están mirando diferentes cantidades, y no hay razón para que se comporten de manera idéntica.
Veamos un ejemplo rápido de juguete. Supongamos que tiene un punto de datos con solo 1 instancia de entrenamiento y 5 posibles clases 1, 2, 3, 4, 5. Deje que la verdadera etiqueta de la única instancia de entrenamiento sea 2.
Suponga que en algún momento del entrenamiento, sus probabilidades predichas por el modelo son [matemáticas] [0.3, 0.4, 0.2, 0.1, 0] [/ matemáticas]. Entonces la clase predicha es 2, que es correcta. La pérdida del indicador es, por lo tanto, 0. La pérdida de entropía cruzada es la negativa de la probabilidad de la clase 2, que es -0.4. Ahora, si entrena más su modelo, y las nuevas probabilidades son [matemáticas] [0.1, 0.8, 0.05, 0.05, 0] [/ matemáticas], la pérdida del indicador permanece en cero, pero la pérdida de entropía cruzada se reduce a – 0.8. Claramente, este es un resultado más deseable que el último conjunto de probabilidades porque el “margen” es mayor. Por lo tanto, tiene sentido seguir entrenando su modelo incluso después de que la pérdida del indicador haya dejado de disminuir, si la pérdida de entropía cruzada sigue disminuyendo.
- Si a! \ B! es divisible por 4, pero no por 8, entonces, ¿cuál es el valor máximo de a – b?
- ¿Cómo logró Abhinav Kumar obtener una puntuación tan alta en IIT JEE 1998 en Matemáticas?
- ¿Por qué 1 * -1 = -1 y -1 * -1 = 1?
- ¿Qué tipo de curva sería, [matemáticas] \ sqrt {x} + \ sqrt {y} = \ sqrt {a} [/ matemáticas]?
- ¿Qué tan pequeño es un micrómetro?
La salida ideal es [matemática] [0, 1, 0, 0, 0] [/ matemática].