¿Por qué la pérdida de entropía cruzada sigue disminuyendo incluso si la pérdida del indicador ha dejado de disminuir cuando se usa una capa softmax para la clasificación?

Debido a que la pérdida de entropía cruzada depende del “margen” (la probabilidad de la etiqueta correcta menos la probabilidad de la etiqueta incorrecta más cercana), mientras que la pérdida del indicador solo analiza si la etiqueta correcta tiene la probabilidad más alta. Entonces, esencialmente, están mirando diferentes cantidades, y no hay razón para que se comporten de manera idéntica.

Veamos un ejemplo rápido de juguete. Supongamos que tiene un punto de datos con solo 1 instancia de entrenamiento y 5 posibles clases 1, 2, 3, 4, 5. Deje que la verdadera etiqueta de la única instancia de entrenamiento sea 2.

Suponga que en algún momento del entrenamiento, sus probabilidades predichas por el modelo son [matemáticas] [0.3, 0.4, 0.2, 0.1, 0] [/ matemáticas]. Entonces la clase predicha es 2, que es correcta. La pérdida del indicador es, por lo tanto, 0. La pérdida de entropía cruzada es la negativa de la probabilidad de la clase 2, que es -0.4. Ahora, si entrena más su modelo, y las nuevas probabilidades son [matemáticas] [0.1, 0.8, 0.05, 0.05, 0] [/ matemáticas], la pérdida del indicador permanece en cero, pero la pérdida de entropía cruzada se reduce a – 0.8. Claramente, este es un resultado más deseable que el último conjunto de probabilidades porque el “margen” es mayor. Por lo tanto, tiene sentido seguir entrenando su modelo incluso después de que la pérdida del indicador haya dejado de disminuir, si la pérdida de entropía cruzada sigue disminuyendo.

La salida ideal es [matemática] [0, 1, 0, 0, 0] [/ matemática].

EntropíaMatemáticas

Related Content

Supongamos que aprendimos que algún teorema matemático establecido es incorrecto, pero no sabemos cuál. ¿Cuál, en tu opinión, es más probable que esté mal?

¿Por qué la mayoría teme a las matemáticas?

¿Cuáles son algunos problemas de la vida real que se pueden resolver utilizando el concepto de progresión aritmética y geométrica?

Cómo hacer recomendaciones después de llevar a cabo esta asignación de probabilidad

¿Cuáles son algunos buenos recursos para aprender más sobre la Sección 382 del código del IRS?

Si a! \ B! es divisible por 4, pero no por 8, entonces, ¿cuál es el valor máximo de a – b?

¿Se puede decir algo sobre los conjuntos de niveles de un polinomio, en función de cuáles son sus ceros? ¿Hay alguna relación entre ellos?

More Interesting

Cómo etiquetar cada eje en un gráfico lineal con relaciones

Si un hombre va de A a B a C y se fue a casa a B y A, ¿cuántos caminos diferentes podría recorrer el hombre?

Cómo enamorarse de las matemáticas

¿Qué es la secuencia en el análisis real? ¿Puedes elaborar el concepto de convergencia de secuencia con la ayuda de un gráfico?

Soy pobre en matemáticas. ¿Qué dice eso sobre mi inteligencia?

Rompecabezas matemáticos: A y B borran líneas de una serie de N líneas, tomando turnos. Si A comienza a borrar líneas, ¿qué estrategia debe adoptar para asegurarse de que no tenga que borrar el último conjunto de líneas?

¿Cuál es el valor de [matemáticas] x [/ matemáticas], para [matemáticas] [x [x [x [x]]]] = 2001 [/ matemáticas], donde [matemáticas] [x] [/ matemáticas] es el mayor función entera de [matemáticas] x [/ matemáticas]?

¿Alguna vez has oído hablar de un talento puro en la lectura de fórmulas matemáticas? Estoy hablando de comprender el significado de una fórmula tan pronto como la leas.

¿Cuál es el problema abierto más antiguo en matemáticas?

¿Cuántas veces aparece el dígito [math] 2 [/ math] en la representación decimal de enteros de [math] 1 [/ math] a [math] n [/ math]?

¿Cuál es la respuesta de 1 + 1?

¿Son todas las paradojas lógicas causadas por la autorreferencia?

¿Cómo se usan las matemáticas en la teoría de juegos?

¿Podría Shinichi Mochizuki haber usado razonablemente un asistente de prueba como Coq para formalizar su prueba de la Conjetura ABC?

¿Qué se entiende por "en la teoría de conjuntos podemos construir las estructuras de todo tipo"?

Web Analytics