No estoy seguro de si esto es lo que está buscando, pero la forma más sencilla de verlo es utilizando los derivados de las funciones de costo. Veamos una función realmente simple, la distancia al cuadrado a un punto objetivo [matemática] c [/ matemática]
[Matemáticas] f_2 (x) = (x – c) ^ 2 \ implica \ frac {df_2} {dx} (x) = 2 (x – c) [/ matemáticas]
La derivada crece linealmente con la distancia al objetivo, por lo que los puntos más alejados del objetivo tienen un efecto mayor cuando se trata de minimizarlo. Compare esto con la norma L1:
- ¿Es posible tener discalculia y aún poder hacer álgebra?
- Cómo encontrar el valor de x [matemáticas] 5 \ leq \ left | x-2 \ derecha | + \ izquierda | x-5 \ right | <7 [/ math]
- Cómo ingresar a la producción musical si no tengo experiencia en el campo de la música y no puedo dejar mi trabajo porque necesito dinero para sobrevivir
- ¿Es la condición para la existencia de un límite que involucra la raíz cuadrada la misma que otras funciones?
- ¿Las pruebas oficiales de coeficiente intelectual solo miden la inteligencia lógica / matemática?
[matemáticas] f_1 (x) = | x – c | \ implica \ frac {df_1} {dx} (x) = \ mathrm {sign} (xc) [/ math]
Entonces la derivada es constante con respecto a la distancia al objetivo. Por lo tanto, los errores más grandes tienen el mismo efecto en el costo que los más pequeños. Es por eso que la gente considera que el L1 es más ‘robusto’. También se puede hacer con los objetivos de los errores más grandes han disminuyendo efecto sobre el costo, pero entonces se obtiene funciones no convexas y los que son más de un dolor de optimizar.