¿Cuál es la prueba matemática de que el método de mínimos cuadrados penaliza / magnifica errores más grandes?

No estoy seguro de si esto es lo que está buscando, pero la forma más sencilla de verlo es utilizando los derivados de las funciones de costo. Veamos una función realmente simple, la distancia al cuadrado a un punto objetivo [matemática] c [/ matemática]

[Matemáticas] f_2 (x) = (x – c) ^ 2 \ implica \ frac {df_2} {dx} (x) = 2 (x – c) [/ matemáticas]

La derivada crece linealmente con la distancia al objetivo, por lo que los puntos más alejados del objetivo tienen un efecto mayor cuando se trata de minimizarlo. Compare esto con la norma L1:

[matemáticas] f_1 (x) = | x – c | \ implica \ frac {df_1} {dx} (x) = \ mathrm {sign} (xc) [/ math]

Entonces la derivada es constante con respecto a la distancia al objetivo. Por lo tanto, los errores más grandes tienen el mismo efecto en el costo que los más pequeños. Es por eso que la gente considera que el L1 es más ‘robusto’. También se puede hacer con los objetivos de los errores más grandes han disminuyendo efecto sobre el costo, pero entonces se obtiene funciones no convexas y los que son más de un dolor de optimizar.