Consideremos el siguiente modelo de regresión:
[matemática] y_i = \ beta_0 + \ beta_1 x_ {1i} + \ dots + \ beta_k x_ {ki} + \ varepsilon_i, [/ math]
o en su forma matricial:
- Un camión cargado y un automóvil corriendo a la misma velocidad, ¿qué tendrá más energía cinética?
- ¿Por qué no mover mi brazo contradice la conservación del momento lineal / angular?
- ¿A qué distancia disminuirían los niveles de agua si cada objeto hecho por el hombre desapareciera del agua?
- ¿La presión de saturación del vapor de agua a una temperatura particular depende de la presión circundante, es decir, la presión de la atmósfera?
- ¿Qué es el calor?
[matemáticas] Y = X \ beta + \ varepsilon, [/ matemáticas]
donde [matemáticas] i = 1, \ puntos, n [/ matemáticas].
La [matemática] R ^ 2 [/ matemática] representa la proporción de la varianza capturada (o explicada) por sus variables explicativas [matemática] k [/ matemática]. Su definición formal es:
[matemáticas] R ^ 2 = \ frac {ESS} {TSS} = \ frac {\ sum_ {i = 1} ^ n (\ hat y_i – \ bar {\ hat {y}}) ^ 2} {\ sum_ { i = 1} ^ n (y_i – \ bar y) ^ 2} [/ math]
donde [math] \ hat y_i = y_i – \ hat \ varepsilon [/ math]. (ESS y TSS representan respectivamente la suma explicada de cuadrados y la suma total de cuadrados).
Ahora, para comprender por qué la [matemática] R ^ 2 [/ matemática] se infla cuando aumenta el valor de [matemática] k [/ matemática], debe recordar que una regresión minimiza la suma de los errores al cuadrado, resolviendo
[matemáticas] \ min_ \ beta \ sum_ {i = 1} ^ n \ varepsilon_i ^ 2 = \ min_ \ beta \ sum_ {i = 1} ^ n (y_i-X_i \ beta) ^ 2 [/ matemática].
La ecuación anterior resuelve los valores de los coeficientes de manera que los errores al cuadrado se minimizan, o de manera equivalente, los valores de los coeficientes de tal manera que lo que puede explicar, es decir, [matemática] R ^ 2 [/ matemática], es maximizado
Por lo tanto, siempre que agregue una variable a su modelo, el valor de su coeficiente estimado puede ser cero, en cuyo caso la proporción de la varianza explicada ([matemática] R ^ 2 [/ matemática]) permanece sin cambios o toma un valor distinto de cero porque mejora la calidad del ajuste . Por construcción, su [matemática] R ^ 2 [/ matemática] no puede ser más pequeña después de agregar una variable.