Dadas las distribuciones acumulativas, ¿cómo encuentro la media y la desviación estándar (curva normal)?

Tome las definiciones integrales de media y varianza, y realice un cambio de variables [math] u = \ textrm {CDF} (x) [/ math], [math] du = \ textrm {CDF} ‘(x) \, dx = \ textrm {PDF} (x) \, dx [/ math]:

[matemáticas] \ mu = \ int _ {- \ infty} ^ \ infty x \, \ textrm {PDF} (x) \, dx = \ int_0 ^ 1 \ textrm {CDF} ^ {- 1} (u) \, du [/ math],
[matemáticas] \ sigma ^ 2 = \ int _ {- \ infty} ^ \ infty x ^ 2 \, \ textrm {PDF} (x) \, dx – \ mu ^ 2 [/ math]
[matemáticas] = \ int_0 ^ 1 (\ textrm {CDF} ^ {- 1} (u)) ^ 2 \, du – \ mu ^ 2 [/ matemáticas].

Esto no requiere que asumas una distribución normal. Puede usar estas fórmulas siempre que tenga suficientes puntos de datos para aproximar la función inversa [matemática] \ textrm {CDF} ^ {- 1} [/ matemática] con la precisión deseada. Solo los tres puntos de datos que proporcionó no serán lo suficientemente buenos (por ejemplo, solo vinculan [math] 0 \ le \ textrm {CDF} ^ {- 1} (u) \ le .7 [/ math] cuando [math] ] 0 <u <.75 [/ math]), pero si tiene más información sobre la mitad inferior de la curva, esto debería estar bien.

Veamos algo de perspectiva. Suponga que el 100% de los estudiantes obtienen un puntaje de 100 o menos y el 0% de los estudiantes obtienen un puntaje de 0 o menos. La distribución acumulativa es entonces una curva estrictamente creciente desde la esquina inferior izquierda hasta la esquina superior derecha de un cuadro de 1 × 1. (El eje horizontal del recuadro es la fracción de respuestas correctas. El eje vertical del recuadro es la fracción de estudiantes con puntajes iguales o inferiores a ese nivel)

Aquí están los datos que tienes:

Los tres puntos en la esquina superior derecha son sus datos. Los dos puntos adicionales en los vértices son el hecho de que todos los estudiantes obtienen algo entre cero y uno. Te preguntas cómo se ve el resto de la curva, en función de esos puntos.

Solo tienes información sobre la esquina superior. ¿Por qué te sentirías con derecho a ejecutar algunas ecuaciones y saber lo que sucedió en la parte inferior? Sin antecedentes sólidos, simplemente no hay forma de decir qué sucede en una región que está muy lejos de donde se encuentran sus datos. Hay muchas posibilidades, y si se te ocurre una prueba estadística que te diga con certeza que tal y tal es la respuesta, te has engañado a ti mismo.

Para responder a su pregunta, dado que una distribución normal tiene dos grados de libertad, no se ajustará perfectamente a tres puntos de datos. Además, no se ajustará a los puntos finales (0,0) y (1,1). Eso es de esperarse: si sus datos se ajustan perfectamente a su modelo, ¡su modelo tiene demasiados grados de libertad!

No sabemos si los datos son normales, pero si tiene buenas razones para creer que debería serlo, puede obtener algo como esto:


Esta curva normal particular tiene una media del 60% y una desviación estándar del 19%.

Obtuve esto simplemente diciéndole al software que dibuje un CDF normal y jugando con los parámetros hasta que se vea bastante bien. Podría hacer algo más elegante, como minimizar el error al cuadrado entre la curva y los datos o maximizar la probabilidad de que una distribución normal con parámetros dados produzca los datos conocidos. Incluso podría usar estadísticas bayesianas para inferir una distribución de probabilidad para la media y la desviación estándar de la curva normal.

Sin embargo, todo eso sería una tontería, ya que no sabemos que la curva es normal, y realmente no sabemos mucho de nada fuera de la esquina superior derecha. Si desea saber más sobre la distribución, necesitará más datos.