¿La desviación estándar teórica u observada tiene algún significado práctico cuando la distribución teórica u observada no es simétrica?

Yo era A2A, así que lo intentaré.

Primero, dos declaraciones de hechos.

1) La verdadera desviación estándar de una población es la raíz cuadrada de la distancia cuadrada promedio a la media de la distribución.

2) Si suponemos que la muestra es adecuadamente aleatoria y que la distribución tiene una varianza finita, entonces la desviación estándar de la muestra utilizada típicamente tiene las propiedades de que su cuadrado es una estimación imparcial del cuadrado de la verdadera desviación estándar y es, en sí mismo , un estimador consistente para la verdadera desviación estándar. (Consistente significa que el estimador converge en probabilidad al parámetro que estima a medida que el tamaño de la muestra llega al infinito).

A la luz de estas dos afirmaciones, tanto la verdadera desviación estándar como su estimador ciertamente siguen teniendo un significado claro incluso cuando la distribución subyacente no es normal. Sin embargo, en el caso habitual cuando no conoce exactamente la distribución subyacente, conocer la desviación estándar o incluso tener una buena estimación de su valor es de uso limitado.

Por supuesto, si conoce la distribución subyacente, en algunos casos, la verdadera desviación estándar es suficiente para caracterizar completamente la distribución. Por ejemplo, si sabe que la distribución está distribuida exponencialmente, la desviación estándar es igual a la media y este valor es suficiente para conocer la distribución completa. Si la distribución es Poisson, entonces el cuadrado de la desviación estándar es igual a la media y, nuevamente, es suficiente para describir completamente la distribución. Entonces, en algunos casos especiales como ese, incluso una estimación de la desviación estándar podría ser bastante útil. Pero yo diría que en un caso general, ese parámetro por sí solo no es suficiente para ser útil.

Sí, tiene sentido. Sin embargo, no es el significado que normalmente asociaría con la desviación estándar como medida de propagación. Si le interesa simplemente responder la pregunta “¿Qué tan extendida es la distribución de manera significativa?” y ve que los datos están sesgados, a menos que quiera y pueda transformar los datos en una distribución simétrica, podría usar algo basado en cuantiles.

La desviación estándar a menudo se usa para ver cuán sesgada es una distribución. Existe en el cálculo de los momentos superiores (y, por lo tanto, tiene una utilidad teórica, especialmente si desea entrar en propiedades asintóticas o está considerando distribuciones de muestreo), y puede usarse como una herramienta de diagnóstico (y por lo tanto tiene una utilidad empírica).

Sin embargo, un problema que he encontrado es que con bastante frecuencia las personas usan mal, por ejemplo, la desviación estándar, porque no verifican la distribución de los datos.

Suponga que la desviación cuadrática explica perfectamente su función de costo o riesgo. Por ejemplo, si tiene una presa que puede soportar x newtons de presión, una inundación que ejerza y ​​newtons de presión causa (xy) ^ 2 dólares de daño. Entonces, todavía está muy interesado en la desviación estándar de la distribución de X, porque le indica su pérdida esperada. Incluso la desviación estándar empírica le da una aproximación de su pérdida.

Hacer este cálculo funciona con variables aleatorias normales o extrañas sesgadas. La única diferencia con la variable aleatoria normal es que especifica completamente la distribución. Pero eso es realmente una exageración, si lo que te importa es el segundo momento.

Por supuesto, el SD es alwan is, y es el resultado de ciertos cálculos *. Pero usted preguntó sobre el “significado práctico” y eso dependerá de cuán no simétrica sea la distribución y de qué maneras.

Mi regla general es que si la media no tiene sentido, tampoco lo hace la SD, ya que la media es parte del cálculo de la SD. Sin embargo, la pregunta “cuando la media tiene sentido” depende de la pregunta que desea hacer, así como de la forma de la distribución.

Usualmente usamos el ingreso medio en lugar de la media, pero la media a veces tiene sentido. ¿Tiene sentido la SD? Bueno, cual es la pregunta?

Por lo general, queremos que la desviación estándar (de la población) mida qué tan “extendida” es una distribución. Para encontrarlo, calculamos la distancia cuadrada promedio de la media, luego tomamos la raíz cuadrada (para ponerla en las mismas unidades que los datos originales).

Si la distribución no es simétrica, la media puede no ser una buena medida del centro de los datos y, por lo tanto, la diferencia promedio de este valor puede no medir la dispersión muy bien. (Imagine un conjunto de datos con un punto periférico muy extremo y el resto de los puntos muy juntos; en este caso, podemos rechazar la media como medida de centro y la desviación estándar como medida de dispersión).

La desviación estándar puede perder significado como medida de propagación incluso cuando los datos son simétricos. Imagine un conjunto de datos con muchos puntos muy juntos y uno atípico a cada lado de este grupo, cada uno a la misma distancia. La media de los datos puede estar bien como medida del centro, pero las distancias al cuadrado de la media en sí son muy asimétricas. Aquí la distancia cuadrada promedio no refleja la distancia cuadrada “típica” de la media. En este caso, podríamos aceptar la media como una medida de centro pero rechazar la desviación estándar como una medida de propagación.

Me sorprende que nadie aquí haya mencionado la desigualdad de Chebyshev.

Resulta que, independientemente de la distribución , la desviación estándar proporciona límites (modestos) en la difusión de los datos.

Esto a veces se llama la “Regla 0 – 75 – 89”, porque estos son los porcentajes mínimos de datos que se encuentran dentro de 1, 2 y 3 desviaciones estándar de la media, respectivamente.

More Interesting

Suponiendo que puede viajar en el tiempo, decide ir a t = 200 segundos y la hora actual es t = 0. Pasas exactamente 200 segundos en el futuro. Entonces, ¿dónde estás entre t = 0 a t = 200 segundos con referencia al marco del presente?

¿Por qué alguien debería estudiar física de la materia condensada blanda?

¿Se cuantifica la masa?

¿Cuáles, si las hay, son las aplicaciones generalizadas de la teoría cuántica de campos en la actualidad?

¿Es posible almacenar energía con un 100 por ciento de eficiencia?

Una partícula cargada liberada del reposo en una región de campos eléctricos y magnéticos estables y uniformes, que son paralelos entre sí ¿cuál será la naturaleza del camino seguido por la partícula cargada?

¿Se considera que los semimetales de Weyl son un tema de investigación candente en la física teórica de la materia condensada?

¿Los electrones todavía se consideran partículas fundamentales?

En física, ¿cuáles son las diferencias entre masa negativa y masa efectiva negativa?

Partículas elementales: ¿Por qué encontrar la primera evidencia de la teoría M habría sido más útil para comprender la naturaleza que encontrar el bosón de Higgs?

¿Cómo enredar dos partículas? ¿Qué se necesita? ¿Pueden enredarse más de dos partículas y cuáles serán los resultados?

Si pudiéramos construir una unidad de deformación, ¿podríamos presenciar todos los eventos históricos de la Tierra al mirar hacia atrás?

¿Se puede probar o falsificar alguna de las teorías físicas de 'Next Einsteins' de Lee Smolin?

¿Las teorías con dimensiones adicionales muestran demasiada libertad?

¿Cómo puede el estrés curvar el espacio-tiempo?