¿Cuándo usamos la prueba de hipótesis?

Por lo general, en las pruebas de hipótesis, evaluamos dos afirmaciones mutuamente excluyentes sobre una población para determinar qué afirmación es mejor respaldada por los datos de la muestra.

¿Por qué necesitamos realizar pruebas de hipótesis?

Obtuvimos solo una muestra de datos de la población. Con base en los datos de la muestra, necesitamos hacer una inferencia para una población.

Ejemplos:

  1. El médico quiere saber que los niños que toman vitamina C tienen menos probabilidades de enfermarse.
  2. El fabricante desea verificar que la calidad del producto cumple con los criterios especificados previamente.
  3. Los científicos quieren saber que los niños pequeños no son necesariamente propensos a tener más problemas de comportamiento que las niñas.

En todos estos ejemplos anteriores, no es posible verificar a toda la población para tomar una decisión.

Si el médico quiere saber que los niños que toman vitamina C tienen menos probabilidades de enfermarse, será muy costoso analizar a todos los niños del mundo para tomar una decisión. Por lo tanto, siempre preferimos tomar una muestra de la población. Usando la muestra, necesitamos hacer una inferencia para la población.

Problema con la muestra

Ejemplo : estoy dirigiendo una empresa que fabrica bebidas. Quiero que el diámetro de mi tapa de bebida sea aproximadamente de 3 cm; de lo contrario no se ajustará a la botella.

1. Hipótesis nula ([matemática] H_0 [/ matemática]): establece que el parámetro de población es igual al valor declarado.

2. Hipótesis alternativa ([matemáticas] H_a [/ matemáticas]): existen tres posibilidades para hipótesis alternativas. El parámetro de población no es igual al valor reclamado, el parámetro de población es mayor que el valor reclamado y el parámetro de población es menor que el valor reclamado

Elegimos hipótesis alternativas que dependen de lo que queremos que concluya nuestra prueba.

Continuación del ejemplo : Mi gerente de calidad afirma que el diámetro de la tapa no es igual a 3 cm. Entonces, para nuestro caso;

[matemáticas] H_0 [/ matemáticas]: [matemáticas] \ mu [/ matemáticas] = 3 cm

[matemáticas] H_1 [/ matemáticas]: [matemáticas] \ mu [/ matemáticas] ≠ 3 cm

Variabilidad aleatoria: como dije antes, no es posible medir el diámetro de la tapa para toda la población debido a la restricción presupuestaria. Entonces, tomé una muestra de 100 cápsulas y medí su diámetro promedio que resultó ser 2.92 cm ([matemática] \ bar {\ mathbb {x}} [/ matemática]). Tomé otra muestra del mismo tamaño (100 cápsulas) y medí su diámetro promedio; resultó ser 3.12 cm. Incluso, si tomo muchas muestras con el mismo tamaño, podría obtener un valor de diámetro promedio diferente para cada muestra. La razón por la que obtenemos valores diferentes se debe a la variabilidad aleatoria.

Gracias al teorema del límite central, al usarlo, podemos definir una distribución teórica para el escenario anterior que captura la variabilidad aleatoria del diámetro.

Para entender más sobre el teorema del límite central, lea esto: la respuesta de Balaji Pitchai Kannu a ¿Cómo explica el teorema del límite central de la distribución normal?

El teorema del límite central cuenta tres datos importantes sobre la distribución teórica.

  1. La distribución teórica sigue aproximadamente la distribución normal.
  2. Media poblacional = distribución teórica media
  3. Desviación estándar de la población = Desviación estándar de la distribución teórica / [math] \ sqrt {n}. [/ Math]

¿Cuál es la intuición del valor P?

El valor P es la medida de la fuerza de la evidencia contra la hipótesis nula. Es la probabilidad de obtener el valor observado del estadístico de prueba, o un valor con evidencia aún mayor contra la hipótesis nula ([matemática] H_ {0} [/ matemática]), si la hipótesis nula de una pregunta de estudio es verdadera.

Significa que voy a asumir que mi distribución teórica es una distribución normal y su media es la hipótesis nula media ([matemática] \ mu [/ matemática] = 3 cm). Todo lo que necesito hacer es averiguar la probabilidad de observar la media muestral (100 muestras del diámetro de la tapa) en esa distribución. Si el valor de probabilidad (valor P) es muy alto, significa que la probabilidad de observar esa muestra en la distribución teórica es muy alta, lo que indica que [math] \ bar {\ mathbb {x}} [/ math] es de la misma distribución (distribución teórica). Obtuvimos diferentes [math] \ bar {\ mathbb {x}}, [/ math] solo debido a la variabilidad aleatoria. Si el valor de probabilidad (valor P) es bajo, significa que [math] \ bar {\ mathbb {x}} [/ math] podría provenir de otra distribución. La otra distribución podría ser otra cosa que la distribución teórica. Cuando nuestro valor P es muy bajo en las pruebas de hipótesis, la única conclusión que podemos hacer, [math] \ bar {\ mathbb {x}} [/ math] no proviene de la distribución teórica. Por eso, siempre decimos no rechazar la hipótesis nula de aceptar la hipótesis alternativa.

Una hipótesis estadística es una hipótesis que se puede comprobar sobre la base de observar un proceso que se modela a través de un conjunto de variables aleatorias. Una prueba de hipótesis estadística es un método de inferencia estadística. Comúnmente, se comparan dos conjuntos de datos estadísticos, o un conjunto de datos obtenido por muestreo se compara con un conjunto de datos sintéticos de un modelo idealizado. Se propone una hipótesis para la relación estadística entre los dos conjuntos de datos, y esto se compara como una alternativa a una hipótesis nula idealizada que no propone ninguna relación entre dos conjuntos de datos. La comparación se considera estadísticamente significativa si la relación entre los conjuntos de datos sería una realización poco probable de la hipótesis nula de acuerdo con un umbral de probabilidad: el nivel de significancia.

Las pruebas de hipótesis se utilizan para determinar qué resultados de un estudio conducirían a un rechazo de la hipótesis nula para un nivel de significancia previamente especificado. El proceso de distinguir entre la hipótesis nula y la hipótesis alternativa se ayuda identificando dos tipos conceptuales de errores (tipo 1 y tipo 2) y especificando límites paramétricos en, por ejemplo, cuánto error tipo 1 se permitirá.

Un marco alternativo para la prueba de hipótesis estadísticas es especificar un conjunto de modelos estadísticos, uno para cada hipótesis candidata, y luego usar técnicas de selección de modelo para elegir el modelo más apropiado. Las técnicas de selección más comunes se basan en el criterio de información de Akaike o en el factor Bayes. Las pruebas de hipótesis estadísticas a veces se denominan análisis de datos confirmatorios. Se puede contrastar con el análisis exploratorio de datos, que puede no tener hipótesis previamente especificadas. Consulte este enlace para ver una serie de tutoriales breves Prueba de hipótesis

Utiliza las pruebas de hipótesis después de haber reunido suficientes datos sobre un proceso o fenómeno y los ha utilizado para formar una hipótesis que explique los datos y le permita predecir un resultado en otras condiciones. Luego, debe probar su hipótesis creando otras condiciones bajo las cuales no producir su resultado predicho demostrará que es falso o lo debilitará. Si su hipótesis no es falsificable (ver Falsificabilidad) de esta manera, no puede ser probada y si no puede ser probada, no es ciencia. Realice la prueba de su hipótesis en las nuevas condiciones, recopile nuevos datos y determine si los datos fortalecieron o debilitaron su hipótesis.

Estás viendo hipótesis probando prácticamente cada vez que ves “p =” seguido de un número menor que 1.0

Alguien ha recopilado un montón de datos y ha realizado un análisis de regresión.
(ejemplo: y = a1 * x1 + a2 * x2 + a3 * x3 …)
y calculó la significancia estadística de los coeficientes resultantes
(el a1, a2, a3, …).
El número después de p es una estimación de la probabilidad de que la relación surgiera por pura casualidad.
(ejemplo: p1 = 0.034 significa que solo hay un 3.4% de probabilidad de que la relación observada entre y y x1 surgiera por casualidad).
La hipótesis implícita es que un par de factores en ese “grupo de datos” están de alguna manera causalmente relacionados.
(ejemplo: x1 causa y, o tal vez x1 es causado por algo que causa y, o tal vez x1 causa algo que a veces causa y, o …)

Pero es realmente la hipótesis nula la que se está probando. La hipótesis nula es que todas las relaciones son aleatorias. Una pequeña probabilidad de que la hipótesis nula sea correcta no implica que ninguna otra hipótesis que haya pensado sea correcta.

Este tipo de análisis es muy común. La forma correcta de usarlo es formular hipótesis específicas, luego identificar las consecuencias que dependen muy específicamente de que su hipótesis sea correcta, y luego probar esas consecuencias. Haz el siguiente experimento. Para más detalles, vea la respuesta de Steve Blumenkranz .

tl; dr: Casi todos los análisis con “p =” deberían ser el comienzo de un estudio, no el final.

Utiliza la prueba de hipótesis siempre que desee hacer una declaración estadística de que algo (una estadística) es diferente de otra cosa (otra estadística). Si no realiza una prueba de hipótesis, ¡realmente está haciendo conjeturas de hipótesis!

He escrito un artículo publicado en la revista ASQ Six sigma. compartiendo el enlace si estás interesado por favor lee.

Página en linkedin.com