¿Por qué se usa d de Cohen en el análisis estadístico?

La d de Cohen es un ejemplo del tamaño de un efecto. Otros tamaños de efectos comunes y más familiares incluyen el r de Pearson.

El tamaño del efecto nos dice algo sobre la fuerza de asociación entre variables, independientemente del tamaño de la muestra (N).

Los tamaños de efecto generalmente no tienen unidades y, por lo tanto, son fáciles de comparar entre las variables que se miden en diferentes escalas.

Los siguientes gráficos ilustran diferentes valores de d de Cohen.

La d de Cohen es la diferencia entre las medias de dos grupos (M1, M2) divididas por la desviación estándar dentro del grupo:

d = (M1 – M2) / SD

Primero consideremos este ejemplo hipotético. Suponga que la distribución rosa a la derecha representa la altura masculina, y la distribución azul a la izquierda representa la altura femenina; d = 1.00, y por lo tanto, la altura media para los hombres es 1 desviación estándar mayor que la altura media para las mujeres.

Incluso con esta clara diferencia de altura, existe una superposición entre las distribuciones (por ejemplo, algunas mujeres son más altas que el hombre promedio). Usando las pautas de Jacob Cohen, d = 1.00 se consideraría un efecto de gran tamaño.

Ahora consideremos una diferencia mucho menor, d = .31, en el segundo gráfico.

Muchas diferencias sexuales en la vida real en realidad tienen valores d mucho más pequeños (y muchas más superposiciones) que d = .31. Por ejemplo, la diferencia entre hombres y mujeres en la autoestima media es probablemente del orden de d = .10.

A continuación se muestra un ejemplo empírico de las diferencias de sexo en altura. El siguiente gráfico se presentó en otra parte de Quora: ¿Qué son las curvas de campana superpuestas y cómo afectan las preguntas y respuestas de Quora?

Jacob Cohen sugirió pautas para las etiquetas verbales para los tamaños del efecto que se resumen en esta tabla:

Es útil pensar en la forma en que la relación, que se usa para hacer una prueba de significación estadística, combina la información del tamaño del efecto (como la d de Cohen) y el tamaño de la muestra (para una prueba t de muestras independientes, df = N – 2) .

Esta fórmula para t no es la forma computacional familiar proporcionada en los libros introductorios de estadística, pero es lógica y empíricamente equivalente. Esta versión de la fórmula muestra conceptualmente cómo d y df contribuyen al valor de t.

Esta fórmula dice: a medida que el tamaño del efecto (d de Cohen) aumenta, si mantenemos df constante, t aumenta. Si df se agranda y mantenemos el tamaño del efecto constante, t se agranda.

La desventaja de comparar las pruebas t entre los estudios es que la relación t en un estudio puede ser mayor debido principalmente al mayor tamaño de la muestra (o df).

Cuando nos centramos en la d de Cohen en lugar de en la relación t, tenemos una idea de si la asociación entre variables (sexo y altura, por ejemplo) fue pequeña, mediana o grande (independiente del tamaño de la muestra). Los estándares de Cohen se basan en los tamaños de efectos típicos de la investigación conductual; En algunos dominios de investigación, se pueden requerir valores d o r mucho mayores antes de que un investigador lo considere un efecto grande.

Los defensores de la Introducción a las Nuevas Estadísticas argumentan que deberíamos dejar de enfatizar las pruebas de significación estadística y los valores de p (en parte porque estos son ampliamente malentendidos) y centrarnos en cambio en los tamaños de los efectos, como el d de Cohen, y en los intervalos de confianza.

El uso de d de Cohen como tamaño del efecto se limita a la comparación de las medias grupales. Eta cuadrado se usa a menudo con ANOVA. La r de Pearson es más útil como tamaño del efecto para la asociación entre dos variables cuantitativas. Existen otros tamaños de efectos.

Excepto por el gráfico identificado como proveniente de otra página de Quora, todas las demás figuras y tablas provienen de: R. Warner, (2012), Estadísticas aplicadas: desde técnicas bivariadas hasta técnicas multivariadas. Thousand Oaks, CA: Sage Publications, Inc. Este material proviene de los capítulos 3 y 5.

La d de Cohen es una medida del tamaño del efecto, expresada en términos de desviaciones estándar. Se utiliza para equiparar las unidades en diferentes escalas.

Por ejemplo, si el grupo de tratamiento obtiene 5 puntos menos, en promedio, que el grupo de control, en una escala particular, es difícil saber qué significa eso. Si es un puntaje de IQ, es (aprox.) 0.3 SD, por lo que es un efecto pequeño, en d de Cohen. Si se trata de la PCL (lista de verificación del trastorno de estrés postraumático), es aproximadamente 0.5 SD, por lo que es un efecto moderado. Si se trata de la HADS (Escala de ansiedad y depresión hospitalaria) podría ser 0.8 SD, por lo que es un gran efecto.

Si es otra escala que no conozco, no tengo idea de cuán grande es ese efecto. Al expresarlo en la letra d de Cohen, tengo una idea.

More Interesting

¿Crees que algunas preguntas pueden estar fuera del ámbito de la investigación científica?

¿Hay alguna prueba científica de que la prohibición de los pesticidas de la UE haya afectado la muerte de las abejas?

Cómo hacer que mi verano sea útil en Londres

¿Cuáles son algunas de las cosas tangibles que la ciencia no puede explicar?

¿Por qué necesitamos un método científico?

¿Los descubrimientos científicos, como el descubrimiento de los agujeros negros, tienen algún significado para las personas normales?

El objetivo principal de la investigación científica es crear conocimiento sobre cómo funciona el mundo, en lugar de resolver problemas. ¿Hasta qué punto es esto cierto?

¿Cuáles son algunas formas creativas de medir cuántas personas leen los trabajos académicos?

¿Qué fenómenos paranormales o psíquicos están científicamente probados y qué crees que se probarán en el futuro?

¿Qué tipo de preguntas se hacen durante una entrevista para un puesto de miembro del personal de investigación en IBM?

¿Qué tan difícil es para un doctorado en teoría cambiar a un post doc experimental?

¿Cuál fue el impacto del escándalo de células STAP de Haruko Obokata en la reputación internacional de la academia japonesa y la investigación científica?

¿Qué tan precisa es la datación de potasio-argón? (Por favor, mantenga los argumentos evolucionistas o creacionistas fuera de esto). Además, ¿qué factores podrían causar inexactitud en las citas? Gracias.

¿Qué constituyen los datos de pruebas de laboratorio?

¿Cuáles son algunos buenos artículos sobre aprendizaje automático?