¿Cuál es la diferencia entre causalidad y correlación? Por ejemplo, existe una fuerte correlación entre el tamaño del zapato y la inteligencia en los niños, pero esta relación claramente no es causal.

Mira este gráfico:

Muestra que en los países en los que la gente come mucho chocolate, hay la mayoría de los ganadores del Premio Nobel. Por lo tanto, el consumo de chocolate se correlaciona con los premios Nobel.

¿Qué pasaría si el gobierno de, digamos, Japón comenzara a distribuir chocolate a toda su gente? ¿Japón ganaría más premios Nobel a Japón entonces? Probablemente no. Esto se debe a que comer chocolate no causa premios Nobel .

Es muy fácil encontrar correlaciones, están en todas partes. Probar que en realidad es una causa es mucho más difícil. En el presente caso, la correlación se debe probablemente a que los países con altos niveles de consumo de chocolate son más ricos y debido a esto, su gente está mejor educada en promedio, lo que resulta en más premios Nobel. La correlación se establece de esta manera a través de varios otros factores.

Decir que el chocolate causa a los ganadores del premio Nobel, es lo mismo que decir: la cantidad de chocolate que comen los habitantes de un país determina la cantidad de premios Nobel “ .

Ahora reemplace el consumo de chocolate con “evento X” y el número de ganadores del premio Nobel con “evento Y” y tendrá una explicación general.


En la lógica cotidiana, Correlation vs Causation representa una gran parte de los errores lógicos.
Explicaré la diferencia con un simple ejemplo.
Aquí hay dos artículos que publicaron resultados de la misma investigación:
(Esto es solo un ejemplo, es posible que no esté de acuerdo con estos hallazgos).

Pero la investigación solo muestra correlación, y el primer artículo lo pone correctamente.
La persona que estableció un titular para el segundo artículo confundió la correlación con la causalidad.
De hecho, el mismo artículo continúa diciendo que los investigadores aún no están seguros de la causa:

“Todavía no conocemos la causa exacta de estas asociaciones modestas pero consistentes, pero creemos que justifican un estudio adicional. Sin embargo, nos sorprendió que se haya realizado tan poca investigación para probar directamente esta importante afirmación”, agregó.

A: la persona envía mensajes de texto en gran medida
B: la persona es superficial

La investigación implica correlación entre A y B, pero no implica que B sea causada por A.

De hecho, hay varias declaraciones de causalidad que se pueden hacer para una correlación dada entre A y B:

  1. Causa 1: los mensajes de texto pesados ​​hacen que los adolescentes sean superficiales (A causa B)
  2. Causa 2: los adolescentes poco profundos envían mensajes de texto (B causa A)
  3. Causalidad 3: Tercer factor que causa tanto A como BIe C => A y C => B.
  4. Causa 4: A y B no tienen nada en común, solo pura coincidencia.

Entonces, no me preguntes ” ¿La correlación implica causalidad?

X causa Y significa: si cambia X, entonces Y cambiará. Por ejemplo:

Si la temperatura es más alta, la gente comprará más helado. Las temperaturas más altas provocan mayores ventas de helados.

X está correlacionado con Y significa: hay algún tipo de relación entre X e Y (por ejemplo, si X es alto, entonces Y también es alto). Esto no implica una relación causal.

Aquí hay un ejemplo del Flying Spaghetti Monster. La temperatura promedio global está correlacionada negativamente con el número de piratas, pero eso no significa que una disminución en el número de piratas causará el cambio climático. En cambio, ambos cambian con el tiempo.

Esta pregunta es muy importante en las finanzas, como puedes imaginar. Entonces, abróchense, esta es una respuesta larga …

En primer lugar, hay realmente tres niveles en este tema (al menos como lo vemos en las finanzas):

  1. Correlación
  2. Cointegracion
  3. Causal

El primer nivel (correlación) es simplemente una medida de la frecuencia con la que dos cosas tienden a moverse juntas o separadas.

Por ejemplo, los ahogamientos aumentan a medida que aumenta la temperatura y viceversa. Los “ahogamientos” y la “temperatura” están correlacionados, pero solo porque tienden a moverse en la misma dirección: cuando uno sube, el otro sube, cuando uno baja, el otro baja. No tenemos idea de cuán lejos se mueven juntos o separados. Sabemos con qué frecuencia , pero no qué tan lejos.

Matemáticamente, la correlación es simplemente la distancia que dos puntos de datos se mueven de sus respectivos promedios, normalizados por sus desviaciones estándar (razón por la cual las correlaciones siempre están entre -1 y +1):

[matemáticas] \ frac {(x_i- \ mu_x) (y_i- \ mu_y)} {\ sigma_x \ sigma_y} [/ matemáticas]

donde xey son puntos de observación, y [math] \ mu_x [/ math] es el promedio de todas las observaciones para x , [math] \ sigma_x [/ math] es la desviación estándar de x.

Es importante destacar que esto solo detecta relaciones lineales . Si dos cosas están relacionadas exponencialmente o son onduladas, esta medida le brinda poca información (a menos que primero convierta los datos).

La correlación también puede ser engañosa porque las variables no relacionadas a veces se correlacionarán. Por ejemplo, si camina por una calle concurrida de la ciudad, es probable que haya personas caminando en la misma dirección que usted durante un tiempo. Si los “observamos” a usted y a otra persona caminando juntos, podemos suponer incorrectamente que ustedes dos están vinculados de alguna manera, a pesar de que nunca se han visto antes y nunca se volverán a ver. Estás correlacionado para ese momento, pero solo ese momento.

Esto sucede todo el tiempo y se llama correlación espuria . Cosas como la venta de helados y los ahogamientos están correlacionados, pero esa es una correlación espuria. Su caminata con un extraño total es espuria, y así sucesivamente.

El segundo nivel es una medida de si dos cosas están unidas de alguna manera significativa. No solo con qué frecuencia , sino hasta qué punto .

Aquí está el ejemplo clásico para ilustrar la diferencia entre correlación y cointegración:

Un hombre borracho y su perro salen del pub después de una larga noche. El hombre se olvida de poner a su perro con una correa y comienza a tropezar en casa. Finalmente, el hombre necesita cruzar una calle, por lo que ata a su perro por el resto del camino a casa.

Durante la primera parte de su camino a casa, el hombre y el perro están correlacionados: generalmente se dirigen en la misma dirección, dan los mismos giros, etc., pero se mueven a diferentes velocidades y se tropiezan con bastante frecuencia. Sin embargo, después de que el perro es atado, se cointegran . Ahora, la distancia entre el hombre y el perro puede variar, pero solo hasta cierto punto . La correa les impide moverse demasiado lejos.

Esta es una distinción muy importante en las finanzas. La correlación es útil para crear carteras porque determina los beneficios de la diversificación, pero la cointegración puede intercambiarse . Además, los puntos de datos cointegrados tienen propiedades estadísticas no estándar, por lo que no se les pueden aplicar métodos económicos tradicionales, ¡lo cual es importante saber!

Existen algunos métodos para estimar matemáticamente la cointegración, pero el más fácil de implementar en mi mente es el método de dos pasos de Engle-Granger. Su intuición es simple: si el hombre y su perro se mueven (algo al azar) pero están cointegrados, aunque cada una de sus posiciones se mueva, alguna combinación de sus observaciones de posición debería ser estacionaria (porque la distancia entre ellos, en promedio, es lo mismo):

[matemáticas] a_i- \ beta b_i = c_i [/ ​​matemáticas]

donde a es una observación para una cosa, b es una observación (en el mismo momento) de una cosa diferente, c es el resultado que no se supone que se mueva, y [math] \ beta [/ math] es el factor que estabiliza c . Este es un proceso de dos pasos porque primero tiene que estimar [math] \ beta [/ math] yc , ejecutar una prueba de estacionariedad en la c estimada, luego ejecutar una segunda regresión en los residuos rezagados desde el primero … Entonces, eso suena peor de lo que realmente es …

El tercer nivel es la causalidad, que es una relación mucho más importante. Una relación de esta magnitud es predictiva de alguna manera, es decir, el conocimiento de la causa te da conocimiento de la causa.

De acuerdo con nuestro ejemplo de hombre y su perro:

El hombre borracho y su perro se acercan a su piedra rojiza, pero el hombre se cansa y frena su caminata. Ansioso por estar en casa, el perro comienza a tirar fuertemente de la correa, y el hombre, demasiado cansado para luchar, es empujado hacia la puerta de su casa.

En este ejemplo, el hombre y el perro tienen una relación causal . Puede explicar completamente el camino del hombre si conoce el camino del perro, porque el movimiento del perro está causando el movimiento del hombre borracho.

La causalidad es algo mucho más difícil de demostrar matemáticamente, ya que es más que una simple relación, es una unión firme de dos cosas. Sin embargo, tenemos una herramienta para usar: la prueba de causalidad Granger. El principio subyacente es simple: 1) la causa ocurre antes del efecto, y 2) la causa lleva información sobre su efecto. La matemática es esencialmente un análisis multivariante sobre los efectos rezagados (consulte el Tutorial electrónico 8: Causalidad de Granger)

La causalidad, en esencia, le brinda información sobre algo futuro, que es importante en las finanzas. Si puede encontrar, y probar, una relación causal, puede comerciar de manera bastante rentable.

Ahora, confundiendo estas cosas Se hace fácilmente. Nuestros cerebros están conectados para encontrar patrones, por lo que obtienes muchos falsos positivos. ¡Es importante comprender las diferencias matizadas entre correlación, cointegración y causalidad porque no son lo mismo! La correlación está tan lejos de la causalidad que están, esencialmente, en universos diferentes. La cointegración está más cerca (ya que las relaciones causales también se cointegrarán) a la causal, pero aún así no es lo mismo.

Las relaciones causales están muy relacionadas. Intento hacer una comprobación mental rápida cuando miro dos conjuntos de datos: ¿puedo explicar por qué son causales? Si la respuesta es “no”, ¡entonces probablemente no sean causales! Además, utilizo esta prueba mental rápida para incluso determinar si una correlación es significativa. ¿Existe, por ejemplo, alguna razón racional para vincular los patrones de migración de elefantes con el rendimiento de las poblaciones? ¿O si un equipo de NFC o AFC gana el Super Bowl? Si la respuesta es “no”, entonces la correlación es incesante y no se puede confiar en ella.

Siempre compruébalo tú mismo. Busca por qué estás equivocado: esta habilidad es más importante cuando quieres tener razón.

Correlación no significa causalidad.

Hay una fuerte evidencia que dice ‘Las personas casadas son más felices que las parejas no casadas’. por análisis de correlación.

Pero, ¿eso significa que “Casarse te traerá felicidad” ? Yo creo que no. Parece más probable que las personas más felices se casen en primer lugar.

Veamos,

Te daré un par de puntos (x, y). Se parece a esto,

(1,2), (2,4), (3,5.8), (4,8.1), (5,10)

Simplemente mirando estos cinco puntos, podemos ver que la variable Y es el doble que la variable X; y si dibujáramos una línea entre X e Y, sería una línea recta.

Eso significa que estas dos variables están correlacionadas de alguna manera.

Pero, ¿eso significa que X causa Y? ¿O traer cambios en Y causará un cambio en X también? Tal vez tal vez no.

¿Qué sucede si le digo que X es la cantidad de personas que usan un Windows Phone e Y es la cantidad de personas que mueren en accidentes automovilísticos en la calle de Derry, Maine?

¿La correlación significa que ‘Comprar más Windows Phone causará la muerte de dos veces más personas en accidentes automovilísticos?’ Realmente no.

Correlación no significa causalidad.

Entonces, ¿qué haces cuando tienes, digamos, precios de acciones de 100 compañías que figuran durante 365 días? Si la nueva presentación del iPhone por parte de Apple provocó un aumento de los precios de las acciones después de un lanzamiento, ¿la presentación de Googl e a Pixel se comportará igual? ¿Están Apple y Google o alguna de esas 100 compañías relacionadas? Si lo son, ¿la correlación significará la causalidad?

En ese caso, para simplificar un poco las cosas, utiliza un concepto de Descomposición de datos de valor singular ; una forma de rotar vectores Eigen de tal manera que le permite ver los precios de las acciones en un ángulo diferente, junto con la eliminación de datos inútiles. De esta manera, puede averiguar si algunas de las correlaciones realmente significarán causalidad o no. Pero, esta es una pregunta para un tema diferente.

La correlación implica qué tan bien la ocurrencia de un fenómeno corresponde a la de otro. La causalidad nos dice si un fenómeno es la causa de otro.

Un buen ejemplo es mirar una enfermedad y un síntoma. La falta de aliento ocurre en todos los pacientes con asma . Pero eso no significa que, en todos los pacientes que experimentan disnea, la causa es el asma, podría ser EPOC .

La forma correcta de lidiar con la causalidad es usar las estadísticas bayesianas . La estadística bayesiana sigue siendo un método estadístico, pero no solo analiza la frecuencia de un evento. Se ve qué tan bien emparejado, una ‘experiencia ‘ es a una causa. Para más información sobre esto, ver:

1. Inferencia frecuente
2. Inferencia Bayesiana

El uso inadecuado de las estadísticas para inferir la causalidad puede tener serias consecuencias. Un buen ejemplo es el Caso Sally Clark . Para una introducción suave, vea Más allá de toda duda razonable . Para más detalles ver:

1.AppealStats.html
2.Defense.html
3) 744.pdf

Raymond Hill , profesor de matemáticas en la universidad de Salford, fue uno de los expertos que participó en la campaña para liberar a Sally Clark. Puedes ver sus artículos aquí:

1. Cot Death or Murder.pdf
2.Reflexiones Artículo.pdf

La causalidad es una abstracción matemática que no se puede medir directamente; solo se puede medir la correlación.

Para que un evento [matemático] x [/ matemático] provoque el evento [matemático] y [/ matemático] , [matemático] x [/ matemático] debe ocurrir necesariamente antes de [matemático] y [/ matemático] , y la aparición de [matemático ] x [/ math] necesariamente debe implicar [math] y [/ math] . Dicho de otra manera, [matemática] y [/ matemática] no habría sucedido si [matemática] x [/ matemática] no hubiera ocurrido ([matemática] x [/ matemática] es necesaria), y si [matemática] x [/ matemática ] ocurre, [matemática] y [/ matemática] necesariamente debe ocurrir ([matemática] x [/ matemática] también es suficiente).

Puede escribir expresiones matemáticas que encarnen la causalidad; por ejemplo, puede diseñar filtros causales que cumplan con la definición anterior. Pero tales formulaciones no tienen una relación necesaria con el mundo natural.

Desafortunadamente, en el uso común, la “causalidad” con frecuencia se tuerce para agregar autoridad falsa a las proposiciones; es decir, ‘causalidad’ se usa para ‘jugar el lenguaje’. Por analogía, no se puede probar ninguna proposición científica, pero las personas comúnmente usan ‘probado’ para agregar legitimidad falsa a las proposiciones relacionadas con el mundo natural. No puedes vender una ‘casa’; solo puedes vender una ‘casa’, pero la gente todavía dice vender casas, independientemente.

Tales usos de las palabras comadrejas no son solo “exageraciones para el efecto” o “formas superlativas”; son fundamentalmente engañosas Podría ser un uso razonable si no hubiera otras palabras disponibles para transmitir un significado preciso, pero con suficiente humildad y diligencia, es probable que pueda tejer expresiones que realmente significan lo que está tratando de decir.

Primero, debe separar ‘causa’ de ‘factor’. Es posible que tenga factores necesarios o suficientes que conducen a un efecto, pero por sí mismos, no constituyen una causa.

En segundo lugar, debe separar el modelado matemático de la observación y la medición. El mundo natural es altamente predecible, y los modelos predictivos confiables pueden ser muy útiles. Pero no puedes medir ‘causa’; solo puedes medir la ‘correlación’. Puede observar perturbaciones en un sistema y luego medir el comportamiento posterior del sistema, pero nunca puede aislar realmente ningún aspecto de ningún sistema en el mundo natural. Nunca puede replicar exactamente las condiciones de un experimento / observación a futuros experimentos / observaciones. Eso significa que todos los comportamientos observados son el producto de una variedad de influencias que nunca se pueden explicar o controlar de manera integral. Declarar que un factor es “parcialmente responsable” es una forma particularmente sin sentido de ver la causalidad.

Además, la correlación y la dependencia es una medida estadística, que requiere una pluralidad de mediciones, y es una cuestión de grado. La correlación, en el límite, no necesariamente converge a la causalidad.

Esto sugiere un defecto sutil pero crucial en el dicho común, “la correlación no implica causalidad”. Puede inferir erróneamente que hay otros medios para determinar la causalidad, pero no la hay. La frase sería más precisa / significativa si dijera, en cambio, “la correlación no implica necesariamente causalidad”.

Aquí hay una publicación sobre las diferencias aplicadas a un estudio real.

Exposición de estudios defectuosos: sobre causalidad versus correlación

Siempre me encuentro con nuevos estudios con estos títulos extravagantes.
Tomemos por ejemplo el siguiente artículo:

Las dietas altas en carne, huevos y lácteos podrían ser tan dañinas para la salud como fumar.

Guau. Eso realmente es un reclamo! No puedo decir cuántas veces he escuchado a alguien hacer una declaración persuasiva o compartir un artículo basado en uno de estos tipos de estudios, con solo leer el titular. Esto me frustra Y eche un vistazo a este subtítulo:

Un estudio sugiere que las personas menores de 65 años que comen mucha carne, huevos y lácteos tienen cuatro veces más probabilidades de morir de cáncer o diabetes

Analicemos lo que está pasando aquí.

Basado en este titular, espero que las pruebas con carne, huevos y lácteos sean la única variable aislada en el grupo controlado de personas. Quiero conocer detalles sobre el grupo evaluado (edad / salud / historial) y quiero que sea un estudio controlado. Quiero ver evidencia detallada sobre cómo la cantidad y la calidad de estas variables afectan la salud de un ser humano. Espero pruebas concluyentes de que las personas menores de 65 años tienen más probabilidades de morir en función de las proteínas animales que consumen. También quiero ver los estudios sobre fumar que han realizado para hacer esta comparación.

El grupo de prueba:

  • 6.381 adultos mayores de 50 años
  • Desglosado en grupo alto en proteínas (más del 20% de proteínas de la dieta), grupo moderado (10-19%) y grupo bajo (menos del 10%)

Los resultados reclamados:

  • La ingesta alta de proteínas está relacionada con el aumento del cáncer, la diabetes y la mortalidad general.
  • Un mayor consumo de proteínas puede ser protector para los adultos mayores (mayores de 65 años)
  • Las proteínas derivadas de plantas están asociadas con una mortalidad más baja que las proteínas derivadas de animales.

Estos resultados me ponen nervioso. Entonces, la afirmación es que el alto contenido de proteínas está relacionado con este tipo de mortalidad. De todo este grupo de 6,381 personas durante un período de 18 años, solo hubo 6 muertes. De estas 6 muertes, más provenían del rango de 50-65 que de más de 65. Esto activó mi detector de mentiras casi tanto como leer el titular de este artículo. Simplemente no tiene sentido. El estudio encontró que las proteínas animales (carne, huevos y lácteos) se asociaron con estas muertes y no con las proteínas en general (afirma que utilizaron proteínas animales y otros tipos naturales de proteínas en el estudio). Según cómo entendí el estudio, no veo cómo pueden realmente vincular las proteínas animales en asociación con estas muertes.
Además, este estudio nunca explica el razonamiento detrás de comparar proteínas animales con fumar. Parece que el creador del estudio acaba de agregar al fumar porque las personas lo asocian con problemas de salud. No hay otra razón por la que pueda encontrar que esto esté en el estudio, y mucho menos el titular.

Aquí hay una cita del creador del estudio:

“Las personas necesitan cambiar a una dieta donde solo alrededor del nueve o diez por ciento de sus calorías provienen de proteínas, y las fuentes ideales son de origen vegetal”, dijo Longo al Guardian. “No estamos diciendo ir y hacer una dieta loca que se nos ocurrió. Si nos equivocamos, no se hace daño, pero si tenemos razón, está observando un efecto increíble que en general es tan malo como fumar “.

Esta es una recomendación ilógica, incluso basada en los hallazgos de su estudio. El estudio dice que comer proteínas animales de más de 65 años es bueno, pero del rango de 50-65 es malo. El creador del estudio le dice a todos que consuman una cantidad de proteína en el extremo inferior de su prueba. Esto, nuevamente, no tiene absolutamente ningún sentido para mí.

Vamos a hablar sobre el tema de un estudio controlado. Esto no aparece como un estudio controlado, sino más bien como un estudio observacional. Un verdadero estudio controlado tendría todas las variables estáticas y solo cambiaría una variable y vería los resultados. Es extremadamente difícil realizar esto en humanos con tantos factores que entran en juego. Esto hace que sea difícil confiar en casi cualquier estudio en humanos. Las ratas son mucho más fáciles de controlar, que es una de las razones por las que vemos tantos estudios sobre estos animales.

La mayoría de los estudios son estudios observacionales o estudios controlados que han salido mal.
Otro factor es la edad del grupo de control. ¿Por qué solo pruebas a personas mayores de 50 años? ¿Por qué solo te enfocas en las muertes en lugar de los datos nutricionales? ¿Cómo no está tomando en cuenta la exposición adicional que tienen las personas mayores a las enfermedades y otras variables que afectan negativamente? Cuestionable.

Mi conclusion:
Este estudio me parece extremadamente irresponsable. A mi. el autor solo busca páginas vistas con este título. Este artículo podría haberse llamado fácilmente “No hay asociación entre la ingesta de proteínas y la mortalidad”. En su lugar, eligió este título actual. En última instancia, mi comida para llevar es ignorar todo en este artículo.
Vamos a aclararlo de una vez por todas

La correlación muestra las relaciones entre 2 variables. Ej: cuántos baños tiene una casa versus el precio de la casa. Habrá una relación aquí: tal vez por cada baño adicional que tenga la casa, la casa vale $ 4,000 más. Sin embargo, esto no implica causalidad. Si agrega un baño adicional, el valor de su casa no aumentará $ 4,000.

La causalidad es mucho más difícil de probar en un estudio. Es necesario que haya variables aisladas en un grupo controlado. La causalidad es cuando (A) realmente hace que (B) ocurra.

Estoy desglosando esto porque veo que muchas personas saltan a la conclusión de que un estudio demuestra la causalidad. Esto a menudo no es el caso. Quiero que las personas sean cautelosas la próxima vez que vean un titular similar.

Siempre trato de verificar mis fuentes, verificar los antecedentes del estudio y los datos. También trato de asegurarme de que los fundadores del estudio no tengan intereses creados en el resultado.

  • Ej: Un estudio de Coca-Cola sobre cómo el aspartamo (sustituto del azúcar) no es dañino para nuestra salud.

A menudo es más peligroso estar mal informado que no estar bien informado sobre un determinado tema.

El objetivo de este proceso es cuestionar al menos brevemente la información con la que se encuentra y evitar que se deje engañar fácilmente. Anteriormente, estaba muy influenciado por todo lo que provenía de una posición de autoridad. Después de que se demostró que estaba equivocado demasiadas veces, decidí hacer un cambio. Me he esforzado por experimentar por un tiempo ahora, encontrando mis propios resultados en lugar de confiar en este tipo de estudios. Considero que esto es más efectivo, ya que cada persona es diferente y hay más consejos pobres flotando con el reciente aumento de la tecnología. Sin embargo, la verdad también está siendo expuesta … solo tienes que encontrarla.

Entonces, incluso si decide no probar las cosas usted mismo, desconfíe de los estudios que encuentre.

Un mejor sistema de evaluación lo ayudará a eliminar las BS.

¡Pregunta excepcional! Felicitaciones y gracias por preguntar.

Según tengo entendido, basado especialmente en el Capítulo 3, “Sintaxis, semántica y ontología”, en Conocimiento científico: causalidad, explicación y corroboración (Boston Studies in the Philosophy and History of Science): JH Fetzer (1981), especialmente con respeto Para la filosofía de la ciencia, en general, y la epistemología del conocimiento científico, en particular, la respuesta a esta pregunta es, ante todo, ontológica .

Para ser más precisos, la causalidad per se no puede entenderse adecuadamente a menos y hasta que se responda la pregunta ontológica, “¿cómo y por qué cambian las cosas?”

La respuesta es engañosamente simple: es fácil de enunciar pero increíblemente difícil de comprender y comprender por completo: creo que la mejor respuesta ontológica es: “el cambio es una disposición causal permanente y universal que poseen todas las cosas materiales (físicas)”.

En cuanto a la distinción entre causalidad y correlación (estadística) como tal … La historia causal del universo está causalmente determinada. Se requiere una ontología disposicional y un lenguaje intensivo y un marco lógico para distinguir correctamente los aspectos genuinamente causales de esa historia de las correlaciones meramente estadísticas que también exhibe. Como sucede, el libro de Fetzer (citado anteriormente) también proporciona exactamente ese marco en el Capítulo 3 y siguientes, el “cálculo causal probabilístico C y C *”, además de la ontología disposicional en la que se basa.

Encontrará una respuesta extendida a una pregunta estrechamente relacionada en la respuesta de Terry Rankin a ¿Cuáles son algunos ejemplos de propiedades intrínsecas y accidentales y propiedades extrínsecas esenciales? Ese material arroja más luz sobre este tema también (es decir, distinguir la causalidad genuina de la mera correlación estadística), pero la visión completa, y mucho más, se expone en el libro de Fetzer.

Si X causa Y, y haces X, obtendrás Y. Si X está correlacionado con Y y haces X, es posible que no obtengas Y.

Probar la correlación es fácil

La correlación establece que existe una relación matemática, es decir, x e y tienden a variar conjuntamente por un patrón.
Esto puede suceder cuando:
(1) cambiar x hace que y cambie
(2) cambiar y hace que x cambie
(3) cambiar z (otra cosa) hace que xey cambien
(4) coincidencia común; Si toma dos fenómenos que cambian con el tiempo y son lineales con respecto al tiempo, se correlacionarán entre sí.

La causalidad se ejemplifica con (1) o (2). La causalidad es más específica: y tiene una dirección. O x causa y o y causa x.

Para ilustrar usando mi ejemplo favorito que alguien dio arriba,
La disminución de la cuota de mercado de Internet Explorer se correlaciona con la disminución de la tasa de asesinatos.
Las posibilidades:
(1) La disminución de la cuota de mercado de Internet Explorer causa una disminución en la tasa de asesinatos.
(2) La disminución de la tasa de homicidios provoca una disminución en la cuota de mercado de Internet Explorer.
(3) Los programas de control mental del gobierno de los EE. UU. Han reducido la participación en el mercado de asesinatos y exploradores de Internet.
(4) Estas cosas son casuales.

Si bien creo firmemente que (1) es plausible, claramente (4) tiene más sentido.

Probar la causalidad es difícil
Tenga en cuenta que probar la causalidad va más allá de (1) mostrar correlación y (2) ofrecer una buena explicación. Debe realizar un experimento en el que intente cambiar intencionalmente las variables (para que se elimine la coincidencia) y mostrar los otros cambios de las variables a su vez.

Considere lo difícil (y poco ético) que sería aumentar intencionalmente las tasas de homicidios para que pueda medir el impacto en la cuota de mercado de Internet Explorer. Si bien es un ejemplo ridículo, esto ilustra cuán difícil puede ser la ciencia. No se puede cambiar mágicamente el tamaño de los pies de los niños y ver si su inteligencia cambia. Simplemente no es posible.

Aquí hay muchos comentarios muy buenos, así que solo agregaré un par de notas.

(1) Cuando decimos “A causa B”, queremos decir que cambiar A causará cambios en B. Podemos verificar la causalidad en experimentos controlados (con la debida precaución sobre los valores p). Es mucho más difícil presentar un caso convincente cuando los experimentos no son posibles. Los estudios epidemiológicos de casos y controles y las preguntas sobre el cambio climático son ejemplos. Habrá casos de causalidad que no podemos mostrar a través de experimentos.

(2) La correlación es un cálculo matemático. La causalidad y la correlación distinta de cero generalmente van juntas … pero no siempre.

La causalidad se refiere a la relación física entre una causa y su efecto. La correlación se refiere a una relación matemática entre dos grupos de medidas.

La correlación calculada cuando se sabe que existe una relación causal se interpreta como cuánta interdependencia tuvo la causa sobre el efecto. La correlación calculada cuando no se sabe que existe una relación causal revela solo cómo dos grupos de mediciones se ajustan a un modelo matemático. Saber cómo las medidas se ajustan a un modelo no revela si es apropiado aplicar el modelo.

Cuando no se sabe que exista una relación causal, una fuerte correlación deja abierta la posibilidad de una relación causal. Se necesita más investigación para determinar si la relación realmente existe y cuál podría ser el mecanismo causal.

Cuando no se sabe que exista una relación causal, una correlación insignificante sugiere que no existe una relación causal.

Aquí hay un ejemplo para pensar.
Odio Internet Explorer, pero no lo suficiente como para hacer que quiera matar gente. Sospecho que lo mismo ocurre con la mayoría de los que odian Internet Explorer. Por lo tanto, debemos buscar otra explicación para la disminución de las tasas de homicidios aquí descritas.

Hay muchas respuestas excelentes sobre por qué la correlación no es causalidad, pero nadie realmente menciona cuándo tenemos causalidad. La regla general no es un experimento controlado, ninguna causalidad.

Ejemplo de causalidad: Facebook quiere saber si poner anuncios en el servicio de noticias en lugar de hacerlo al margen hace que las personas hagan clic con más frecuencia. Puede ejecutar un experimento, selecciona aleatoriamente 500 millones de usuarios para mostrar anuncios en las noticias, otros 500 millones para mostrar anuncios en el lateral. Si una proporción es significativamente más alta que otra, Facebook puede concluir un efecto causal de la ubicación del anuncio en la tasa de clics.

Pueden concluir la causalidad porque por aleatorización, los “factores de confusión” se cancelan. La correlación no implica causalidad debido a “factores de confusión”, es decir, factores ocultos que pueden afectar ambas variables que estamos considerando.

Entonces, la próxima vez que leas una, las noticias A causan B, primero verifica si el investigador ha llevado a cabo algún experimento controlado.

Una correlación: podemos explicar que 2 cosas (series de tiempo, procesos, …) están relacionadas
Una causalidad: podemos predecir de manera confiable y consistente uno usando el otro

Lo difícil es saber la diferencia.
En general, el aprendizaje automático y la ciencia, no siempre es tan claro, pero en el análisis de series de tiempo, tenemos algunas pruebas simples para ayudarnos, como la prueba de causalidad de 2 pasos de Granger.

Esto se ha convertido en un asunto mío después de trabajar en la industria y tener que responder esta pregunta tantas veces en un contexto tan diferente … así que he estado trabajando en una publicación de blog sobre esto

Causalidad vs Correlación Parte 1: Causalidad Granger

Las pruebas estadísticas nos permiten saber si una serie temporal X (t) está siendo ‘causada’ por una serie temporal Y (t) … en el sentido de Granger:

Dadas 2 series temporales X (t) e Y (t), probamos si alguna combinación lineal de ellas es estacionaria

nos proponemos

[matemáticas] X (t + \ delta t) = G \ circ X (t) + R_ {X} (t) [/ matemáticas]

y / o

[matemáticas] X (t + \ delta t) = H_ {X} \ circ X_ (t) + H_ {Y} \ circ Y_ (t) + R_ {X, Y} (t) [/ matemáticas]

y comparamos 2 funciones de correlación asociadas. Decimos que Y (t) causa X (t) en el sentido de Granger iff

[matemáticas] E_ {X} (t_ {a}, t_ {b}) \ ll E_ {X, Y} (t_ {a}, t_ {b}) [/ matemáticas]

La prueba Granger selecciona una función de correlación específica, que mide la amplitud del ruido [matemática] R_ {X} (t) [/ matemática], o errores, que aparece en nuestro modelo simple para X (t)

Otra forma de decir esto, que podría ser más familiar para los profesionales de Machine Learning, es con probabilidades condicionales

[matemáticas] E (X_ {t} | X_ {tk}) \ ll E (X_ {t} | X_ {tk}, Y_ {tk}) \ forall k [/ matemáticas]

Decimos que Y (t) causa X (t) cuando los valores futuros de X (t) pueden predecirse mejor con las historias de X (t) e Y (t) que solo X (t) solo.

Hay varias pruebas de causalidad, y de vez en cuando se desarrollan nuevas. En realidad, existe una relación muy profunda entre la causalidad de Granger y un principio muy importante en la mecánica estadística del no equilibrio llamado Teorema de la fluctuación-disipación. La idea básica no es solo medir la amplitud del ruido [matemática] R_ {X} (t) [/ matemática], sino medir la correlación del ruido con nuestro modelo.

http: //charlesmartin14.wordpress

Es decir, sabemos que hemos identificado la ‘causa’, o un buen modelo para un proceso X (t), cuando los errores aleatorios en nuestro modelo son pequeños, tanto en magnitud como en correlación, en comparación con otros modelos.

Siéntase libre de pasar por el blog y hacer comentarios; Es un trabajo en progreso:

Estoy de acuerdo con la mayoría de estas respuestas, pero estoy inclinado a agregar algunos bits aquí …

  1. La correlación puede ser positiva / negativa … es decir, dos variables pueden correlacionarse positiva / negativamente entre sí. Por ejemplo: la altura (H) y el peso (W) están correlacionados positivamente (en general, a medida que aumenta H, aumenta W). Mientras que el ejercicio (E) y el peso (W) pueden correlacionarse negativamente (en general, a medida que E aumenta, W disminuye)
  2. Solo porque dos variables están correlacionadas, nadie puede inferir que el cambio en la variable causará un cambio en la otra (ya sea + ve o negativo como se describió anteriormente). Por ejemplo, supongamos que un estudio encuentra que las personas ricas tienden a tener tasas más bajas de enfermedad cardíaca. No significa que si un hombre pobre gana una lotería, de repente tendrá un menor riesgo de enfermedad cardíaca. Puede haber muchos otros factores que pueden explicar esta correlación, como los hábitos de comer / beber de las personas ricas, el estrés o la naturaleza del trabajo, etc.
  3. Causación: es una forma fuerte de correlación donde el cambio en una variable definitivamente conducirá a un cambio en la otra variable. es decir, no solo las dos variables están relacionadas, sino que podemos inferir lo que sucederá con una variable cuando se cambie la otra.

Espero que ayude.

Técnicamente, como se usa en estadística, Correlation es una buena fórmula que muestra la relación entre la media de dos conjuntos de valores. En realidad, hay varias de esas fórmulas.

Un significado más mundano de Correlation podría ser una simple afirmación de que dos variables no son independientes (incluso si el significado técnico es realmente un poco más restrictivo).

Prefiero describirlo en términos de probabilidad, ya que es más significativo para mí. La dependencia entre eventos simplemente significa que [matemática] P (A \ cap B)> \ frac {1} {2} [/ matemática]. Si ocurre el evento A, tienes más que una posibilidad aleatoria de que el evento B también aparezca.

También debe notar que si [matemática] P (A \ cap B) <\ frac {1} {2} [/ matemática] es para fines prácticos lo mismo que arriba, pero confiando en que el evento A no ocurra en lugar de ocurrir.

El único caso verdaderamente independiente es, por lo tanto, [matemática] P (A \ cap B) = \ frac {1} {2} [/ matemática]

La causalidad es un caso especial de correlación estudiado principalmente por filósofos en lugar de científicos (bromeando, pero podría leer el ensayo Sobre la noción de causa de Bertrand Russell).

Si trato de traducirlo en términos de probabilidad, tengo problemas.

Si propongo algo como:

A es la causa de B [matemáticas] \ iff P (A \ cap B) = P (A) = P (B) [/ matemáticas]

Simplemente significa que si A sucede, B también ocurrirá, o al revés, de ahora en adelante la probabilidad de ambos eventos al mismo tiempo es la probabilidad de la causa y la probabilidad del efecto.

Pero esto no es suficiente: primero en inglés común podríamos tener causa y efecto que no funcionarán siempre: encender un fósforo podría ser el efecto de rascarlo en el lado de la caja, pero qué pasa si el fósforo no funciona, o qué si enciendo un fósforo dado con otro.

También podría tener la misma probabilidad si ambos eventos se derivan de un tercer evento común. En realidad, esta es probablemente la causa más común de correlación entre eventos aparentemente no relacionados.

Para definir la causalidad, tendré que dejar de lado la probabilidad y usar una buena función antigua (puede llamar a eso una función estructural si lo desea) y escribir algo así.

[matemáticas] B = f (A, U) [/ matemáticas], el efecto B es el resultado de aplicar alguna función f para causar A, el otro parámetro U es el estado del universo al lado de A que podría tener alguna influencia en el resultado.

Hasta donde yo sé, no hay una forma general de encontrar f, o incluso saber si tal f existe. Simplemente proponemos una cadena de eventos que conducen de A a B, y esa es nuestra f.

Por lo general, me detenía allí. De los simples conjuntos de datos, no sé cómo distinguir la correlación de la causalidad.

Pero después de leer las respuestas de Quora, debo decir que he encontrado la respuesta de Charles H. Martin realmente esclarecedora. Puede ser que podamos hacerlo mejor de lo que dije y exhibir alguna relación estadísticamente significativa entre dos series de datos con respecto al tiempo y llamar a eso causalidad.

Lea cualquier libro de texto de estadísticas. Le advertirá al lector que no confunda correlación con causalidad. Considere el caso de una simple gráfica XY entre el tamaño del pie y la capacidad de lectura en una escuela primaria. Verá que están correlacionados, pero no implica que un pie más largo lo convierta en un mejor lector o que un mejor lector tenga un pie más largo. Suena absurdo La explicación correcta puede ser que los niños con pies más largos son mayores, por lo tanto, son mejores lectores. Vemos que hay una tercera variable, la edad en el medio. A medida que el niño crece, aumentan tanto su tamaño de zapato como su capacidad de lectura. Por lo tanto, si A y B están correlacionados, no podemos decir si A causa B o B causa A con seguridad.

Los pulgares más largos se correlacionan con mejores habilidades matemáticas. * *
Años de escuela hacen que los niños tengan mejores habilidades matemáticas. ** **

* Esto es obviamente cierto para los niños de primaria en los Estados Unidos.
** Tenga en cuenta que los años de escuela también se correlacionan con las habilidades matemáticas