¿Cuáles son los principales problemas de estadísticas en 2017? La Ciencia y la Tecnología mejoran el futuro

No los llamaría problemas porque un problema implica que algo malo va a suceder. Vamos a llamarlos “tendencias sorprendentes” en su lugar. No mucho mejor, ¿eh? De todos modos, aquí vamos. En resumen, mi respuesta es que todos los supuestos más comunes en las estadísticas pueden ser cuestionados e incluso reconsiderados en 2017. He aquí por qué.

Las estadísticas y sus conceptos fundamentales se basan en suposiciones que las personas acuerdan para facilitarles la vida. A diferencia de la vida real, las matemáticas son simples en el sentido de que le permiten explicar sus ideas utilizando un conjunto de afirmaciones que fluyen lógicamente de una a otra. Pero realmente no puede llegar lejos sin primero establecer un “conjunto de reglas” sobre cómo explicará sus ideas. Por ejemplo, te digo que no puedo ayudarte con tu tarea porque estoy ocupado cocinando. Esta explicación es válida si ambos asumimos que solo puedo hacer una cosa a la vez. Si esta suposición es incorrecta, entonces no puedo usar cocinar como excusa.

A menos que, por supuesto, cocinar sea de alguna manera incompatible con la tarea. Cual es. ¡Todo es incompatible con la tarea!
¿Qué buscan los profesores de matemáticas al elegir a los estudiantes de maestría (MSc) que supervisarán durante su trabajo de tesis?
¿Cómo cambia el proceso de pasar de estudiante graduado a postdoctorado a alguien como persona?
¿Cuáles son algunas de las investigaciones interesantes que se están llevando a cabo en el campo de la fotónica?
¿Qué métodos utilizan las personas para investigar en lógica? ¿Qué tipo de preguntas y objetivos persiguen los investigadores lógicos?
¿Cuál es la diferencia entre una declaración de propósito (SOP) para una maestría en investigación versus una maestría en cursos, en informática?

Las estadísticas y sus conceptos comunes se basan en 4 supuestos básicos en los que la mayoría de la gente está de acuerdo. Por cierto, George Box no, pero es un caso atípico y más de esos tipos más tarde. Estos supuestos son Normalidad , Homogeneidad de variaciones , Independencia y Linealidad . Si no has tomado una clase de estadísticas en la escuela secundaria y no tienes idea de lo que estoy hablando, no te preocupes, déjame explicarte.

La normalidad es una suposición de que cualquier conjunto de datos con el que trabaje siga una forma denominada “curva de campana”.

Por ejemplo, tomé una clase de biología en la escuela secundaria y no me fue bien.

Dato curioso: mi hermana gemela ahora es doctora y le encantaba la biología en la escuela, así que … obtuve una A en la clase de biología. ¡Sí, sí, ella fingió ser yo durante el examen y una maestra no podía notar la diferencia!

Entonces, en mi clase de biología, alrededor del 60-70% de los estudiantes eran “promedio”, lo que significa que obtuvieron buenas calificaciones y aprobaron un examen. 10–20% eran como yo, apenas lo lograban y posiblemente incluso fallaban. El 20% eran como mi hermana que lo sacudió por completo y soñó con cortar ratas en la universidad. Irónicamente, mágicamente pasé del 10% de perdedores al 20% de mejor desempeño, pero solo porque soy gemelo de médico 🙂

En estadística, muchos conjuntos de datos siguen esta distribución de curva de campana y docenas de modelos estadísticos se basan en este supuesto de normalidad. Pero debido a una explosión masiva de datos y, lo que es más importante, cómo la usan las personas, creo que comenzaremos a ver más y más casos cuando los datos con los que trabajamos no siguen una distribución normal. Por ejemplo, la industria de seguros de automóviles en 2017. Incluso hace 5 años, ¿los datos que recopilamos sobre los conductores para calcular las primas eran la edad, el sexo, la experiencia, los ingresos, tal vez? Mirando estos datos, se puede decir que el 60% son buenos y experimentados, el 20% son malos y solo comienzan a conducir y el 20% nunca ha tenido multas por exceso de velocidad y tienen mucha experiencia. Ahora podemos obtener datos de las redes sociales del conductor, el empleador, el seguro de salud, el departamento de policía y Tinder. Y todos estos datos sesgarán un 60% y serán experimentados en cientos de direcciones diferentes. Podemos descubrir que muchos de nuestros Joes promedio son conductores de Uber y, por lo tanto, conducen con más cuidado la curva de campana hacia la derecha.

La homogeneidad de las variaciones significa que los grupos que están tratando de comparar entre sí tienen una variación similar o la misma (tamaño, composición, etc.) similares. Es una suposición muy conveniente porque básicamente dice que si tomara un subconjunto de sus datos y observara sus propiedades estadísticas, serían los mismos que para todo el conjunto de datos. Por ejemplo, si sacaras un puñado de un gran frasco de dulces y pudieras juzgar todo el frasco según ese puñado. Pero esta suposición tiene sentido, ¿verdad? Por supuesto, un subconjunto de dulces se verá como todos los dulces. A menos que hablemos de esos chocolates hechos a mano que, por alguna razón, todos deben tener diferentes sabores, formas y tamaños, incluso si un chocolatero tiene una imaginación limitada. Pero yo divago.

El gráfico superior es un ejemplo de dos grupos con homogeneidad de variaciones y justo debajo de él dos distribuciones con diferentes variaciones. Hace 5–10 años, los datos con los que trabajamos se parecían mucho más a la cifra más alta. Los datos sobre las personas que tratamos de comparar entre nosotros provienen principalmente de encuestas, ensayos clínicos, experimentos, lugares donde sus datos pueden caber en un archivo de Excel … sin que Excel se congele cada 5 minutos que ejecuta su 157a tabla dinámica.

Pero nuevamente, los datos han cambiado, y también la forma en que debemos analizarlos. Excel ya no lo corta, necesita una tecnología de Big Data (¿Adulto?) Y análisis de Big Data que muy bien pueden romper esta suposición común de variaciones similares. Imagina un ensayo clínico. Si los participantes fueron reclutados a través de anuncios en revistas e Instagram, no importa cómo aleatorice los temas, puede obtener grupos cuya composición se parece en papel pero oculta diferencias importantes. Si las personas dentro de un grupo (con más personas de Instagram) están más polarizadas sobre el problema del peso y el efecto secundario del medicamento es el aumento de peso, esto puede afectar la forma en que los participantes de cada grupo administran el medicamento y responden al ensayo.

La independencia desaparece como una suposición uniforme de muchos modelos estadísticos. La independencia significa que la probabilidad de que algo suceda no afecta la probabilidad de que algo más suceda. Si lanzas un dado y lanzas una moneda, lo que obtengas en el dado no afectará de ninguna manera si obtendrás una cabeza o una cola en la moneda.

Es casi como si yo comprara zapatos. El hecho de que consiga un par hoy no tiene dudas sobre si compraré otro mañana.

Esta suposición es muy común hoy en día (por lo tanto, la obsesión reciente con las redes bayesianas y los acalorados debates sobre cómo pronunciar “bayesiano”). Los eventos dependen unos de otros en la vida real. La probabilidad de que termine esta publicación depende de mis posibilidades de cenar esta noche y ambos eventos ciertamente afectan la probabilidad de que me vaya a dormir a una hora razonable. Una vez más, con la explosión de datos y las formas mejoradas que podemos analizar ahora, la suposición de independencia parece tan arcaica como parece.

Finalmente, la linealidad implica que existe una relación lineal entre las cosas que está tratando de correlacionar entre sí. Por ejemplo, hay una relación lineal entre el número de Me gusta en tu publicación de Instagram y tu nivel de felicidad (¿no es triste?). Con cada uno, tu felicidad aumenta en 2 puntos felices. Por otro lado, si alguien como usted lo hizo increíblemente feliz (por ejemplo, Elon Musk le dio un pulgar hacia arriba) o triste (por ejemplo, a Donald Trump le gustó y retuiteó su publicación), llamamos a estos “ valores atípicos ” (recuerde a George Box al comienzo de esta publicación?) y generalmente los descarta para el análisis. Bueno, aquí está el problema. Si estos valores atípicos vienen en cantidades significativas y realmente afectan nuestro análisis de manera significativa, no podemos ignorarlos y, por lo tanto, debemos reconsiderar el supuesto de linealidad.

Si eres una aspirante a modelo que publica selfies y solo obtuviste unos cuantos me gusta de Kardashians, seguro que son algunos me gusta, pero probablemente te estés pellizcando para asegurarte de que no estás dormido. O si usted es Justin Bieber y recibió muchos “ me gusta ” de Putin y de todos los empleados del Kremlin, esta podría no ser una buena noticia, ¿verdad? Además, si usted es Justin Bieber y acaba de obtener su ciudadanía a pesar de la petición del público para su deportación, los gustos del partido republicano pueden molestarlo aún más. Pero me estoy desviando de nuevo.

La suposición de linealidad ha sido desafiada mucho más en la última década más o menos y creo que veremos un gran aumento en el uso de modelos estadísticos que no asumen linealidad en 2017. Por lo tanto, póngase al día con las estadísticas intermedias y avanzadas y convertirse en un científico de datos. ¡Es muy divertido!

estadísticaInvestigaciónInvestigación académicaInvestigación científica