¿Ha habido avances importantes en el campo de la estadística en los últimos años? ¿Ha habido algún cambio de paradigma?

Hay una historia famosa sobre un grupo de estadísticos de finales de los 50 o principios de los 60 que luchaban por adaptarse a un modelo. El problema con el que se encontraban era que necesitaban invertir una matriz [matemática] 24 \ veces 24 [/ matemática], y eso estaba más allá de la capacidad de casi todas las computadoras en ese entonces. Hoy, sentado en la silla de mi oficina, puedo hacerlo mil veces sin siquiera necesitar una razón.

Más que cualquier otra cosa, la informática barata realmente ha transformado las estadísticas en las últimas dos décadas. Hasta 1990, más o menos, tenía que calcular la distribución asintótica de sus estadísticas de prueba y publicar tablas de valores críticos para que las personas pudieran usarlas. Ahora solo simula datos bajo su hipótesis nula y obtiene la distribución real de estas estadísticas.

Creo que esto equivale a un cambio de paradigma en el sentido de que solíamos ser inteligentes todo el tiempo, y ahora solo podemos arrojar potencia informática a nuestros problemas. El truco es descubrir cuándo vale la pena pasar algún tiempo siendo inteligente además de hacer números.

Los métodos de Monte Carlo han permitido el muestreo de distribuciones que son difíciles de manejar analíticamente, y en particular esto ha ayudado a que las estadísticas bayesianas se vuelvan utilizables. (Es fácil encontrarse con integrales intratables en las estadísticas bayesianas, pero la mayoría de los métodos de Monte Carlo como Metropolis-Hastings o muestreo de importancia requieren conocer una distribución hasta una constante de normalización).

Debo agregar que, al parecer, la tasa de convergencia de los algoritmos MCMC sigue siendo un problema importante que no está completamente resuelto.

Me vienen a la mente otros dos desarrollos que también han tenido un impacto significativo:

1. La rutina inicial : cuando todo lo que tenemos es una muestra única de la población original, y no tenemos idea de (y por lo tanto no queremos plantear arbitrariamente) la distribución que gobierna la población original de la cual se extrajo la muestra, muestra repetidamente de manera uniforme y con reemplazo de la muestra que tenemos, para hacer inferencias en las estadísticas asociadas con la muestra.

Es equivalente a aceptar la distribución empírica (dentro de la muestra que tenemos a mano) como la única información disponible sobre la población en general, sin inyectar más suposiciones sobre la forma de la distribución en toda la población.

Que este enfoque produzca estimaciones excelentes y con muy buenos errores estándar en tantos casos prácticos, es a la vez sorprendente en su eficacia, generalidad y elegancia, y tal vez no sea tan sorprendente cuando damos un paso atrás y nos damos cuenta de que declarar que un fenómeno está gobernado por Gaussian o Poisson o cualquier distribución es a menudo una cuestión de conveniencia que permite trabajar con modelos conocidos con soluciones familiares, en lugar de un verdadero reflejo de la Madre Naturaleza.

2. Detección comprimida: esta es la noción de que, para muchos problemas de procesamiento de señales en la vida real que exhiben escasez (por ejemplo, pocos parámetros distintos de cero o no cercanos a cero en el dominio de frecuencia / Fourier), se puede muestrear a tasas significativamente por debajo de la frecuencia de muestreo de Nyquist y todavía recupera la integridad casi total de la señal original.

Para este trabajo, el muestreo debe realizarse en dominios ortogonales al (a los) dominio (s) en los que la señal presenta escasez, pero la detección comprimida muestra formas de muestreo aleatorio que logran esta ortogonalidad, ofreciendo soluciones prácticas y no solo pruebas de existencia sin enfoques constructivos.

Una de las razones para que este desarrollo sea relativamente reciente (1990) es su dependencia de las normas L1 que requieren enfoques computacionales en lugar de las normas L2 para las cuales las soluciones analíticas se obtienen más fácilmente con “lápiz y papel”.

Esto es nuevamente sorprendente en su poder para reducir las tasas de muestreo requeridas a pequeñas fracciones del dogma anterior de “la recuperación original solo es posible si el muestreo es el doble de la frecuencia más alta que está presente en la señal”, pero de nuevo, un poco menos sorprendente cuando uno recuerda que el resultado de Nyquist anterior solo es ajustado para el ruido blanco en el peor de los casos (o densidad uniforme en un rango de frecuencias), mientras que muchos fenómenos en la vida real exhiben escasez en algún espacio de proyección de la señal.

Esto tiene implicaciones importantes en áreas como el escaneo médico, y puede resultar en enfoques mucho menos costosos o, lo que es más importante, enfoques mucho menos invasivos (por ejemplo, completar un escaneo de un niño mucho más rápido al hacerlo de manera más gruesa, lo que hace posible para hacerlo con más restricciones benignas sobre la inmovilidad que las sesiones más largas).

Diría que la regresión de Lasso por Tibschirani (1996) y la coincidencia del puntaje de propensión por Rosenbaum y Rubin (1983). No exactamente “reciente” pero lo suficientemente reciente.

La regresión de lazo hace posible el análisis de datos de alta dimensión, datos con un gran número de variables predictivas. La casilla mínima con penalización L1 ayuda a filtrar rápidamente todos los ruidos y acercarse a las variables importantes, hasta cierto punto.

La coincidencia de puntaje de propensión y toda la idea detrás de contrafactual es tan increíblemente simple pero totalmente increíble. La coincidencia de puntaje de propensión resuelve uno de los mayores problemas en estadística, los datos experimentales son muy difíciles y caros de encontrar. Ahora es posible utilizar también datos de observación para hacer inferencias causales, de nuevo hasta cierto punto, por supuesto.

En general, este es un momento emocionante para ser un estadístico en esta era de Big Data donde los datos son baratos.

A las excelentes respuestas hasta ahora, agregaría tres más. Mi definición de “años recientes” es “desde que obtuve mi doctorado”, que es [matemática] \ frac {1} {3} [/ matemática] de un siglo, así que perdona a un anciano si tu definición de “reciente”, o incluso “Estadísticas” es diferente! Dicho esto, mi percha sinóptica más amplia puede ayudarte en tu propia investigación ……

1) Programación semidefinida positiva . ¡Hubiera dado un brazo y una pierna para tener este truco en el pasado! Hace posibles las cosas que solo soñamos. Vea la respuesta de Allan Steinhardt a Si de alguna manera solo tuviéramos acceso a momentos empíricos de una distribución, ¿cuántos necesitaríamos para caracterizar completamente cualquier distribución? Si bien para el muestreo temporal esto no es muy útil para el muestreo espacial, es enorme porque puede “esparcir” la cuadrícula de muestreo.

2) Asignación de Dirichlet latente : la capacidad de caracterizar de manera manejable mezclas ha sido revolucionaria. Sería difícil imaginar el aprendizaje automático moderno, del habla, el texto o las imágenes, sin esto. Como joven investigador, tratamos de analizar frases e imágenes, y nunca pudimos hacerlo funcionar . ¡Ahora lo hacemos mientras dormimos con software gratuito de código abierto!

3) Relación de probabilidad generalizada para distribución elípticamente invariante: vea la caracterización del desorden de radar como un proceso aleatorio invariablemente esférico como ejemplo. En muchas aplicaciones, Guassian simplemente no es un modelo creíble, las colas son demasiado largas. La aparición de una base teórica sobre una clase más amplia de distribuciones multivariadas ha sido extremadamente útil para el modelado de señales y el modelado del rendimiento del estimador de desorden, texturas y otros campos aleatorios.

ESL por Hastie, Tibshirani y Friedman
El marco del aprendizaje estadístico es un gran avance. Tiene casi 13 años. Esta manera de aplicar métodos de aprendizaje en conjuntos de datos es novedosa y sostenida. Desarrolla familias de métodos y posibles modificaciones. Discute su concepto básico y aplica la notación matemática y estadística según sea necesario. Este paradigma sienta nuevas bases durante al menos algunas décadas. Su capacidad se puede aumentar con más lazos entre las matemáticas y el aprendizaje. Esto incluye el estudio de la geometría y la topología. También se puede combinar con la teoría de muestreo adicional y la probabilidad basada en el cálculo. Su desarrollo a largo plazo requiere una aplicación competente en disciplinas diferentes a las estadísticas. Si se alcanza un efecto de red suficiente, el paradigma tiene capacidad para sobrevivir en cientos de años.

No veo un cambio fundamental. Con los últimos años de sobrecarga de información, Data Mining es el área clave que se desarrolla.

En el pasado, la falta de datos es el problema. Pero ahora la abundancia de datos es.

Las estadísticas son como fluidas, pueden predecir con mayor precisión cada nuevo dato siempre que se alimente al modelo bajo la observación del estadístico.

Diré las estadísticas actuales bendecidas con infinitos problemas y aplicaciones infinitas.

¡Aquí hay un lugar para descubrirlo!

¡Regístrate y comienza a leer! Estoy seguro de que hay otras organizaciones disponibles. Recomendaría una búsqueda en Google y regístrate para una pareja.

Avance y Desarrollo en Tecnología Internacional