¿Cuándo es filosóficamente legítimo considerar los parámetros de las distribuciones de probabilidad como variables aleatorias?

Estás preguntando acerca de una gran controversia en los fundamentos de las estadísticas. No tengo una respuesta definitiva para ti, pero aquí hay algunos comentarios.

  1. Si los parámetros surgen de algún tipo de “proceso de muestreo”, nadie tendría problemas para modelarlos como variables aleatorias.
  2. Si tenemos algún otro tipo de información previa sobre los valores de los parámetros que es representable como una distribución de probabilidad, el cálculo bayesiano habitual nos da una forma aparentemente razonable de combinar esta información con datos muestreados para hacer inferencias sobre los valores de los parámetros. ¿Por qué digo que el cálculo bayesiano es “aparentemente razonable”? Sin ser demasiado formal, podemos argumentar (por analogía) que los cálculos bayesianos son razonables porque lo serían si la distribución anterior surgiera de un proceso de muestreo, y sería extraño hacer los cálculos de una manera diferente porque la información previa surge de manera diferente . No hay nada riguroso sobre ese argumento, pero lo encuentro algo convincente.
  3. Si decidimos que es filosóficamente ilícito considerar los parámetros de las distribuciones de probabilidad como variables aleatorias, eso no nos deja ninguna forma (que yo sepa) de incorporar información previa sobre los parámetros a la inferencia. Esto podría tentarnos a ser bayesianos por razones prácticas.
  4. En la mayoría de los casos, será difícil encontrar una distribución previa que represente con precisión la información previa que tenemos. Si fuera fácil encontrar tales distribuciones simplemente por introspección, entonces no habría necesidad del cálculo bayesiano: podría obtener probabilidades posteriores simplemente mirando los datos e introspectando.
  5. Incluso en el caso común donde no tenemos información previa sobre el parámetro (excepto los posibles valores que podría tomar), la elección de prior puede ser confusa. Si el conjunto de valores posibles es, por ejemplo, la línea real, no existe un previo uniforme. En el caso donde el parámetro [math] \ theta [/ math] se elige del intervalo de la unidad, puede parecer obvio que “ninguna información previa” corresponde a un previo uniforme. Sin embargo, dado que la cuadratura es 1: 1 en el intervalo de la unidad, “no hay información sobre [math] \ theta [/ math]” es equivalente a “no hay información sobre [math] \ theta ^ 2 [/ math]”. Y si [math] \ theta [/ math] tiene una distribución uniforme, entonces [math] \ theta ^ 2 [/ math] no la tiene. Uno puede elegir una distribución previa de una manera que evite esta aparente paradoja (http://en.wikipedia.org/wiki/Jef…), pero no está claro que tales antecedentes sean realmente “no informativos” en la forma en que nos importa acerca de.
  6. La cálida sensación de amplitud que se obtiene al realizar el cálculo bayesiano suele ser engañosa. En realidad, eligió la forma del modelo anterior y por conveniencia matemática, y la incertidumbre real (grande) sobre estas formas falta en sus probabilidades posteriores.

Entonces, “considerar los parámetros de distribuciones de probabilidad como variables aleatorias” es básicamente colocar una distribución de probabilidad previa en los parámetros de distribución de probabilidad.

El término “variables aleatorias” está lleno de problemas. ¡Los parámetros de una distribución de probabilidad en el mundo físico / real probablemente no sean aleatorios ni variables! De hecho, incluso tener “parámetros” para una distribución probablemente sea incorrecto porque la distribución “real” para el aspecto del mundo físico / real que está considerando es casi seguro que no está en la familia de modelos parametrizados que está utilizando.

Como dijo el gran filósofo Aristóteles “Todos los modelos están equivocados, pero algunos son útiles”. No, ah, ese era el estadístico George EP Box, de todos modos … Yo diría que algo relacionado se aplica a las distribuciones de probabilidad anteriores.

Entonces, mientras algunos estadísticos pasan por la angustia, la culpa, el miedo y la vergüenza de tener que llegar a una distribución previa, “¿entiendo lo que significa?”, “¿Es ilegítimo?”, “¿Qué significa ser ignorante?” , “¿va con este lindo y pequeño modelo lineal que acabo de recibir?”,

Tomo un enfoque más de ingeniería. ¿Qué puedes hacer en la práctica? Hasta cierto punto, depende de cuál sea su tarea. Hay muchas estrategias diferentes que uno puede tomar en la práctica.

Los expertos tienen todo tipo de trucos que han desarrollado para desarrollar probabilidades previas razonables. A veces usan los que son computacionalmente convenientes. Algunos modelos son tan claramente erróneos (como usar un modelo lineal estándar para predecir un fenómeno complejo), que colocar probabilidades previas en los parámetros es un uso problemático del paradigma bayesiano. A veces no podemos pensar en las prioridades correctas, por lo que ponemos prioridades en prioridades.

Se puede demostrar que la mayoría de las estrategias que son * no * bayesianas, es decir, no usan probabilidades previas, tienen inconsistencias matemáticas. Si eso te impide usarlos. No. Validación cruzada, Bootstrap, etc., todo muy útil y algo fácil de usar.

De todos modos, el uso de probabilidades previas es un paradigma computacional de modelado. No es “correcto” o “incorrecto”, o para el caso “bueno” o “malo”. Lo hacemos porque a menudo funciona, y en algunos casos funciona muy bien. Sí, es un poco peligroso para el estudiante casual que busca una receta de rutina, o para el científico que busca hacer recomendaciones en las que puedan descansar las vidas de millones de personas. (Para esto, creo que un poco de teoría de decisión y análisis de robustez también es útil).