Estás preguntando acerca de una gran controversia en los fundamentos de las estadísticas. No tengo una respuesta definitiva para ti, pero aquí hay algunos comentarios.
- Si los parámetros surgen de algún tipo de “proceso de muestreo”, nadie tendría problemas para modelarlos como variables aleatorias.
- Si tenemos algún otro tipo de información previa sobre los valores de los parámetros que es representable como una distribución de probabilidad, el cálculo bayesiano habitual nos da una forma aparentemente razonable de combinar esta información con datos muestreados para hacer inferencias sobre los valores de los parámetros. ¿Por qué digo que el cálculo bayesiano es “aparentemente razonable”? Sin ser demasiado formal, podemos argumentar (por analogía) que los cálculos bayesianos son razonables porque lo serían si la distribución anterior surgiera de un proceso de muestreo, y sería extraño hacer los cálculos de una manera diferente porque la información previa surge de manera diferente . No hay nada riguroso sobre ese argumento, pero lo encuentro algo convincente.
- Si decidimos que es filosóficamente ilícito considerar los parámetros de las distribuciones de probabilidad como variables aleatorias, eso no nos deja ninguna forma (que yo sepa) de incorporar información previa sobre los parámetros a la inferencia. Esto podría tentarnos a ser bayesianos por razones prácticas.
- En la mayoría de los casos, será difícil encontrar una distribución previa que represente con precisión la información previa que tenemos. Si fuera fácil encontrar tales distribuciones simplemente por introspección, entonces no habría necesidad del cálculo bayesiano: podría obtener probabilidades posteriores simplemente mirando los datos e introspectando.
- Incluso en el caso común donde no tenemos información previa sobre el parámetro (excepto los posibles valores que podría tomar), la elección de prior puede ser confusa. Si el conjunto de valores posibles es, por ejemplo, la línea real, no existe un previo uniforme. En el caso donde el parámetro [math] \ theta [/ math] se elige del intervalo de la unidad, puede parecer obvio que “ninguna información previa” corresponde a un previo uniforme. Sin embargo, dado que la cuadratura es 1: 1 en el intervalo de la unidad, “no hay información sobre [math] \ theta [/ math]” es equivalente a “no hay información sobre [math] \ theta ^ 2 [/ math]”. Y si [math] \ theta [/ math] tiene una distribución uniforme, entonces [math] \ theta ^ 2 [/ math] no la tiene. Uno puede elegir una distribución previa de una manera que evite esta aparente paradoja (http://en.wikipedia.org/wiki/Jef…), pero no está claro que tales antecedentes sean realmente “no informativos” en la forma en que nos importa acerca de.
- La cálida sensación de amplitud que se obtiene al realizar el cálculo bayesiano suele ser engañosa. En realidad, eligió la forma del modelo anterior y por conveniencia matemática, y la incertidumbre real (grande) sobre estas formas falta en sus probabilidades posteriores.