¿Qué es la inferencia bayesiana en estadística? ¿Cuándo y cómo se usa la inferencia bayesiana?

Me gusta la respuesta de Michael Hochster, y daré una toma relacionada.

El modelado bayesiano nos permite codificar nuestras creencias previas sobre cómo deberían ser nuestros modelos estadísticos, independientemente de lo que nos digan los datos. Esto es especialmente útil cuando no tenemos una tonelada de datos para aprender con confianza nuestro modelo. También nos permite expresar incertidumbre sobre un resultado que estamos modelando.

Un ejemplo simple es aprender un modelo de una moneda lanzada. El modelo para una moneda en particular predice la probabilidad de que la moneda caiga en las caras cuando se la lanza; llamaremos a esa probabilidad el parámetro del modelo. Una forma (una forma no bayesiana) de aprender este modelo es lanzar la moneda 10 veces y configurar el parámetro del modelo para que sea el porcentaje de lanzamientos que fueron caras. Entonces, si fueron 5 caras, 5 colas, entonces el parámetro es 50%, si eran 7 caras, entonces el parámetro es 70%, etc.

Un problema con este método es que con datos limitados (solo 10 volteos), es probable que termine con un parámetro que no es correcto. Afortunadamente, usted sabe por su experiencia como humano que la mayoría de las monedas son alrededor de 50-50. Por lo tanto, puede utilizar el modelado bayesiano para codificar este conocimiento previo.

Específicamente, puede usar una distribución Beta con los parámetros [math] \ alpha [/ math] y [math] \ beta [/ math], que básicamente finge que hemos visto previamente [math] \ alpha [/ math] y [ math] \ beta [/ math] cara y cruz, respectivamente, antes de realizar nuestros 10 volteos para que efectivamente tengamos más datos a partir de los cuales realizar nuestra estimación. (Esto se usa a menudo porque es fácil de especificar, y también es matemáticamente conveniente calcular el parámetro del modelo resultante porque la distribución Beta es un conjugado anterior a la distribución de Bernoulli). Alternativamente, puede especificar eso en su experiencia, casi todos (digamos , 98%) de las monedas con las que te encuentras son monedas justas, mientras que el resto está sesgado de alguna manera. (Consulte aquí un enfoque en este sentido: predicción del lanzamiento de una moneda [1]).

Una vez que haya especificado esta creencia previa, ahora puede llegar a una estimación para el parámetro de su modelo dada su creencia previa y los datos recientemente observados (los 10 cambios). Usando ese último modelo que supone una probabilidad del 98% de una moneda justa, si tus lanzamientos mostraron 7 caras y 3 colas, en lugar de decir “esta moneda es una moneda sesgada 70-30”, ahora dices algo como: “Estoy 98.4% seguro de que es una moneda justa, y si no lo es, probablemente esté cerca de un sesgo de 70-30 “.

Tenga en cuenta que no solo hemos utilizado nuestra creencia previa para obtener una respuesta (con suerte) mejor, ahora también estamos expresando incertidumbre al responder la pregunta de si es una moneda justa, en lugar de apegarnos a una sola respuesta.

Para darle una idea de cómo funciona esto, así es como se ve nuestra estimación con diferentes resultados y cantidades de datos:

Cosas a tener en cuenta:

  • Con solo 10 vueltas, la creencia previa tiene mucha influencia. Incluso la observación más extrema, 10 caras y 0 colas, nos deja con un 34% de posibilidades de que la moneda siga siendo justa.
  • A medida que reunimos más observaciones, la creencia previa comienza a desbordarse. Con un 70% de caras observadas pero solo 10 lanzamientos, todavía estamos muy seguros de que es una moneda justa, pero con la misma proporción de más de 100 lanzamientos, ahora es muy poco probable que sea una moneda justa, y con la misma proporción de más de 1000 lanzamientos, Básicamente estamos seguros de que no es una moneda justa. Esta es la razón de mi punto en negrita arriba, que el razonamiento bayesiano es más útil cuando tenemos relativamente pocos datos.
  • La inferencia bayesiana no solo le brinda la capacidad de codificar estos antecedentes, sino también la capacidad de expresar una distribución sobre posibles modelos después de observar los datos (“Estoy 98.4% seguro de que es una moneda justa, y si no lo es, probablemente esté en algún lugar cerca de un sesgo de 70-30 “) en lugar de elegir un modelo.

Más allá del ejemplo de la moneda, los siguientes son ejemplos de codificación de creencias previas en modelos realistas de aprendizaje automático:

  • En un modelo de regresión lineal estándar, puede codificar su creencia de que la mayoría de las características no importan utilizando la Regularización.
  • En una red bayesiana, si tiene algún conocimiento previo del mundo real correspondiente a alguna parte del modelo, puede codificarlo directamente. Por ejemplo, en una red para el diagnóstico médico (por ejemplo, este para el diagnóstico de trastornos hepáticos [2]), si un parámetro corresponde a la probabilidad de un bazo agrandado debido a un trastorno hepático particular, y un estudio publicado en una revista ha producido un estimación de esa probabilidad, puede codificar un previo que empuje la estimación de su modelo hacia esa probabilidad.
  • Si está tratando de modelar un problema en particular y tiene muchos datos de un problema relacionado, puede usar el modelado jerárquico bayesiano u otras formas de aprendizaje de transferencia bayesiano donde esencialmente está usando el problema relacionado para formar una creencia previa para tu problema actual
  • Si bien la mayoría de los modelos de Deep Learning no usan modelos Bayesianos, esto ha comenzado a cambiar en los últimos años y hubo un Taller Bayesiano de Aprendizaje Profundo [3] en la conferencia NIPS más reciente.

Notas al pie

[1] Predecir un lanzamiento de moneda

[2] http://www.pitt.edu/~druzdzel/ps…

[3] Taller Bayesiano de Aprendizaje Profundo | NIPS 2016

La cualidad definitoria de la inferencia bayesiana es tratar cantidades desconocidas como aleatorias .

Uno de los ejemplos más simples es estimar el sesgo en una moneda posiblemente injusta que aterriza con probabilidad [math] p [/ math].

El análisis en un marco bayesiano trata [matemáticas] p [/ matemáticas] como aleatorio. Comenzamos con una distribución previa en [math] p [/ math] que refleja nuestra información sobre [math] p [/ math] antes de que se haya recopilado ningún dato. Si cada valor entre 0 y 1 es igualmente probable, se puede usar un previo plano (uniforme); o si se sabe que los valores cercanos a 0.5 son más probables, la distribución previa podría estar más concentrada alrededor de 0.5. El plano anterior se ilustra a continuación.

Supongamos que ahora lanzamos la moneda 100 veces y aparecen 60 cabezas. En base a estas observaciones, la distribución anterior se actualiza utilizando la Regla de Bayes (que puede consultar) a una distribución posterior , en este caso algo más concentrado alrededor de 0.6.
La distribución posterior (representada como una densidad de probabilidad aquí) refleja nuestra información sobre [matemáticas] p [/ matemáticas] después de recopilar los datos. Usando esta densidad posterior, podemos hacer declaraciones de probabilidad que describan nuestra certeza sobre el valor de [math] p [/ math] a la luz de los datos que tenemos ahora.

Podemos leer cualquier declaración de interés de probabilidad calculando un área bajo la parte correspondiente de la densidad posterior. El siguiente diagrama ilustra la declaración:
[matemática] P (0.5 \ leq p \ leq 0.7) = 0.96 [/ matemática].
(96% del área bajo la curva cae entre los dos puntos).

Esta declaración de probabilidad posterior es un ejemplo de inferencia bayesiana.

Tratar cantidades desconocidas (parámetros) como [math] p [/ math] como aleatorias de esta manera no es la norma en la inferencia estadística convencional (también conocida como frecuentista). De acuerdo con la escuela de pensamiento frecuentista, [matemáticas] p [/ matemáticas] es solo un número fijo que no conocemos, y no deberíamos hacer declaraciones de probabilidad al respecto. La inferencia frecuente generalmente describe la incertidumbre sobre parámetros desconocidos utilizando intervalos de confianza.

Las respuestas a ¿Cuál es la diferencia entre estadísticos bayesianos y frecuentistas? y ¿Qué es un intervalo de confianza en términos simples? También podría ser útil para comprender los dos enfoques.

La respuesta de Michael Hochster es una gran visión general; También enlazaré con una breve introducción aquí.

Tocaré las partes de cuándo y cómo de su pregunta.

La inferencia bayesiana, como un medio para producir una distribución posterior , es útil siempre que desee evaluar y comparar la plausibilidad de muchos hechos, en lugar de simplemente elegir el hecho más plausible (porque queremos evaluar cuán seguros estamos) o el hecho más plausible con alguna medida de dispersión (que puede no describir con precisión cuán seguros estamos de algo, google “posteriores multimodales”), o como frecuentista, una estimación de muestra con un intervalo de confianza (que está relacionado pero es fundamentalmente diferente en filosofía e interpretación).

Además, podríamos creer que la evidencia empírica no representa adecuadamente toda la información que tenemos sobre alguna variable aleatoria. Podríamos tener poblaciones relacionadas que brinden algún contexto. O tal vez tenemos conocimiento experto / dominio sobre un sistema, como saber que la palabra “excelente” generalmente tiene una connotación positiva, aunque es posible que no tengamos datos disponibles para reflejar eso. De esta manera, nosotros como investigadores podemos usar distribuciones previas para regularizar nuestras creencias de acuerdo con algo que no es aparente en los datos.

En términos de cómo, generalmente configuramos un modelo de probabilidad que se aproxima a cómo creemos que se han generado los datos que tenemos. Por ejemplo, si tenemos datos sobre si algún correo electrónico en nuestro conjunto de datos fue etiquetado como spam, podríamos pensar que esas etiquetas son generadas por un experimento de Bernoulli con una probabilidad p. Si estuviera interesado en evaluar el verdadero valor de p, podemos explotar este modelo para determinar la probabilidad de que nuestros datos tengan alguna suposición sobre p (la función de probabilidad). Luego multiplicamos esa probabilidad, condicionando un valor de p, por nuestra probabilidad previa de ese valor, y normalizamos esa expresión por la probabilidad de los datos bajo todos los valores posibles de p para que nuestro resultado final corresponda a una distribución de probabilidad adecuada (nuestra posterior ) A veces esto se puede hacer analíticamente si sabemos cosas sobre eso posterior. Por ejemplo, sabemos que todo lo que necesitamos para especificar completamente una distribución normal es su media y varianza, y conocemos fórmulas que toman nuestras estimaciones de muestra y las convierten en estimaciones de medias y varianzas. En general, no tenemos tanta suerte, y nuestros posteriores son generalmente distribuciones que nunca hemos visto antes, por lo que tenemos que confiar en métodos numéricos como MCMC para obtener la forma del posterior, o métodos aproximados como la inferencia variacional. Este tipo de modelos se pueden construir y entrenar utilizando lenguajes de programación probabilísticos como PyMC, Stan, Dimple, Figaro y otros.

La primera idea clave es utilizar nuevos resultados para actualizar las estimaciones existentes de probabilidades. Por ejemplo, a los miembros del jurado en un juicio se les dice que presuman que el acusado no es culpable hasta que se pruebe su culpabilidad sin lugar a dudas. Entonces suponen que no es culpable. Luego escuchan la evidencia y la contra evidencia y siguen ajustando sus estimaciones de la probabilidad de que el acusado sea culpable. Hasta ahora, esto es algo que todos hacemos.

La segunda idea clave es usar estimaciones de cuán probable sería la nueva evidencia, dada cada una de las hipótesis que está probando. Por ejemplo, si el acusado es inocente, es ligeramente posible que sus huellas digitales estén en el arma homicida. Pero si el acusado es culpable, es más probable (pero no seguro) que sus huellas digitales sean propias del arma homicida. Del mismo modo, las personas culpables e inocentes tienen menos o más probabilidades de tener coartadas y testigos de buen carácter. Una persona culpable tiene más probabilidades de haber sido identificada por un testigo ocular.

La tercera idea clave es usar una fórmula particular para actualizar las estimaciones numéricas de probabilidad, en este ejemplo, de la culpabilidad o inocencia del acusado.

El problema para el análisis bayesiano es que requiere estimar muchas probabilidades. ¿Un jurado realmente comienza con una estimación de que el acusado tiene solo un 10% de probabilidades de ser culpable? ¿Puede el jurado estimar con precisión

la probabilidad de que un hombre inocente tenga una coartada, X,
la probabilidad de que un hombre inocente no tenga una coartada, 1-X,
la probabilidad de que un hombre culpable tenga una coartada, Y,
la probabilidad de que un hombre culpable no tenga una coartada, 1-Y,

y así sucesivamente para huellas dactilares, testimonio de testigos oculares, motivos, etc. Cuantas más probabilidades hay estimadas en un cálculo, más incierta es la estimación final, por ejemplo, de la culpabilidad del acusado.

Por lo tanto, los miembros del jurado que utilizan la estimación bayesiana de la culpa o la inocencia es un mal ejemplo. Pero hay otros casos en los que las preguntas y los datos son naturalmente numéricos (por ejemplo, ¿es más probable que un cliente compre esta chaqueta de safari después de ver el anuncio A o el anuncio B?) En muchos casos, a los clientes se les puede mostrar automáticamente uno de los dos anuncios y sus respuestas anotaron. Tanto la estimación como la incertidumbre de la estimación pueden actualizarse automáticamente muchas veces, muy rápidamente, hasta que se tome una decisión y todos los clientes vean el anuncio más efectivo.