Me gusta la respuesta de Michael Hochster, y daré una toma relacionada.
El modelado bayesiano nos permite codificar nuestras creencias previas sobre cómo deberían ser nuestros modelos estadísticos, independientemente de lo que nos digan los datos. Esto es especialmente útil cuando no tenemos una tonelada de datos para aprender con confianza nuestro modelo. También nos permite expresar incertidumbre sobre un resultado que estamos modelando.
Un ejemplo simple es aprender un modelo de una moneda lanzada. El modelo para una moneda en particular predice la probabilidad de que la moneda caiga en las caras cuando se la lanza; llamaremos a esa probabilidad el parámetro del modelo. Una forma (una forma no bayesiana) de aprender este modelo es lanzar la moneda 10 veces y configurar el parámetro del modelo para que sea el porcentaje de lanzamientos que fueron caras. Entonces, si fueron 5 caras, 5 colas, entonces el parámetro es 50%, si eran 7 caras, entonces el parámetro es 70%, etc.
- ¿Cómo fue un hecho que los dinosaurios eran escamosos, y ahora es un hecho que tenían plumas?
- ¿Cuáles son los argumentos científicos contra la existencia de Dios?
- Método científico: ¿Un proceso no repetible cuenta como una medida?
- En el método científico, ¿es la revisión por pares una parte esencial de la falsabilidad de una teoría?
- ¿La ciencia se ha vuelto demasiado dogmática?
Un problema con este método es que con datos limitados (solo 10 volteos), es probable que termine con un parámetro que no es correcto. Afortunadamente, usted sabe por su experiencia como humano que la mayoría de las monedas son alrededor de 50-50. Por lo tanto, puede utilizar el modelado bayesiano para codificar este conocimiento previo.
Específicamente, puede usar una distribución Beta con los parámetros [math] \ alpha [/ math] y [math] \ beta [/ math], que básicamente finge que hemos visto previamente [math] \ alpha [/ math] y [ math] \ beta [/ math] cara y cruz, respectivamente, antes de realizar nuestros 10 volteos para que efectivamente tengamos más datos a partir de los cuales realizar nuestra estimación. (Esto se usa a menudo porque es fácil de especificar, y también es matemáticamente conveniente calcular el parámetro del modelo resultante porque la distribución Beta es un conjugado anterior a la distribución de Bernoulli). Alternativamente, puede especificar eso en su experiencia, casi todos (digamos , 98%) de las monedas con las que te encuentras son monedas justas, mientras que el resto está sesgado de alguna manera. (Consulte aquí un enfoque en este sentido: predicción del lanzamiento de una moneda [1]).
Una vez que haya especificado esta creencia previa, ahora puede llegar a una estimación para el parámetro de su modelo dada su creencia previa y los datos recientemente observados (los 10 cambios). Usando ese último modelo que supone una probabilidad del 98% de una moneda justa, si tus lanzamientos mostraron 7 caras y 3 colas, en lugar de decir “esta moneda es una moneda sesgada 70-30”, ahora dices algo como: “Estoy 98.4% seguro de que es una moneda justa, y si no lo es, probablemente esté cerca de un sesgo de 70-30 “.
Tenga en cuenta que no solo hemos utilizado nuestra creencia previa para obtener una respuesta (con suerte) mejor, ahora también estamos expresando incertidumbre al responder la pregunta de si es una moneda justa, en lugar de apegarnos a una sola respuesta.
Para darle una idea de cómo funciona esto, así es como se ve nuestra estimación con diferentes resultados y cantidades de datos:
Cosas a tener en cuenta:
- Con solo 10 vueltas, la creencia previa tiene mucha influencia. Incluso la observación más extrema, 10 caras y 0 colas, nos deja con un 34% de posibilidades de que la moneda siga siendo justa.
- A medida que reunimos más observaciones, la creencia previa comienza a desbordarse. Con un 70% de caras observadas pero solo 10 lanzamientos, todavía estamos muy seguros de que es una moneda justa, pero con la misma proporción de más de 100 lanzamientos, ahora es muy poco probable que sea una moneda justa, y con la misma proporción de más de 1000 lanzamientos, Básicamente estamos seguros de que no es una moneda justa. Esta es la razón de mi punto en negrita arriba, que el razonamiento bayesiano es más útil cuando tenemos relativamente pocos datos.
- La inferencia bayesiana no solo le brinda la capacidad de codificar estos antecedentes, sino también la capacidad de expresar una distribución sobre posibles modelos después de observar los datos (“Estoy 98.4% seguro de que es una moneda justa, y si no lo es, probablemente esté en algún lugar cerca de un sesgo de 70-30 “) en lugar de elegir un modelo.
Más allá del ejemplo de la moneda, los siguientes son ejemplos de codificación de creencias previas en modelos realistas de aprendizaje automático:
- En un modelo de regresión lineal estándar, puede codificar su creencia de que la mayoría de las características no importan utilizando la Regularización.
- En una red bayesiana, si tiene algún conocimiento previo del mundo real correspondiente a alguna parte del modelo, puede codificarlo directamente. Por ejemplo, en una red para el diagnóstico médico (por ejemplo, este para el diagnóstico de trastornos hepáticos [2]), si un parámetro corresponde a la probabilidad de un bazo agrandado debido a un trastorno hepático particular, y un estudio publicado en una revista ha producido un estimación de esa probabilidad, puede codificar un previo que empuje la estimación de su modelo hacia esa probabilidad.
- Si está tratando de modelar un problema en particular y tiene muchos datos de un problema relacionado, puede usar el modelado jerárquico bayesiano u otras formas de aprendizaje de transferencia bayesiano donde esencialmente está usando el problema relacionado para formar una creencia previa para tu problema actual
- Si bien la mayoría de los modelos de Deep Learning no usan modelos Bayesianos, esto ha comenzado a cambiar en los últimos años y hubo un Taller Bayesiano de Aprendizaje Profundo [3] en la conferencia NIPS más reciente.
Notas al pie
[1] Predecir un lanzamiento de moneda
[2] http://www.pitt.edu/~druzdzel/ps…
[3] Taller Bayesiano de Aprendizaje Profundo | NIPS 2016