¿Cuáles son los buenos temas de investigación en aprendizaje automático en 2016?

Creo firmemente que solo hemos arañado la superficie de lo que es posible con el aprendizaje automático … por lo que no faltan buenos temas de investigación. Aquí hay cuatro que creo que son particularmente importantes hoy (y solo estoy trabajando en dos de ellos :)):

  • Explicando las predicciones hechas por el modelo de aprendizaje automático: para poder confiar verdaderamente en un modelo de aprendizaje automático , necesitamos evaluarlo cuantitativamente y obtener una comprensión cualitativa de por qué funcionan. Un avance en este tema acelerará rápidamente la tasa de adopción del aprendizaje automático en el mundo real. Mi alumno Marco Ribeiro y el postdoctorado Sameer Singh han escrito un artículo realmente emocionante sobre cómo obtener explicaciones intuitivas de por qué se hace una predicción particular, y demostraron que incluso los no expertos pueden mejorar el rendimiento de los modelos de ML utilizando estas explicaciones.
  • Comprender por qué funciona el aprendizaje profundo: las redes neuronales profundas han expulsado otros métodos del agua, especialmente en problemas relacionados con los datos de visión y habla. Sin embargo, hay muy poca comprensión teórica de por qué estos métodos funcionan tan bien. Una visión más profunda aquí guiará otra década de investigación.
  • Democratización (escalable) de aprendizaje automático: necesitamos aprender modelos de aprendizaje automático con cantidades cada vez mayores de datos. La investigación y la industria en torno a las bases de datos han podido hacer que esa tecnología sea ampliamente accesible, incluso a escala. En ML, aún necesita una gran cantidad de experiencia para aprender buenos modelos de los datos, especialmente a escala. Esto debe cambiar para que ML tenga el mismo impacto en el mundo que la comunidad de bases de datos ha tenido (y creo que podemos tener mucho, mucho más impacto :)). Hacer que las técnicas de ML más sofisticadas sean ampliamente accesibles y aplicables es el objetivo de Dato (mi startup), y el foco de gran parte de mi investigación en los últimos años, incluido el trabajo reciente de mi estudiante Tianqi Chen Tianqi Chen en XGBoost, que se utiliza por más de la mitad de los equipos que ganan las competencias de Kaggle.
  • Representación del conocimiento del sentido común: los métodos de aprendizaje automático han tenido más éxito en la representación de información de nivel inferior, como lo que se usa para detectar objetos en imágenes o reconocer el habla con aprendizaje profundo. Sin embargo, los humanos razonan explotando su comprensión de alto nivel del mundo, razonando sobre los objetos y sus relaciones, y construyendo analogías. Un paso en esta dirección es el trabajo realizado en el Instituto Allen de Inteligencia Artificial para aprender a resolver problemas de matemáticas y geometría.