¿Cuáles son algunos avances recientes en la investigación de optimización no convexa?

La optimización no convexa ahora es omnipresente en el aprendizaje automático. Mientras que anteriormente, el enfoque estaba en los métodos de relajación convexa, ahora el énfasis está en poder resolver los problemas no convexos directamente.

No es posible encontrar el óptimo global de cada problema no convexo debido a la barrera de dureza NP. Un enfoque alternativo es: cuándo se puede resolver de manera eficiente (preferiblemente en un tiempo polinómico de orden bajo). El trabajo teórico reciente ha establecido que muchos problemas no convexos pueden resolverse de manera casi óptima, pero con algoritmos iterativos simples, por ejemplo, descenso de gradiente con reinicios aleatorios. Las condiciones para el éxito resultan ser suaves y naturales para muchos problemas de aprendizaje.

Algunos ejemplos de métodos no convexos garantizados:

  • Muchos modelos de variables latentes pueden aprenderse descomponiendo los tensores de momento de orden superior (que es un problema no convexo). Se nos garantiza aprender un modelo consistente, cuando la representación oculta o latente no es degenerada: el efecto de una variable oculta no se puede expresar como una combinación lineal de efectos de otras. Mira nuestro periódico. Vea también una excelente publicación de blog de Rong Ge.
  • La factorización de matriz no negativa se vuelve manejable bajo una condición de separabilidad, ver aquí. Es posible que esta condición no siempre se mantenga, pero en muchos problemas, como aprender PCFG en PNL, siempre podemos agregar más funciones hasta que tengamos un problema separable. Mira aquí.
  • Los problemas no convexos tienden a funcionar mejor en la práctica, pero hasta ahora la teoría solo estaba disponible para los métodos de relajación convexa. Esto está cambiando rápidamente: se ha demostrado que muchos métodos no convexos tienen éxito en los regímenes donde la relajación convexa tiene éxito. Por ejemplo, para el problema de la PCA robusta, donde el objetivo es encontrar un rango bajo + descomposición dispersa de la matriz, mostramos que un método natural no convexo, que es más eficiente que el método convexo, tiene los mismos regímenes de éxito. Mira aquí.
  • Para problemas no convexos, el principal inconveniente es la necesidad de una buena inicialización. Aquí es donde los profesionales tienden a tener buenas intuiciones y emplear conocimientos específicos de dominio para diseñar estas inicializaciones. Esto también se está abordando en teoría. Por ejemplo, para un problema de codificación escasa, podemos inicializar buscando una solución a un problema de agrupamiento superpuesto. Mira aquí y aquí.
  • Los trabajos anteriores se basan en el descenso de gradiente u otros métodos locales, con inicializaciones específicas. Un método alternativo se basa en el suavizado, donde la función se transforma progresivamente en un objetivo de grano grueso a través del suavizado local. Con una cantidad suficiente de suavizado, se vuelve convexo, y su óptimo global se utiliza como inicialización para un objetivo de grano más fino que no es convexo. Trabajos recientes analizan cuándo dichos métodos de suavizado tienen éxito para la optimización no convexa.

Evitar puntos de silla de montar: los puntos de silla de montar son puntos críticos, donde el gradiente se desvanece, pero no es un óptimo local, lo que significa que existen direcciones donde el valor objetivo mejora. Los puntos de silla reducen la velocidad del descenso del gradiente estocástico (SGD), especialmente a medida que crece el número de variables. Este es un problema muy desafiante, de hecho, se ha argumentado que los puntos de silla son mucho más problemáticos que los óptimos locales; mira aquí. Trabajos recientes han progresado en cómo escapar de los puntos de silla de manera eficiente en grandes dimensiones. De hecho, si el SGD es lo suficientemente ruidoso, este documento muestra que puede escapar de los puntos de silla no degenerados, que pueden determinarse por derivados de segundo orden. Un caso más desafiante involucra puntos de silla de montar que requieren derivados de orden superior para escapar, y los analizamos en un trabajo reciente aquí.

Optimización discreta: hasta ahora, he discutido la optimización continua. También hay un trabajo interesante en el análisis de la optimización discreta, especialmente en el contexto de la inferencia probabilística. Por ejemplo, Stefano Ermon ha estado analizando el efecto de las proyecciones aleatorias en las proyecciones de información; mira aquí. El muestreo de Gibbs es otra técnica popular para la inferencia probabilística, pero es difícil establecer un límite en el tiempo de mezcla. Un trabajo reciente del grupo de Christopher Re está tratando de proporcionar nuevas herramientas de análisis para el muestreo de Gibbs. Anteriormente, he trabajado en el aprendizaje de la estructura gráfica de Markov de modelos probabilísticos, y demuestro que los métodos simples y eficientes tienen éxito en el régimen de “alta temperatura”. Puedes leer más sobre esto aquí.

Otros recursos sobre optimización no convexa:

  1. Tuvimos un taller reciente sobre optimización no convexa en NIPS. Se pueden encontrar diapositivas de las charlas invitadas en el Taller NIPS 2015 sobre optimización no convexa para el aprendizaje automático: teoría y práctica. Puedes leer mi publicación de blog al respecto aquí.
  2. También tenemos un próximo taller: avances en análisis y optimización no convexos
  3. También puede ver mi reciente entrevista con David Beyer, donde hablo sobre la optimización convexa frente a la no convexa: aprendizaje en dimensiones superiores
  4. Sanjeev Arora, Moritz Hardt y Nisheeth Vishnoi mantienen un blog sobre optimización no convexa: fuera del camino convexo

More Interesting

¿Por qué los investigadores de PNL están obsesionados con las métricas de rendimiento (recientemente)?

¿En qué área de la investigación en nanotecnología es más prometedor obtener financiación?

Al realizar una investigación para una disertación en educación, ¿qué método de investigación es el más rápido de completar?

¿Qué es el intercambio de datos?

¿Cuáles son algunos de los últimos temas de investigación aeroespacial en los que se podría basar un proyecto de pregrado de último año?

¿Cuál es la mejor agencia de investigación y evaluación de usuarios (centrada digitalmente) en los Estados Unidos hoy en día?

¿Qué hacen los profesores de investigación? ¿Cuál es su carrera profesional? ¿Cómo eligen la universidad y cómo eligen qué investigar?

¿Qué demuestra la investigación con respecto al TEA y la hipersensibilidad visual?

¿Cuáles son algunos problemas matemáticos inesperados que surgen de la investigación y los descubrimientos físicos y químicos?

¿Qué empresas están haciendo bien la investigación cualitativa de usuarios?

Pregrado en ingenio final sobre investigación, estropeo algo todos los días, estoy perdiendo la moral. ¿Qué hacer? ¿A alguien más le pasa esto?

¿Se ha realizado alguna investigación sobre el chakra del tiempo de Raga y si existe alguna correlación entre el atractivo de un trapo y si se escucha en un momento particular del día?

¿Dónde puedo obtener el informe de investigación de mercado sobre el mercado de la robótica en la nube?

¿Cuáles son las principales diferencias entre la investigación posdoctoral y el doctorado? ¿investigación?

¿Cuáles son las mejores fuentes para la investigación de mercado de productos químicos?