¿Cuáles son los requisitos para realizar investigaciones en el aprendizaje por refuerzo?

En la Universidad Carnegie Mellon, hice el curso Deep RL and Control. Entonces, esa es la única experiencia limitada que tengo en este campo.

El texto estándar para el aprendizaje de refuerzo es el libro de Sutton y Barto que incluye todos los conceptos básicos necesarios para aprender los conceptos tales como

  • Procesos de decisión de Markov (MDP),
  • Política de iteración,
  • Evaluación de políticas,
  • Métodos de Monte Carlo,
  • Aprendizaje por diferencia temporal (TD), etc.

Los autores actualizan constantemente el libro para incluir investigaciones de última generación.

Ahora, Q-learning (que es un subconjunto de TD learning) es uno de los enfoques en RL donde el agente (hacedor) aprende jugando un juego basado en recompensas varias veces y maximizando la función de recompensa (valor Q).

Una de las razones por las cuales el aprendizaje por refuerzo se ha vuelto cada vez más popular hoy en día es posiblemente debido al artículo publicado en 2013 por la empresa británica DeepMind (que luego compró Google en 2014), Playing Atari with Deep Reinforcement Learning, donde los autores utilizaron los desarrollos recientes en el área de aprendizaje profundo al aproximar la función de recompensa (valor Q) utilizando redes neuronales profundas y, por lo tanto, la denominaron redes Q profundas (DQN) que formaron la base de la investigación moderna en el aprendizaje de refuerzo (profundo) y la inteligencia artificial.

Obviamente, su éxito llevó a una tendencia creciente en el uso de Deep RL para AI. Más tarde, al combinar los avances en Deep RL y la búsqueda basada en árboles, DeepMind produjo el AI alphaGo [1] que venció al campeón humano Lee Sedol por 4 juegos a 1 [2]. Anteriormente, se pensaba que el juego Go era uno de los juegos más desafiantes debido al aumento exponencial del espacio de búsqueda y al gran número de movimientos posibles, [matemáticas] 250 ^ {150} [/ matemáticas], que superan al ajedrez por un amplio margen . Por lo tanto, es seguro decir que la mayoría de los desarrollos modernos de IA real se originan de la combinación de aprendizaje profundo y la explotación de las técnicas conocidas de aprendizaje por refuerzo ya existentes (Q-learning en particular).

Entonces, para responder a su pregunta, según yo, los requisitos para hacer una investigación en el aprendizaje por refuerzo hoy son los siguientes:

  1. El conocimiento de los conceptos básicos del aprendizaje de refuerzos.
  2. Comprensión y experiencia en la implementación de técnicas de redes neuronales profundas. Si está apuntando a tareas basadas en imágenes (videojuegos o incluso autos sin conductor), entonces el conocimiento de CNN (Redes neuronales convolucionales) es algo que será útil.
  3. Experiencia en programación para implementar las técnicas. Recomiendo Python debido a su excelente fuente de bibliotecas y compatibilidad y soporte con otros paquetes como keras, tensorflow, etc.

Puede haber otros requisitos implícitos en los puntos anteriores que quizás necesite aprender. Además, supuse que hoy, la mayor parte de la investigación en el campo de RL está impulsada por el aprendizaje profundo.

Una vez que se equipe con las herramientas, le sugiero que intente implementar un DQN que le dará una muy buena intuición y comprensión de cómo ocurre realmente el aprendizaje. Hay muchos tutoriales para esto. Recomiendo usar Keras y Deep Q-Network para jugar FlappyBird, que es muy claro y fácil de usar.

A medida que desarrolle sus conocimientos, desarrollará sus propias técnicas para mejorar la literatura existente. Una de las principales ventajas de Deep RL es que el campo es relativamente nuevo y, por lo tanto, ayudará en desarrollos emocionantes en el futuro reciente.

Notas al pie

[1] http://www.nature.com/nature/jou…

[2] AlphaGo logra una victoria de 4-1 sobre Go grandmaster Lee Sedol