Los algoritmos Deep RL aprovechan el poder de representación del aprendizaje profundo para abordar el problema del aprendizaje por refuerzo a través de una selección inteligente de recompensas.
FUENTE: www.analyticsindiamag.com
AUTOR: RAM SAGAR
“Más allá del costo de un robot, existen muchas opciones de diseño para elegir cómo configurar el algoritmo y el robot”. Levine y col.,
Desde Atari hasta el ajedrez, pasando por jugar al póquer y un solo brazo robótico para resolver el cubo de Rubik, el aprendizaje por refuerzo profundo ha demostrado un progreso notable en una amplia variedad de tareas desafiantes.
Como en los humanos, el DeepRL adoptan estrategias para generar recompensas a largo plazo. El paradigma de aprendizaje basado en recompensas por ensayo y error se conoce como aprendizaje por refuerzo (RL). DeepRL ha surgido en la confluencia del aprendizaje profundo y RL, orientado a lograr un rendimiento a nivel humano en dominios desafiantes.
La aplicación del aprendizaje por refuerzo requiere la creación de un entorno, el modelado de funciones de recompensa, etc. Es posible que incluso tenga que comenzar cada tarea desde cero. Los métodos de RL pueden consumir muchos datos y comenzar desde cero para cada nuevo problema los hace poco prácticos en situaciones del mundo real. Por ejemplo, los algoritmos RL requieren millones de pasos de descenso de gradiente estocástico (SGD) para entrenar la realización de tareas complejas. El número de pasos de entrenamiento aumentará con el tamaño del modelo. Es bien sabido que la utilidad del conocimiento capturado depende de la calidad de los datos proporcionados.
Descripción general de DeepRL
Los algoritmos Deep RL aprovechan el poder de representación del aprendizaje profundo para abordar el desafío del aprendizaje por refuerzo a través de una selección inteligente de recompensas. Las funciones matemáticas de las recompensas están cuidadosamente diseñadas para guiar al agente en la dirección deseada. Por ejemplo, considere enseñarle a un brazo robótico o una IA que juega un juego estratégico como Go o ajedrez para alcanzar un objetivo por sí solo.
Conceptos clave en DeepRL
- Política activa frente a política desactivada
- Estrategias de exploración
- Generalización
- Dar forma a la recompensa
Los algoritmos de exploración en Deep RL podrían basarse en funciones de valor aleatorias, aprendizaje de políticas no supervisado o motivación intrínseca. Considerando que, las estrategias de exploración basadas en la memoria compensan las desventajas del aprendizaje por refuerzo basado en recompensas. Las recompensas en diferentes entornos pueden ser inadecuadas en escenarios de tiempo real.
Cuando se trata de la implementación de DeepRL en robótica del mundo real, la recopilación de datos de alta calidad se vuelve un desafío. Esto, a su vez, dificulta la generalización. La generalización de RL normalmente se refiere a la transferencia de aprendizaje entre tareas. Lograr la generalización en robótica requiere algoritmos de aprendizaje por refuerzo que aprovechen grandes cantidades de datos anteriores en lugar de la visión por computadora, donde los humanos pueden etiquetar los datos. Los agentes de DeepRL luchan por transferir su experiencia a nuevos entornos. Según los investigadores de OpenAI , la generalización entre tareas sigue siendo difícil para los algoritmos DeepRL de última generación.
En una encuesta reciente publicada por el renombrado investigador Sergey Levine y sus colegas, los autores proporcionan un tratado sobre la profundidad de RL en un contexto de robótica. Abordaron muchos desafíos clave en RL y ofrecieron una nueva perspectiva sobre los principales desafíos que quedan por resolver.
Abordar los desafíos
Los investigadores tomaron en cuenta varias actividades robóticas como la locomoción, agarre y otras, y exploraron las soluciones actuales y los desafíos pendientes que frenan estas aplicaciones.
Por ejemplo, los investigadores observaron que el agarre sigue siendo uno de los problemas no resueltos más importantes en robótica. Enseñar a un robot a agarrar requiere una interacción compleja con objetos nunca antes vistos, un control basado en la visión de circuito cerrado para reaccionar a situaciones o dinámicas imprevistas y, en algunos casos, una manipulación previa para aislar el objeto que se debe agarrar.
Los investigadores concluyeron:
- Para aprender la comprensión generalizable, necesitamos una recopilación de datos desatendida y una canalización de RL escalable.
- Para obtener datos grandes y variados, necesitamos aprovechar todos los datos recopilados previamente hasta ahora que están fuera de línea y necesitamos un marco que lo facilite.
- Para lograr el máximo rendimiento, combine datos fuera de línea con una pequeña cantidad de datos en línea; esto conduce a un éxito de comprensión del 86% al 96%.
Otro cuello de botella en el aprendizaje robótico es la recopilación autónoma y segura de una gran cantidad de datos. Los algoritmos de aprendizaje que funcionan bien en los entornos populares de “Gimnasio ” pueden no funcionar bien en robots reales. Aquí es donde entra en escena la simulación. Los investigadores sugieren que la simulación puede ejecutar órdenes de magnitud más rápido que en tiempo real y puede iniciar muchas instancias simultáneamente. “Combinados con técnicas de transferencia de simulación a real, los simuladores nos permiten aprender acciones que se pueden implementar en el mundo real con una cantidad mínima de interacción en el mundo real”, explicaron los autores.
Los algoritmos Deep RL son muy difíciles de usar en la práctica. El rendimiento depende de una configuración cuidadosa de los hiperparámetros y, a menudo, varía sustancialmente entre ejecuciones. Según los investigadores de Berkeley , cualquier método eficaz basado en datos para DeepRL debería poder utilizar los datos para pre-entrenar fuera de línea mientras mejora con el ajuste fino en línea. Esto ayuda a conocer la dinámica del mundo y la tarea que se está resolviendo.
Conclusiones clave
Los investigadores cubrieron todas las bases de deepRL desde una perspectiva robótica. Aquí hay algunas conclusiones:
- Los métodos actuales de RL profundo no son tan ineficientes como se cree.
- De los muchos desafíos, la capacitación sin supervisión humana persistente es en sí misma un desafío de ingeniería significativo.
- Un objetivo adecuado para la investigación del aprendizaje robótico por refuerzo profundo sería hacer que la RL robótica sea tan natural y escalable como el aprendizaje realizado por humanos y animales.