#MyStrategyEvolution Hemos descubierto que las estrategias de evolución (ES), una técnica de optimización que se conoce desde hace décadas, rivalizan con el desempeño de las técnicas de aprendizaje por refuerzo (RL) estándar en los puntos de referencia de RL modernos (por ejemplo, Atari/MuJoCo), al tiempo que superan muchos de los inconvenientes de RL.
En particular, ES es más sencillo de implementar (no hay necesidad de retropropagación).(se abre en una nueva ventana)), es más fácil de escalar en un entorno distribuido, no sufre en entornos con recompensas escasas y tiene menos hiperparámetros.(se abre en una nueva ventana)Este resultado es sorprendente porque ES se asemeja a una simple escalada de colinas en un espacio de alta dimensión basado únicamente en diferencias finitas.(se abre en una nueva ventana) a lo largo de unas cuantas direcciones aleatorias en cada paso.
Nuestro hallazgo continúa la tendencia moderna de lograr resultados sólidos con ideas de décadas de antigüedad. Por ejemplo, en 2012, el artículo "AlexNet" (se abre en una nueva ventana) demostró cómo diseñar, escalar y entrenar redes neuronales convolucionales (CNN) para lograr resultados excepcionalmente sólidos en tareas de reconocimiento de imágenes, en un momento en que la mayoría de los investigadores pensaba que las CNN no eran un enfoque prometedor para la visión artificial. De igual manera, en 2013, el artículo sobre aprendizaje profundo Q...(se abre en una nueva ventana) mostramos cómo combinar Q-Learning con CNN para resolver con éxito juegos de Atari, revitalizando el aprendizaje automático (RL) como campo de investigación con emocionantes resultados experimentales (en lugar de teóricos). Asimismo, nuestro trabajo demuestra que ES logra un excelente rendimiento en las pruebas de referencia de RL, disipando la creencia común de que los métodos de ES son imposibles de aplicar a problemas de alta dimensión.