#MyStrategyEvolution Descobrimos que as estratégias de evolução (ES), uma técnica de otimização conhecida há décadas, rivalizam com o desempenho das técnicas de aprendizado por reforço (RL) padrão nos pontos de referência de RL modernos (por exemplo, Atari/MuJoCo), enquanto superam muitos dos inconvenientes de RL.

Em particular, ES é mais simples de implementar (não há necessidade de retropropagação).(abre em uma nova janela)), é mais fácil de escalar em um ambiente distribuído, não sofre em ambientes com recompensas escassas e tem menos hiperparâmetros.(abre em uma nova janela)Esse resultado é surpreendente porque ES se assemelha a uma simples escalada de colinas em um espaço de alta dimensão baseado unicamente em diferenças finitas.(abre em uma nova janela) ao longo de algumas direções aleatórias em cada passo.

Nossa descoberta continua a tendência moderna de alcançar resultados sólidos com ideias de décadas de idade. Por exemplo, em 2012, o artigo "AlexNet" (abre em uma nova janela) demonstrou como projetar, escalar e treinar redes neurais convolucionais (CNN) para alcançar resultados excepcionalmente sólidos em tarefas de reconhecimento de imagens, em um momento em que a maioria dos pesquisadores pensava que as CNN não eram uma abordagem promissora para a visão artificial. Da mesma forma, em 2013, o artigo sobre aprendizado profundo Q...(abre em uma nova janela) mostramos como combinar Q-Learning com CNN para resolver com sucesso jogos de Atari, revitalizando o aprendizado automático (RL) como um campo de pesquisa com resultados experimentais empolgantes (em vez de teóricos). Da mesma forma, nosso trabalho demonstra que ES alcança um excelente desempenho nos testes de referência de RL, dissipando a crença comum de que os métodos de ES são impossíveis de aplicar a problemas de alta dimensão.