#MyStrategyEvolution Wir haben entdeckt, dass evolutionäre Strategien (ES), eine seit Jahrzehnten bekannte Optimierungstechnik, in den modernen RL-Benchmarks (z. B. Atari/MuJoCo) mit der Leistung der Standardtechniken des verstärkenden Lernens (RL) konkurrieren und viele der Nachteile von RL überwinden.

Insbesondere ist ES einfacher zu implementieren (es ist keine Rückpropagation erforderlich), es ist einfacher, in einer verteilten Umgebung zu skalieren, leidet nicht in Umgebungen mit spärlichen Belohnungen und hat weniger Hyperparameter. Dieses Ergebnis ist überraschend, da ES einer einfachen Hügelbesteigung in einem hochdimensionalen Raum ähnelt, die ausschließlich auf endlichen Differenzen basiert, entlang einiger zufälliger Richtungen in jedem Schritt.

Unser Befund setzt den modernen Trend fort, solide Ergebnisse mit jahrzehntealten Ideen zu erzielen. Zum Beispiel zeigte der Artikel "AlexNet" im Jahr 2012, wie man konvolutionale neuronale Netze (CNN) entwirft, skaliert und trainiert, um außergewöhnlich solide Ergebnisse bei Bildklassifizierungsaufgaben zu erzielen, zu einer Zeit, als die meisten Forscher dachten, dass CNNs kein vielversprechender Ansatz für die maschinelle Sicht wären. Ebenso zeigte der Artikel über tiefes Lernen Q ... im Jahr 2013, wie man Q-Learning mit CNN kombiniert, um erfolgreich Atari-Spiele zu lösen, und revitalisierte das maschinelle Lernen (RL) als Forschungsfeld mit aufregenden experimentellen Ergebnissen (anstatt theoretischen). Ebenso zeigt unsere Arbeit, dass ES hervorragende Leistungen in den RL-Benchmarks erzielt und den weit verbreiteten Glauben widerlegt, dass ES-Methoden auf hochdimensionale Probleme nicht anwendbar sind.