信贷:OpenAI
我们已经发现进化策略(ES)是一种已知数十年的优化技术,在现代强化学习基准测试(如雅达利/MuJoCo)上可以媲美标准强化学习(RL)技术,同时克服了许多RL带来的不便。
从OpenAI查看全文
没有发现记录