OpenAI Gym 发布:强化学习终于有了统一考场
// TL;DR
- Gym 用 env.step(action) 一个接口统一了上百个 RL 环境。
- 解决的核心痛点是可复现性:之前每篇 RL 论文的环境设定都不可比。
- OpenAI 成立后的第一份作业,选择了做基础设施而非刷榜。
Gym 是什么
OpenAI 成立四个月后交出了第一份作业,不是什么惊天算法,而是一套工具:Gym——把 CartPole、MountainCar、Atari 游戏、MuJoCo 机器人仿真等上百个环境包成统一接口。所有环境都遵循同一个循环:
import gym
env = gym.make("CartPole-v0")
obs = env.reset()
for _ in range(1000):
action = agent.act(obs)
obs, reward, done, info = env.step(action)
if done:
obs = env.reset()
为什么基础设施值得叫好
RL 研究有个老毛病:每篇论文自带私有环境和私有评测,号称 SOTA 但谁也没法复现谁。Gym 把考场统一了——同一个环境、同一个版本号、同一套计分方式,算法好坏终于可以放在一张表里比。
做产品的人能从这看到一个朴素道理:一个领域的加速度,往往取决于它的基础设施质量。ImageNet 之于视觉、Gym 之于强化学习,都是先有统一的“考场”,才有后面的军备竞赛。顺便说,OpenAI 第一炮选择做公共物品而不是刷榜,挺符合它成立时的人设——这个开局我给好评。