session://14:29:33
~/ / posts / 2016-04-openai-gym.md

OpenAI Gym 发布:强化学习终于有了统一考场

2016-04-27· 1 min read · [产品实践]
// TL;DR
  • Gym 用 env.step(action) 一个接口统一了上百个 RL 环境。
  • 解决的核心痛点是可复现性:之前每篇 RL 论文的环境设定都不可比。
  • OpenAI 成立后的第一份作业,选择了做基础设施而非刷榜。

Gym 是什么

OpenAI 成立四个月后交出了第一份作业,不是什么惊天算法,而是一套工具:Gym——把 CartPole、MountainCar、Atari 游戏、MuJoCo 机器人仿真等上百个环境包成统一接口。所有环境都遵循同一个循环:

import gym
env = gym.make("CartPole-v0")
obs = env.reset()
for _ in range(1000):
    action = agent.act(obs)
    obs, reward, done, info = env.step(action)
    if done:
        obs = env.reset()

为什么基础设施值得叫好

RL 研究有个老毛病:每篇论文自带私有环境和私有评测,号称 SOTA 但谁也没法复现谁。Gym 把考场统一了——同一个环境、同一个版本号、同一套计分方式,算法好坏终于可以放在一张表里比。

做产品的人能从这看到一个朴素道理:一个领域的加速度,往往取决于它的基础设施质量。ImageNet 之于视觉、Gym 之于强化学习,都是先有统一的“考场”,才有后面的军备竞赛。顺便说,OpenAI 第一炮选择做公共物品而不是刷榜,挺符合它成立时的人设——这个开局我给好评。

强化学习开源项目工程实践
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。