~/ / posts / 2016-04-openai-gym.md

OpenAI Gym 发布：强化学习终于有了统一考场

2016-04-27· 1 min read · [产品实践]

// TL;DR

Gym 用 env.step(action) 一个接口统一了上百个 RL 环境。
解决的核心痛点是可复现性：之前每篇 RL 论文的环境设定都不可比。
OpenAI 成立后的第一份作业，选择了做基础设施而非刷榜。

Gym 是什么

OpenAI 成立四个月后交出了第一份作业，不是什么惊天算法，而是一套工具：Gym——把 CartPole、MountainCar、Atari 游戏、MuJoCo 机器人仿真等上百个环境包成统一接口。所有环境都遵循同一个循环：

import gym
env = gym.make("CartPole-v0")
obs = env.reset()
for _ in range(1000):
    action = agent.act(obs)
    obs, reward, done, info = env.step(action)
    if done:
        obs = env.reset()

为什么基础设施值得叫好

RL 研究有个老毛病：每篇论文自带私有环境和私有评测，号称 SOTA 但谁也没法复现谁。Gym 把考场统一了——同一个环境、同一个版本号、同一套计分方式，算法好坏终于可以放在一张表里比。

做产品的人能从这看到一个朴素道理：一个领域的加速度，往往取决于它的基础设施质量。ImageNet 之于视觉、Gym 之于强化学习，都是先有统一的“考场”，才有后面的军备竞赛。顺便说，OpenAI 第一炮选择做公共物品而不是刷榜，挺符合它成立时的人设——这个开局我给好评。

强化学习开源项目工程实践

cat newsletter.txt

每周一封，<5 分钟读完

把这一周我读过、想过、动手做过的东西，压缩成一封信。订阅者目前 5210+ 人，0 干扰。

查看往期 →