session://14:29:33
~/ / posts / 2016-12-openai-universe.md

OpenAI Universe:让 AI 像人一样用键盘鼠标玩电脑

2016-12-05· 1 min read · [短思考]
// TL;DR
  • Universe 把上千个游戏、浏览器任务包进统一环境,智能体只能看像素、操作键鼠。
  • 接口和人类完全对等,不开任何后门 API。
  • 理想丰满,但奖励稀疏和环境延迟的问题肉眼可见。

野心比 Gym 大得多

如果说四月的 Gym 是给强化学习修考场,这周发布的 Universe 就是想直接修一座城:上千个环境,包括 Flash 游戏、GTA V,甚至真实网页上的订机票任务。关键设计是接口的“人类对等性”——智能体得到的输入只有屏幕像素,输出只有键盘和鼠标事件,跟坐在电脑前的你我完全一样,不开任何作弊 API。

冷静一下

愿景很燃:能在任何软件界面上工作的通用智能体。但试玩了一下,工程现实有点骨感:环境跑在 VNC 远程桌面里,延迟和抖动对 RL 训练很不友好;更要命的是奖励稀疏——“订一张机票”要几十步正确操作才有一次正反馈,现在的 RL 算法在这种任务上基本是抓瞎。

我的判断:方向是对的,时机太早。今天的算法还消化不了这么开放的环境。不过“让 AI 操作人类的软件界面”这个命题本身,我愿意称之为通用智能的试金石之一——这个赌注什么时候能兑现,取决于智能体的“大脑”何时跟上。先把旗子插在这,等技术追上来。

强化学习智能体开源项目
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。