OpenAI Universe:让 AI 像人一样用键盘鼠标玩电脑
// TL;DR
- Universe 把上千个游戏、浏览器任务包进统一环境,智能体只能看像素、操作键鼠。
- 接口和人类完全对等,不开任何后门 API。
- 理想丰满,但奖励稀疏和环境延迟的问题肉眼可见。
野心比 Gym 大得多
如果说四月的 Gym 是给强化学习修考场,这周发布的 Universe 就是想直接修一座城:上千个环境,包括 Flash 游戏、GTA V,甚至真实网页上的订机票任务。关键设计是接口的“人类对等性”——智能体得到的输入只有屏幕像素,输出只有键盘和鼠标事件,跟坐在电脑前的你我完全一样,不开任何作弊 API。
冷静一下
愿景很燃:能在任何软件界面上工作的通用智能体。但试玩了一下,工程现实有点骨感:环境跑在 VNC 远程桌面里,延迟和抖动对 RL 训练很不友好;更要命的是奖励稀疏——“订一张机票”要几十步正确操作才有一次正反馈,现在的 RL 算法在这种任务上基本是抓瞎。
我的判断:方向是对的,时机太早。今天的算法还消化不了这么开放的环境。不过“让 AI 操作人类的软件界面”这个命题本身,我愿意称之为通用智能的试金石之一——这个赌注什么时候能兑现,取决于智能体的“大脑”何时跟上。先把旗子插在这,等技术追上来。