DQN 登上 Nature：一个网络学会了 49 个雅达利游戏

这篇论文讲了什么

DeepMind 这周在 Nature 上发表了 Human-level control through deep reinforcement learning。故事很简单：让一个智能体玩雅达利游戏，输入只有屏幕像素和当前分数，输出是手柄操作。没有人工特征，没有针对每个游戏的调参——同一个网络、同一组超参数，玩 49 个游戏，其中 29 个达到或超过人类职业测试员水平。

技术上的三个关键件

深度卷积网络做 Q 函数近似：直接从原始像素估计每个动作的长期回报。
经验回放（experience replay）：把交互历史存起来随机采样训练，打破样本相关性。
目标网络（target network）：用一个延迟更新的网络算 TD 目标，稳住训练。

单看每一件都不新，Q-learning 是 1989 年的东西，卷积网络更老。但把它们拼起来并真的训练稳定，是工程上的硬活。读完论文你会发现一半篇幅在讲“怎么让它不发散”——这很诚实，也很说明问题。

我的看法

过去几年深度学习的成功基本都在感知任务上：识别图片、识别语音。DQN 第一次把“感知”和“决策”焊在了一起，端到端地学。雅达利游戏当然是玩具环境，但“从像素到策略”这条路一旦走通，机器人、推荐系统、游戏 AI 都是它的下游。预感这个组合（深度网络 + RL）后面会出大事。

这篇论文讲了什么

技术上的三个关键件

我的看法

每周一封，<5 分钟读完