~/ / posts / 2018-06-world-models.md

World Models：让智能体先在“梦里”把本事练好

2018-06-27· 1 min read · [论文解读]

// TL;DR

三件套：VAE 压缩观测 + RNN 预测未来 + 小型控制器决策。
策略可以完全在“世界模型”生成的想象轨迹里训练，再迁移回真实环境。
model-based RL 的优雅样本，呼应了“理解世界才能高效行动”的直觉。

在梦里学开车

这篇论文的设定很有诗意。智能体不直接对着真实环境硬学，而是分三步：先用 VAE 把高维画面压成一个小的隐向量（学会“看”）；再用 RNN 学习这些隐向量怎么随时间和动作演化（学会“预测未来”）；最后训练一个极小的控制器，根据当前状态和对未来的预测做决策。

最妙的部分：因为 RNN 能预测环境怎么变，智能体干脆可以不碰真实环境，直接在世界模型生成的“想象轨迹”里训练策略——相当于在梦里反复练习。练好了再放回真实环境，居然能用。

为什么我喜欢这篇

它呼应了一个很深的直觉：高效的行动来自对世界的理解。无模型 RL（像 DQN、PPO）是“试错试到会”，样本效率低得吓人；model-based 的思路是“先建立世界怎么运作的模型，再在模型里规划”，更接近人类的学习方式——我们开车前会在脑子里预演，不会真的去撞一百次墙。

当然，难点也在这：世界模型一旦不准，智能体就会在错误的梦里练出错误的本事（model bias）。但方向我非常认同。‘让 AI 拥有想象力’听着像营销词，但这篇论文给了它一个具体、可计算的定义。

强化学习论文解读生成式AI

cat newsletter.txt

每周一封，<5 分钟读完

把这一周我读过、想过、动手做过的东西，压缩成一封信。订阅者目前 5210+ 人，0 干扰。

查看往期 →