session://14:29:33
~/ / posts / 2025-03-agents-that-work.md

Agent 的第二次出场:这次它真的能点你的浏览器了

2025-03-10· 3 min read · [深度思考]
// TL;DR
  • 新一代 Agent 直接操作图形界面:截屏看画面、推理下一步、模拟点击和键入。
  • 成功的关键变量不是 Agent 框架,而是底层换成了 o1/R1/Claude 这类会推理的模型。
  • 范式从‘全自主放养’收敛为‘会推理的大脑 + 工具 + 关键处人类把关’——AutoGPT 喊对了需求,只是早生了两年。

得先把 2023 年那笔账翻出来对照。当时 AutoGPT、BabyAGI 火得一塌糊涂,理念是‘给个目标,让 GPT-4 自己拆任务、调工具、循环干完’。结果一个月就退烧,因为撞上了一堵结构性的墙:长任务里误差会复利累积,模型容易陷入死循环,所谓的‘反思’也只是生成一段反思文本、并不能真的从失败里学到东西。我当时的结论是:模型的单步很强,长程自主很弱,这版自主 Agent 是个早产儿——它喊出的需求是对的,但身体还没长好。

2025 年开年,身体长好了。OpenAI 发了 Operator(能在云端浏览器里替你完成网页任务),Anthropic 给 Claude 加了 computer use(直接控制电脑的鼠标键盘),中国团队的 Manus 更是凭‘全自动跑完一个复杂任务’的演示在三月刷了屏。这次它们是真的能用:看着屏幕截图理解界面、推理出下一步该点哪、然后模拟出点击和输入,一步步把‘订一张符合预算的机票并填好乘客信息’这种几十步的活儿干完。

两年之差,到底差在哪颗脑子

关键的认知是:Agent 的外壳(感知-规划-行动-反思的循环)这两年其实没什么本质变化,2023 年就有了。真正变了的,是循环正中央那颗当‘大脑’的模型。

┌─────────── 观察(截屏 / 读取页面状态)

   [ 大脑:LLM ] ── 规划下一步

        行动(点击 / 输入 / 调用工具)

          └─────────── 把结果喂回,继续循环

2023:  大脑 = GPT-4(单步强,长程推理弱)→ 误差复利 → 几步就崩
2025:  大脑 = o1 / R1 / Claude(会私下长推理、自我纠错)→ 几十步仍稳

2024 年 o1 打开‘推理时扩展’那条路时,我写过一句话:这种能稳定做几十步推理、自我纠错的模型,正是构建可靠 Agent 缺的那块拼图,智能体的春天需要的就是这样一个大脑。2025 年初,这块拼图到位了。会‘想清楚再动手’的推理模型,把 2023 年那堵‘误差复利’的墙,从底层拆掉了一大半——因为它在每一步内部就会自我检查和回退,错误不再无脑地累积下去。

但请别又一次上头

2023 年的教训我不想再犯一遍,所以得把冷静的话也说清楚。这一代 Agent 真能用了,但远不是‘数字员工’:它仍然慢(每步都要推理,几十步下来要等很久)、仍然贵(推理算力实打实地烧)、在开放任务上仍会犯蠢、而且一旦放它自主操作你的电脑和账号,安全边界是个大问题(它可能误删文件、误点付款、被网页里的恶意指令劫持)。所以业界很快收敛到一个务实形态:不是‘全自主放养’,而是‘会推理的大脑 + 明确的工具边界 + 关键节点交回人类确认’。

把这条线拉长看很有意思:2016 年 OpenAI Universe 第一次提出‘让 AI 像人一样操作软件界面’,当时我说‘方向对,时机太早,算法消化不了这么开放的环境’;2023 年 AutoGPT 又试一次,还是早了;2025 年,等推理模型这个大脑终于跟上,这个九年前埋下的命题才真正开始兑现。技术的‘对的想法’常常要等好几年,直到某个缺失的零件到位。Agent 这件事,2025 年是它从 PPT 走进生产力的真正起点——而它的天花板,直接被绑定在了推理模型的进步速度上。

智能体大模型产品思考工程实践
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。