特斯拉 AI Day:纯视觉、Dojo 超算,和一个有点尴尬的机器人
// TL;DR
- 坚持‘纯视觉’:抛弃激光雷达,只靠摄像头 + 神经网络重建世界。
- 自研 Dojo 超算,垂直整合数据-标注-训练全链路。
- ‘擎天柱’人形机器人当时还只是一身紧身衣的舞者,但信号是认真的。
纯视觉:一条孤独但自洽的路
当几乎所有自动驾驶公司都在堆激光雷达时,特斯拉公开宣示坚持纯视觉——只用摄像头,靠神经网络从 2D 图像重建出 3D 世界和运动。逻辑是:人类靠两只眼睛就能开车,说明视觉信息足够;激光雷达又贵又是‘拐杖’。这条路更难(把 3D 感知的担子全压给了算法),但一旦走通,成本和可扩展性优势巨大。AI Day 上他们详细讲了感知网络、向量空间表示、以及怎么用车队回传的海量真实数据做自动标注。
Dojo:把垂直整合卷到芯片
他们还发布了自研训练超算 Dojo 和定制芯片 D1。逻辑和当年 Google 造 TPU 一脉相承:当你的 AI 训练负载足够大、足够特殊,自己造芯片比买通用 GPU 更划算。从数据采集(车队)、到标注(自动化)、到训练(Dojo)、到部署(车载芯片),特斯拉想把整条链路垂直吃下。这种全栈控制力,是它最被低估的壁垒。
那个机器人……
然后就是那个著名的尴尬时刻:预告人形机器人‘擎天柱’时,台上是个穿紧身衣的真人在跳舞——产品连原型都还没有。这部分纯属画饼。
我的判断
把营销噪音过滤掉,AI Day 真正值钱的信号是两个:第一,纯视觉 + 数据飞轮 + 自研算力的全栈打法,如果跑通,护城河极深;第二,特斯拉把自己重新定位成一家‘AI 和机器人公司’,汽车只是它第一个落地的机器人形态。这个野心当时听着浮夸,但‘用同一套视觉和决策技术,从汽车延伸到通用机器人’的逻辑是自洽的。人形机器人这条线,值得放进长期观察清单——几年后它会变得没那么像笑话。