session://14:29:33
~/ / posts / 2023-12-gemini-mixtral.md

年末双响:Gemini 的‘原生多模态’豪赌,与 Mixtral 的开源偷袭

2023-12-11· 3 min read · [论文解读]
// TL;DR
  • Gemini 主打‘原生多模态’:文本、图像、音频、视频从预训练起就一起学,而非后期拼接。
  • 发布演示被曝有剪辑美化,反噬了部分可信度。
  • Mistral 用一条磁力链接开源 Mixtral 8x7B(稀疏 MoE),以远小的激活参数比肩 GPT-3.5。

2023 年的最后一个月,两件事一前一后,正好把这一年的两条主线都收了个尾。

Gemini:Google 的正面回应,和一次自伤的演示

Google 终于拿出了对标 GPT-4 的旗舰——Gemini,分 Ultra/Pro/Nano 三档,从数据中心覆盖到手机端。它最核心的技术主张是‘原生多模态’:GPT-4 的多模态多少是把视觉能力‘接’到语言模型上的,而 Gemini 宣称从预训练的第一天起,文本、图像、音频、视频就是混在一起学的——理论上,这种‘一出生就通感’的模型,在跨模态理解上会有结构性优势。这个方向我是认同的,多模态的终局必然是原生融合,而不是后期缝合。

但 Google 自己把一手好牌打出了瑕疵。那支惊艳全网的演示视频——Gemini 实时观察手绘、流畅对答——很快被扒出是经过剪辑和提示美化的,并非真正的实时交互。能力是真的,但呈现方式注水了。在一个信任本就稀缺的领域,这种‘演示造假’的反噬很伤:它让人开始怀疑,Google 是不是因为太急于追上 OpenAI,而在‘讲故事’上动了手脚。这件事和年初必应 Sydney、和 GPT-4 的不透明放在一起,共同构成了 2023 年的一个底色——大厂的 AI 叙事,越来越需要打个折来听。

Mixtral:一条磁力链接的姿态

和 Google 的大排面形成刺眼对比的,是几天后法国公司 Mistral 的操作:没有发布会,没有博客,没有演示视频,就在推特上甩了一条磁力链接(BT 种子)。下下来,是 Mixtral 8x7B——一个开源的稀疏 MoE 模型。

技术上它很漂亮:8 个‘专家’子网络,每个 token 只激活其中 2 个,所以总参数虽接近 47B,单次推理的实际激活只有约 13B 的量级——又快又省,性能却在多数基准上比肩甚至超过 GPT-3.5 和 LLaMA 2 70B。这等于把 2021 年悟道展示过的 MoE 思路,用一个又小又开放又能打的模型,做成了人人可用的现实。Mistral 这家成立才半年的欧洲公司,用一条磁力链接完成了一次极漂亮的品牌宣言:我们站开源,我们用实力说话,不玩 Google 那套。

两件事,一张全景

把 Gemini 和 Mixtral 并排看,2023 年的格局跃然纸上:一端是资源与排面的巨头肉搏(OpenAI、Google、Anthropic 用天量算力守住能力上限,顺便守住越来越厚的保密),另一端是开源生态的灵活偷袭(Meta、Mistral 和无数社区项目,用‘够好 + 开放 + 高效’不断把能力的地板往上抬、把成本往下打)。

一年前的这个月,ChatGPT 刚把 AI 砸进大众视野;一年后的这个月,战场已经分化出清晰的两极,玩家、路线、张力全部就位。2023 是被 ChatGPT 的余波推着狂奔的一年——能力暴涨、资本疯涌、安全争论白热化、开源与闭源正式分野。所有这些线索,都会在 2024 拧成新的故事:多模态走向视频(Sora 在路上)、推理能力被当成下一座高地(o1 在酝酿)、而 AlphaFold 那条沉默的科学线,正等着一个迟到的诺贝尔奖加冕。热闹,才刚开始。

大模型行业动态开源项目论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。