session://14:29:33
~/ / posts / 2022-09-whisper.md

Whisper:OpenAI 顺手开源了一个几乎‘解决’了语音识别的模型

2022-09-21· 1 min read · [产品实践]
// TL;DR
  • Whisper 用 68 万小时弱监督多语言音频训练,泛化和抗噪能力极强。
  • 支持多语言识别 + 直接翻译成英文,开箱即用。
  • 完全开源,瞬间成为语音转文字的事实标准。

朴素配方,惊人效果

Whisper 没什么花哨架构,就是个标准的 Transformer 编码器-解码器。它的杀手锏在数据:68 万小时从网上收集的多语言、多场景音频(配字幕),用这种‘大规模弱监督’的方式硬训。结果是鲁棒性极强——口音、背景噪音、专业术语、多语种混杂,它都扛得住,接近甚至超过很多商业 API 和专门微调的系统。

几个让人舒服的细节

  • 多语言:一个模型识别近百种语言,还能直接把别的语言语音翻译成英文文本。
  • 开箱即用:不用针对你的场景微调,拿来就能用,这对工程落地太友好了。
  • 完全开源:权重和代码都放出来,免费商用。

我的判断

把 Whisper 和上个月的 Stable Diffusion 放一起看,2022 下半年有个清晰的主题:强模型 + 开源,正在把一个个曾经需要专门团队啃的难题‘平价化’。语音识别曾经是个有技术门槛、有商业壁垒的领域,Whisper 一出,这个门槛基本被抹平了——任何开发者都能给自己的产品加上世界级的语音转写,成本趋近于零。

这对做产品的人是双刃剑:你能力的下限被抬高了(免费就能用上顶级语音识别),但靠‘我有更好的语音识别’当壁垒的生意也没了。当一项能力变成开源的公共品,价值就从‘拥有这个能力’转移到‘用它做出什么独特的产品’。这个规律,在接下来的 AI 时代会一遍遍重演。

大模型开源项目工程实践NLP
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。