Whisper:OpenAI 顺手开源了一个几乎‘解决’了语音识别的模型

朴素配方,惊人效果

Whisper 没什么花哨架构,就是个标准的 Transformer 编码器-解码器。它的杀手锏在数据:68 万小时从网上收集的多语言、多场景音频(配字幕),用这种‘大规模弱监督’的方式硬训。结果是鲁棒性极强——口音、背景噪音、专业术语、多语种混杂,它都扛得住,接近甚至超过很多商业 API 和专门微调的系统。

几个让人舒服的细节

多语言:一个模型识别近百种语言,还能直接把别的语言语音翻译成英文文本。
开箱即用:不用针对你的场景微调,拿来就能用,这对工程落地太友好了。
完全开源:权重和代码都放出来,免费商用。

我的判断

把 Whisper 和上个月的 Stable Diffusion 放一起看,2022 下半年有个清晰的主题:强模型 + 开源,正在把一个个曾经需要专门团队啃的难题‘平价化’。语音识别曾经是个有技术门槛、有商业壁垒的领域,Whisper 一出,这个门槛基本被抹平了——任何开发者都能给自己的产品加上世界级的语音转写,成本趋近于零。

这对做产品的人是双刃剑:你能力的下限被抬高了(免费就能用上顶级语音识别),但靠‘我有更好的语音识别’当壁垒的生意也没了。当一项能力变成开源的公共品,价值就从‘拥有这个能力’转移到‘用它做出什么独特的产品’。这个规律,在接下来的 AI 时代会一遍遍重演。

朴素配方,惊人效果

几个让人舒服的细节

我的判断

每周一封，<5 分钟读完