grep -l #机器学习 posts/
#机器学习
ls posts/ | grep 机器学习
6 entries · 全部 →
2022.03.29
→Chinchilla:原来过去两年,我们的大模型都‘喂不饱’
DeepMind 的 Chinchilla 修正了缩放定律:给定算力,大家普遍把模型做得太大、数据喂得太少。一个 700 亿的 Chinchilla,靠喂更多数据,打败了 2800 亿的 Gopher。
[论文解读] 1m
2020.01.23
→缩放定律:OpenAI 把‘大力出奇迹’写成了公式
Kaplan 等人发现:语言模型的损失随参数量、数据量、算力呈幂律下降,跨越七个数量级依然平滑可预测。‘scale works’从信仰变成了可外推的工程公式。
[论文解读] 1m
2019.12.04
→双下降:更大的模型为什么没有像教科书说的那样过拟合?
OpenAI 的‘深度双下降’揭示一个反常识现象:测试误差随模型变大,先降后升(经典偏差-方差),然后……又降。我们对‘过拟合’的理解,可能从一开始就太简单了。
[深度思考] 1m
2019.06.05
→训练一个大模型的碳排放,约等于五辆车一生:该谈谈代价了
一篇论文估算大型 NLP 模型训练的碳足迹,数字触目惊心。当‘做大’成了主旋律,有人开始问:算力军备竞赛的环境账和公平账,谁来付?
[深度思考] 1m
2017.12.08
→“机器学习成了炼金术”:NIPS 颁奖台上的一盆冷水
Ali Rahimi 在 NIPS 领取时间检验奖时把当下的深度学习比作炼金术:有效,但缺乏可解释的原理。LeCun 隔空反驳。这场争论比大多数论文都有营养。
[深度思考] 1m
2016.06.21
→AI 安全的具体问题:终于有人把“天网焦虑”翻译成了工程任务
Google Brain、OpenAI 等联合发表 Concrete Problems in AI Safety:把 AI 安全拆成五个可研究的具体问题,从扫地机器人打翻花瓶讲起。
[论文解读] 1m