grep -l #机器学习 posts/

#机器学习

ls posts/ | grep 机器学习

6 entries · 全部 →

→Chinchilla:原来过去两年,我们的大模型都‘喂不饱’

DeepMind 的 Chinchilla 修正了缩放定律:给定算力,大家普遍把模型做得太大、数据喂得太少。一个 700 亿的 Chinchilla,靠喂更多数据,打败了 2800 亿的 Gopher。

[论文解读] 1m

→缩放定律:OpenAI 把‘大力出奇迹’写成了公式

Kaplan 等人发现:语言模型的损失随参数量、数据量、算力呈幂律下降,跨越七个数量级依然平滑可预测。‘scale works’从信仰变成了可外推的工程公式。

[论文解读] 1m

→双下降:更大的模型为什么没有像教科书说的那样过拟合？

OpenAI 的‘深度双下降’揭示一个反常识现象:测试误差随模型变大,先降后升(经典偏差-方差),然后……又降。我们对‘过拟合’的理解,可能从一开始就太简单了。

[深度思考] 1m

→训练一个大模型的碳排放，约等于五辆车一生：该谈谈代价了

一篇论文估算大型 NLP 模型训练的碳足迹，数字触目惊心。当‘做大’成了主旋律，有人开始问：算力军备竞赛的环境账和公平账，谁来付？

[深度思考] 1m

→“机器学习成了炼金术”：NIPS 颁奖台上的一盆冷水

Ali Rahimi 在 NIPS 领取时间检验奖时把当下的深度学习比作炼金术：有效，但缺乏可解释的原理。LeCun 隔空反驳。这场争论比大多数论文都有营养。

[深度思考] 1m

→AI 安全的具体问题：终于有人把“天网焦虑”翻译成了工程任务

Google Brain、OpenAI 等联合发表 Concrete Problems in AI Safety：把 AI 安全拆成五个可研究的具体问题，从扫地机器人打翻花瓶讲起。

[论文解读] 1m