*重大* 開源 AI 今日發布。美國能贏得開放 AI 競賽嗎?我與 @natolambert 和 @soldni 以及 @allen_ai 的對話,討論 Olmo 3 的推出 00:00 – 冷開場 00:39 – 歡迎與今天的重要公告 01:18 – 介紹 Olmo 3 模型系列 02:07 – 什麼是「基礎模型」(以及它們為什麼重要) 05:51 – Dolma 3:Olmo 3 背後的數據 08:06 – 性能 vs Qwen、Gemma、DeepSeek 10:28 – 真正的開源意味著什麼(以及為什麼它很少見) 12:51 – 中間檢查點、透明度,以及為什麼 AI2 發布所有內容 16:37 – 為什麼 Qwen 無處不在(包括美國初創公司) 18:31 – 為什麼中國實驗室選擇開源(以及美國實驗室不這樣做的原因) 20:28 – 內部 ATOM:美國對中國模型激增的回應 22:13 – 「思考模型」的興起和推理時間的擴展 35:58 – 完整的 Olmo 流程,簡單解釋 46:52 – 預訓練:數據、規模,及避免災難性峰值 50:27 – 中期訓練(尾部修補)和避免測試洩漏 52:06 – 為什麼長上下文訓練很重要 55:28 – SFT:建立推理的基礎 1:04:53 – 偏好調整及為什麼 DPO 仍然有效 1:10:51 – 困難的部分:RLVR、長推理鏈和基礎設施的痛苦 1:13:59 – 為什麼 RL 在技術上如此殘酷 1:18:17 – 複雜性稅與 AGI 熱潮 1:21:58 – 每個人如何能為 AI 的未來做出貢獻 1:27:26 – 結語
... 開放 **源碼** AI 競賽,哎呀 🤦‍♂️
33.55K