*Importante* rilascio open source di AI oggi. Può l'America vincere la corsa all'Open AI? La mia conversazione con @natolambert e @soldni di @allen_ai sul lancio di Olmo 3 00:00 – Introduzione 00:39 – Benvenuto e grande annuncio di oggi 01:18 – Introduzione alla famiglia di modelli Olmo 3 02:07 – Cosa sono realmente i "modelli base" (e perché sono importanti) 05:51 – Dolma 3: i dati dietro Olmo 3 08:06 – Performance vs Qwen, Gemma, DeepSeek 10:28 – Cosa significa vero open source (e perché è raro) 12:51 – Checkpoint intermedi, trasparenza e perché AI2 pubblica tutto 16:37 – Perché Qwen è ovunque (inclusi le startup statunitensi) 18:31 – Perché i laboratori cinesi vanno open source (e perché i laboratori statunitensi no) 20:28 – Dentro ATOM: la risposta degli Stati Uniti all'ondata di modelli cinesi 22:13 – L'ascesa dei "modelli pensanti" e la scalabilità in tempo di inferenza 35:58 – L'intero pipeline di Olmo, spiegato semplicemente 46:52 – Pre-addestramento: dati, scala e evitare picchi catastrofici 50:27 – Addestramento intermedio (patching finale) e evitare perdite nei test 52:06 – Perché l'addestramento a lungo contesto è importante 55:28 – SFT: costruire le basi per il ragionamento 1:04:53 – Ottimizzazione delle preferenze e perché DPO funziona ancora 1:10:51 – La parte difficile: RLVR, catene di ragionamento lunghe e problemi infrastrutturali 1:13:59 – Perché RL è così tecnicamente brutale 1:18:17 – Tassa di complessità vs hype AGI 1:21:58 – Come tutti possono contribuire al futuro dell'AI 1:27:26 – Pensieri finali
... corsa all'AI **open source**, d'oh 🤦‍♂️
33,55K