🚨 Tým Qwen z Alibaby představil rámec, který činí trénink AI 8krát efektivnějším. Jmenuje se OPUS Řeší problém, ze kterého každá AI laboratoř tiše panikaří: Data Wall. Kvalitní veřejný text dochází. Projekce říkají, že do let 2026–2028 zmizí. OPUS nenachází další data. Vybere správná data v každém tréninkovém kroku. Takto to funguje: → V každém kroku optimalizátoru OPUS ohodnotí kandidátní buffer trénovacích vzorků → Promítá efektivní aktualizaci každého vzorku do skutečné geometrie optimalizátoru (AdamW, Muon) → Měří, o kolik by každý vzorek zlepšil výkon na cílovém benchmarku → Používá Boltzmannovo vzorkování k zachování rozmanitosti a zabránění redundanci → Vybírá pouze tokeny s nejvyšší užitečností pro aktualizaci Tady je ta nejdivočejší část: Trénoval GPT-2 XL na tokenech 30B a překonal modely trénované na tokenech 200B. To není překlep. 30B porazilo 200B. V Qwen3-8B OPUS spároval plný trénink s 3B tokeny pouze s 0,5B tokeny. Šestnásobný nárůst efektivity dat. Pokračuje v předškolení ve vědeckých oblastech. Ještě šílenější: záměrně poskytli OPUS data nižší kvality (skóre FineWeb-Edu 3), zatímco základní hodnoty byly trénovány na vysoce kvalitním oddílu (skóre 4–5). OPUS přesto vyhrál. Data nižší kvality, dynamicky vybíráná, překonávají staticky kvalitní data. To vše s pouhými 4,7% dodatečnými výpočetními režiemi. ...