Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.
Ne všechny bity jsou stejné: Strategie optimalizace paměti závislé na měřítku pro modely uvažování Autoři zkoumají principy komprese paměti pro modely uvažování. Berou v úvahu velikost modelu, přesnost, délku genu a kompresi KV cache.
Ptají se: Jaká je rovnováha faktorů pro maximalizaci přesnosti úloh uvažování? Více než 1700 experimentů na rodině Qwen3 na AIME a GPQA-Diamond. Zjistí, že neexistuje žádná univerzální strategie, ale mají doporučení pro konkrétní velikost.
Umění škálování zpětnovazebního učení Compute pro LLM Tato práce zkoumá vědu o škálování RL a vyvíjí ScaleRL, recept, který se předvídatelně škáluje s výpočtem. Návrh je založen na empirické studii škálování RL přes 400 000 GPU-hodin.
Nacházejí tři klíčové principy: • Stropy RL Performance nejsou univerzální • Hořká lekce platí i pro RL • Běžné zásahy, o kterých se předpokládá, že zlepšují špičkový výkon, upravují především efektivitu výpočtů, aniž by výrazně měnily strop výkonu.
LLM mohou dostat "mozkovou hnilobu"! Tento článek studuje, zda LLM mohou dostat mozkovou hnilobu, tj. pokud jsou trénovány na nevyžádaném webovém textu, má trvalý kognitivní pokles u LLM? Experimentují tak, že vytvářejí datové sady ze sociálních médií (Twitter/X) prostřednictvím dvou metrik nevyžádané pošty.
Srovnávací srovnání mezi čistými a nevyžádanými datovými sadami ukazuje, že nevyžádaná intervence je spojena s kognitivním poklesem v uvažování, dlouhodobém kontextu a etických normách. Temné osobnosti LLM se objevují s nevyžádanou intervencí M1, což vyvolává značné obavy o bezpečnost.
Nevyhazujte svůj předem natrénovaný model Zarovnání/RL se stalo nedílnou součástí školení LLM, ale má několik nevýhod, ve kterých předtrénované základní modely vynikají. Tento dokument zkoumá, jak využít výhody obou světů a vyvinout adaptabilní systémy umělé inteligence.
Navrhují generování přepínačů, kde je pro generování dynamicky vybráno více kontrolních bodů modelu. Experimenty s 8 základními liniemi spolupráce a 18 datovými sadami ukazují, že přístupy ke spolupráci na modelech překonávají všechny jednotlivé modely v 16 z 18 datových sad.
Jak zpětnovazební učení po predikci Next-Token usnadňuje učení Článek studuje, jak autoregresní modely uspějí v náročných predikčních úlohách podle tohoto trénovacího receptu (predikce dalšího tokenu následovaná zpětnovazebním učením).
U experimentů předpokládají, že předtrénovací data obsahují vzácné ukázky pro úkol, který je předmětem zájmu. Na základě toho vysvětlují: - Obtížnost zobecnění během předtréninku - Jak RL vede k rychlému zlepšení - Co vede k delším reakcím?
Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.
572