Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.
DeepSeekMath-V2: Směrem k ověřitelnému matematickému uvažování Tento článek představuje DSMath-V2, model trénovaný na deepseek-3.2-exp pro dokazování přirozeného jazyka v matematice. Generační a ověření je hlavní překážkou pro neformální ověřování.
Nejprve natrénují ověřovatele modelu pomocí odborných anotací, aby posoudili správnost odpovědí i analýzu. Tento ověřovatel se používá k trénování finálního modelu dokazovače, který jak píše důkazy, tak analyzuje jejich správnost. Získali zlato v IMO 2025.
Umělá včelí mysl: Otevřená homogenita jazykových modelů (a ještě více) Článek představuje INFINITY-CHAT, datovou sadu 26 tisíc reálných dotazů, které přijímají více odpovědí. Na základě toho studují kolaps režimů uvnitř a mezi modely u 70+ LM.
Odhalují efekt umělého úlu s intra-modelovým opakováním, kdy model opakovaně generuje podobné výstupy, a mezimodelovou homogenitu, kdy se různé modely sbližují k podobným myšlenkám s drobnými změnami ve formulacích. To vyvolává otázky ohledně rozmanitosti modelů.
Latentní spolupráce v multiagentních systémech Dílo představuje latentní MAS, komplexní kolaborativní rámec fungující v kontinuálním latentním prostoru. Návrh integruje jak latentní generování myšlenek, tak přenos latentní paměti mezi agenty.
LatentMAS je založen na expresivitě uvažování, věrnosti komunikace a složitosti spolupráce. Napříč sekvenčními i hierarchickými MAS nastaveními Qwen 3 (4B, 8B a 14B) LatentMAS překonává textové MAS základy, zlepšuje přesnost a snižuje využití výstupních tokenů.
ToolOrchestra: Zvyšování inteligence prostřednictvím efektivní modelové a nástrojové orchestrace Autoři navrhují paradigma orchestrace, kde inteligence vychází ze složeného systému. Model orchestrátoru vyvolává správné nástroje ve správném pořadí pro daný úkol.
Pomocí ToolOrchestra je model 8B trénován s RL, aby rozhodoval, kdy a jak volat další LM a nástroje. Odměny vyvažují správnost, efektivitu a sladění s uživatelskými preferencemi. Na HLE Orchestrator překonává předchozí metody s výrazně nižšími výpočetními náklady.
Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.
3,34K