Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI.
Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.

Think-at-hard: Selektivní latentní iterace pro zlepšení modelů jazyka pro uvažování
Dynamická latentní iterace je obtížná: vyžaduje plný kontext, adaptivní cíle, opětovné použití parametrů, ale propojení s kvalitou politiky způsobuje nestabilitu tréninku.


Tato práce představuje TaH, dynamické latentní myšlení, které iteruje pouze přes hard tokeny prostřednictvím vývoje specializovaného modelového oblouku a stabilní trénovací metody, selektivně aplikující latentní iterace.
Doladěno z Qwen3-0,6/1,7B-Base, TaH dosahuje +4 % za 5 benchmarků uvažování.

P1: Zvládnutí fyzikálních olympiád pomocí posilovaného učení
Tato práce představuje P1, rodinu modelů fyzikálního uvažování OSS. Integrují škálování jak během vlaku, tak testovacího času, což zajišťuje lepší schopnost uvažování při adaptivním odvozování.

P1 modely jsou trénovány čistě prostřednictvím RL post-trénování na základních LM v vícestupňovém RL rámci. Pro testovací dobu kombinují modely P1 s agentním rámcem PhysicsMinions.
Jejich model P1-235B-A22B dosahuje zlaté medaile na modelu IPhO 2025.

MiroThinker: Posouvání hranic výkonu open-source výzkumných agentů prostřednictvím modelů, kontextu a interaktivního škálování
Článek představuje výzkumného agenta, který zvyšuje výkon ve třech rozměrech: velikost modelu, délka kontextu a hloubka interakce.

Pro podporu hlubokých uvažovacích procesů je model vybaven oknem kontextu 256K a až 600 voláním nástrojů na úkol.
MiroThinker v1.0, vybavený jednoduchým agentem ReAct, dosahuje výkonu SOTA mezi open-source výzkumnými agenty.


Co je potřeba k tomu, abyste byli dobrým výzkumným agentem v oblasti AI? Studium role rozmanitosti ideací
Tento článek navrhuje metody kvantifikace a kontroly rozmanitosti myšlenek agenta. Volba agentického lešení významně ovlivňuje rozmanitost myšlenek.


Prostřednictvím kontrolovaného experimentálního návrhu vytvářejí kauzální vztah, který ukazuje, že zvýšení rozmanitosti myšlenek vede ke zlepšení výkonu při MLE-bench úkolech. Také prokazují robustnost při hodnocení pomocí alternativních výkonnostních metrik.

DR Tulu: Posilované učení s vyvíjejícími se rubrikami pro hluboký výzkum
Tento článek školí hluboké výzkumné tulu (DR Tulu-8B) pro otevřené, dlouhé hluboké výzkumné úkoly.

Pro řešení ověřování v dlouhých úlohách je DR-Tulu doladěn na vysoce kvalitních uživatelských datech a poté trénován pomocí RL s vyvíjejícími se rubrikami (RLER), kde rubriky během tréninku koevolvují s modelem politiky. Dosahují lepších výsledků než nejsilnější otevřené modely 8-32.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a
@ritualnet se dozvědět více o tom, co Ritual buduje.
2,99K
Top
Hodnocení
Oblíbené

