Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI.
Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.

Critique-RL: Trénink jazykových modelů pro kritiku prostřednictvím dvoustupňového zpětnovazebního učení
Tento článek si klade za cíl vyvinout kritické jazykové modely, které se nespoléhají na silnější dohled nebo funkci odměny orákula během testování.

Navrhují Critique-RL, dvoustupňový přístup RL, online přístup RL založený na interakci mezi aktérem a kritikem pro vývoj modelů kritiky.
Rozsáhlé experimenty ukazují, že metoda překonává základní hodnoty a přináší lepší výkon s Qwen 2.5 7B.

PACR: Postupně stoupající sebedůvěra za LLM uvažování
Tato práce si klade otázku, zda lze z modelu získat postupnou supervizi. Zavádějí PACR, hustý, modelově vnitřní signál, který převádí růst důvěry na postupný dohled nad RL.



Zjistili mimo jiné, že konzistentní vzestup důvěry silně koreluje se správností konečné odpovědi.
Rozšíření RLVR o metody PACR zlepšuje dynamiku tréninku a konečný výkon.

Konec ručního dekódování: Směrem ke skutečně komplexním jazykovým modelům
Tento článek navrhuje AutoDeco, architekturu, která vytváří "end-to-end" LM schopný řídit svůj vlastní dekódovací proces. Rozšiřují transformátor o predikční hlavy.

Hlavy AutoDeco využívají aktuální skrytý stav modelu k dynamickému předpovídání optimálních parametrů vzorkování pro další token.
Vydávají hlavy AutoDeco pro Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 a GPT-OSS-120 a ověřují se s několika dalšími modely.


Škálování latentního uvažování pomocí smyčkových jazykových modelů
Tento článek si klade za cíl prozkoumat chování škálování LoopLM v různých aspektech. Vyvíjejí nové cíle pro trénování efektivních opakujících se výpočtů při zachování špičkového výkonu.

Trénují dva modely, LoopLM s parametry 1,4B a 2,6B na 7,7T tokenech, které odpovídají výkonu 4B a 8B standardních transformátorů téměř ve všech benchmarcích a dosahují 2-3× zlepšení účinnosti parametrů.
Zkoumají také důvody, proč jsou smyčkové transformátory lepší.

Nástroj Decathlon: Benchmarking jazykových agentů pro různorodé, realistické a dlouhodobé provádění úkolů
Zavádí srovnávací test pro vyhodnocování agentů jazyka. TOOLATHLON je založen na realistických scénářích, které vyžadují více aplikací.

TOOLATHLON vyžaduje v průměru 4–6 hodin práce postgraduálního studenta výzkumu se zaměřením na CS.
Sonet 4.5, GPT-5 a Grok4 si vedou dobře. Pozorují významné rozdíly mezi úspěšností Pass@3 a Passˆ3, což naznačuje pokrytí schopností, ale problémy s konzistencí.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a
@ritualnet se dozvědět více o tom, co Ritual buduje.
3,91K
Top
Hodnocení
Oblíbené

