Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.
Critique-RL: Szkolenie modeli językowych do krytykowania za pomocą dwustopniowego uczenia przez wzmocnienie Celem tego artykułu jest opracowanie modeli językowych do krytykowania, które nie polegają na silniejszym nadzorze ani funkcji nagrody oracle podczas testowania.
Proponują Critique-RL, podejście RL w 2 etapach, online'owe podejście RL oparte na interakcji aktora i krytyka do opracowywania modeli krytycznych. Rozległe eksperymenty pokazują, że metoda przewyższa podstawowe modele, osiągając lepsze wyniki z Qwen 2.5 7B.
PACR: Progresywnie Wzrastająca Nagroda za Zaufanie dla Rozumowania LLM Ta praca pyta, czy nadzór krokowy może być uzyskany z modelu. Wprowadzają PACR, gęsty, wewnętrzny sygnał modelu przekształcający wzrost zaufania w nadzór krokowy dla RL.
Odkrywają, że między innymi, stały wzrost pewności silnie koreluje z poprawnością ostatecznej odpowiedzi. Na wielu benchmarkach rozumowania, wzbogacenie RLVR metodami PACR poprawia dynamikę treningu i ostateczną wydajność.
Koniec ręcznego dekodowania: W kierunku prawdziwie end-to-end modeli językowych Niniejszy artykuł proponuje AutoDeco, architekturę, która tworzy model językowy „end-to-end” zdolny do kontrolowania własnego procesu dekodowania. Uzupełniają transformator o głowy predykcyjne.
Głowy AutoDeco wykorzystują aktualny ukryty stan modelu do dynamicznego przewidywania optymalnych parametrów próbkowania dla następnego tokena. Wydają głowy AutoDeco dla Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 oraz GPT-OSS-120 i walidują z kilkoma innymi modelami.
Skalowanie ukrytego rozumowania za pomocą pętlowych modeli językowych Niniejszy artykuł ma na celu zbadanie zachowania skalowania LoopLM w różnych aspektach. Opracowują nowe cele, aby trenować efektywną obliczeniową rekurencję, jednocześnie utrzymując szczytową wydajność.
Trenują dwa modele, LoopLMs z 1,4B i 2,6B parametrami na 7,7T tokenach, które osiągają wydajność 4B i 8B standardowych transformerów w prawie wszystkich benchmarkach, osiągając poprawę efektywności parametrów o 2-3×. Zbadają również powody, dla których pętlowe transformatory są lepsze.
Tool Decathlon: Benchmarking Language Agents do Różnorodnego, Realistycznego i Długoterminowego Wykonywania Zadań Wprowadza benchmark do oceny agentów językowych. TOOLATHLON opiera się na realistycznych scenariuszach, które wymagają wielu aplikacji.
TOOLATHLON wymaga średnio 4–6 godzin pracy od studenta studiów magisterskich w dziedzinie informatyki. Sonnet 4.5, GPT-5 i Grok4 działają dobrze. Obserwują znaczące różnice między wskaźnikami sukcesu Pass@3 i Passˆ3, co wskazuje na pokrycie możliwości, ale problemy z konsekwencją.
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
3,91K