Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hier is de Ritual Research Digest van deze week, een nieuwsbrief die de laatste ontwikkelingen in de wereld van LLM's en de kruising van Crypto x AI behandelt.
Met honderden gepubliceerde artikelen per week is het onmogelijk om bij te blijven met het laatste nieuws. Wij doen het lezen zodat jij dat niet hoeft te doen.

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
Dit paper heeft als doel het ontwikkelen van critiquing taalmodellen die niet afhankelijk zijn van sterkere supervisie of een oracle beloningsfunctie tijdens het testen.

Ze stellen Critique-RL voor, een 2-fasen RL-aanpak, een online RL-aanpak gebaseerd op actor-critic interactie voor het ontwikkelen van kritiekmodellen.
Uitgebreide experimenten tonen aan dat de methode beter presteert dan de baselines, met een betere prestatie met Qwen 2.5 7B.

PACR: Progressief Toenemende Vertrouwen Beloning voor LLM Redenering
Dit werk vraagt of stapsgewijze supervisie kan worden verkregen van het model. Ze introduceren PACR, een dichte, model-intrinsieke signaal dat de groei van vertrouwen omzet in stapsgewijze supervisie voor RL.



Ze ontdekken onder andere dat een consistente stijging van het vertrouwen sterk correleert met de juistheid van het uiteindelijke antwoord.
Bij meerdere redeneerbenchmarks verbetert het aanvullen van RLVR met PACR-methoden de trainingsdynamiek en de uiteindelijke prestaties.

Het Einde van Handmatige Decodering: Naar Echt End-to-End Taalmodellen
Dit paper stelt AutoDeco voor, een architectuur die een "end-to-end" LM creëert die in staat is om zijn eigen decoderingproces te controleren. Ze augmenteren de transformer met voorspellingskoppen.

AutoDeco-koppen gebruiken de huidige verborgen toestand van het model om dynamisch de optimale samplingparameters voor de volgende token te voorspellen.
Ze brengen AutoDeco-koppen uit voor Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 en GPT-OSS-120 en valideren met verschillende andere modellen.


Schaalvergroting van Latente Redenering via Lussen Taalmodellen
Dit artikel heeft als doel het schaalgedrag van LoopLM in verschillende aspecten te verkennen. Ze ontwikkelen nieuwe doelstellingen om efficiënte terugkerende berekeningen te trainen terwijl ze de piekprestaties behouden.

Ze trainen twee modellen, 1,4B en 2,6B parameter LoopLM's op 7,7T tokens die de prestaties van 4B en 8B standaard transformers in bijna alle benchmarks evenaren, met 2-3× verbeteringen in parameter efficiëntie.
Ze verkennen ook de redenen waarom geloope transformers beter zijn.

De Tool Decathlon: Benchmarking Taalagenten voor Diverse, Realistische en Langdurige Taakuitvoering
Introduceert een benchmark voor het evalueren van taalagenten. TOOLATHLON is gebaseerd op realistische scenario's die meerdere apps vereisen.

TOOLATHLON vereist gemiddeld 4–6 uur werk van een afgestudeerde student in de richting van CS.
Sonnet 4.5, GPT-5 en Grok4 presteren goed. Ze observeren significante verschillen tussen de Pass@3 en Passˆ3 succespercentages, wat wijst op capaciteitsdekking maar consistentieproblemen.

Volg ons @ritualdigest voor meer over alles wat met crypto x AI-onderzoek te maken heeft, en @ritualnet om meer te leren over wat Ritual aan het bouwen is.
3,92K
Boven
Positie
Favorieten

