Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI.
Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.

Critique-RL: Addestramento di modelli linguistici per la critica attraverso l'apprendimento per rinforzo a due fasi
Questo documento mira a sviluppare modelli linguistici di critica che non si basano su una supervisione più forte o su una funzione di ricompensa oracle durante il test.

Propongono Critique-RL, un approccio RL a 2 fasi, un approccio RL online basato sull'interazione attore-critico per sviluppare modelli di critica.
Esperimenti estesi mostrano che il metodo supera le baseline, offrendo prestazioni migliori con Qwen 2.5 7B.

PACR: Ricompensa di Fiducia Progressivamente Ascendente per il Ragionamento LLM
Questo lavoro si chiede se la supervisione graduale possa essere ottenuta dal modello. Introducono PACR, un segnale denso e intrinseco al modello che converte la crescita della fiducia in supervisione graduale per l'RL.



Tra le altre cose, scoprono che un costante aumento della fiducia è fortemente correlato con la correttezza della risposta finale.
Attraverso molteplici benchmark di ragionamento, l'augmentazione di RLVR con metodi PACR migliora le dinamiche di addestramento e le prestazioni finali.

La fine della decodifica manuale: verso modelli linguistici veramente end-to-end
Questo documento propone AutoDeco, un'architettura che crea un LM "end-to-end" capace di controllare il proprio processo di decodifica. Potenziano il trasformatore con teste di previsione.

Le teste AutoDeco utilizzano lo stato nascosto attuale del modello per prevedere dinamicamente i parametri di campionamento ottimali per il prossimo token.
Rilasciano teste AutoDeco per Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 e GPT-OSS-120 e convalidano con diversi altri modelli.


Scalare il Ragionamento Latente tramite Modelli Linguistici a Ciclo
Questo documento si propone di esplorare il comportamento di scalabilità di LoopLM in vari aspetti. Sviluppano obiettivi innovativi per addestrare un calcolo ricorrente efficiente mantenendo prestazioni ottimali.

Addestrano due modelli, LoopLMs con 1,4 miliardi e 2,6 miliardi di parametri su 7,7 trilioni di token che eguagliano le prestazioni di trasformatori standard da 4 miliardi e 8 miliardi su quasi tutti i benchmark, ottenendo miglioramenti dell'efficienza dei parametri di 2-3×.
Esplorano anche le ragioni per cui i trasformatori a loop sono migliori.

Il Tool Decathlon: Benchmarking degli Agenti Linguistici per l'Esecuzione di Compiti Diversi, Realistici e a Lungo Termine
Introduce un benchmark per valutare gli agenti linguistici. TOOLATHLON è basato su scenari realistici che richiedono più app.

TOOLATHLON richiede, in media, 4–6 ore di lavoro da parte di uno studente laureato in ricerca con specializzazione in CS.
Sonnet 4.5, GPT-5 e Grok4 funzionano bene. Osservano differenze significative tra i tassi di successo Pass@3 e Passˆ3, indicando una copertura delle capacità ma problemi di coerenza.

Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e
@ritualnet per saperne di più su cosa sta costruendo Ritual.
3,92K
Principali
Ranking
Preferiti

