Iată Ritual Research Digest din această săptămână, un buletin informativ care acoperă cele mai recente noutăți din lumea LLM-urilor și intersecția dintre Crypto x AI. Cu sute de lucrări publicate săptămânal, este imposibil să rămânem la curent cu cele mai recente. Noi citim ca să nu trebuiască să o faceți.
Critique-RL: Modele de limbaj de formare pentru critică prin învățare prin întărire în două etape Această lucrare își propune să dezvolte modele lingvistice de critică care nu se bazează pe o supraveghere mai puternică sau pe o funcție de recompensă a oracolului în timpul testării.
Ei propun Critique-RL, o abordare RL în 2 etape, o abordare RL online bazată pe interacțiunea actor-critic pentru dezvoltarea modelelor critice. Experimente extinse arată că metoda depășește liniile de bază, oferind performanțe mai bune cu Qwen 2.5 7B.
PACR: Recompensă de încredere în creștere progresivă pentru raționamentul LLM Această lucrare întreabă dacă supravegherea treptată poate fi obținută din model. Ei introduc PACR, un semnal dens, intrinsec modelului, care convertește creșterea încrederii în supraveghere treptată pentru RL.
Ei descoperă, printre altele, că o ascensiune consistentă a încrederii se corelează puternic cu corectitudinea răspunsului final. Prin mai multe repere de raționament, creșterea RLVR cu metode PACR îmbunătățește dinamica antrenamentului și performanța finală.
Sfârșitul decodării manuale: către modele lingvistice cu adevărat end-to-end Această lucrare propune AutoDeco, o arhitectură care creează un LM "end-to-end" capabil să-și controleze propriul proces de decodare. Ei măresc transformatorul cu capete de predicție.
Șefii AutoDeco utilizează starea ascunsă curentă a modelului pentru a prezice dinamic parametrii optimi de eșantionare pentru următorul token. Ei lansează capete AutoDeco pentru Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 și GPT-OSS-120 și validează cu alte câteva modele.
Scalarea raționamentului latent prin modele de limbaj în buclă Această lucrare își propune să exploreze comportamentul de scalare al LoopLM în diferite aspecte. Ei dezvoltă obiective noi pentru a antrena calcule recurente eficiente, menținând în același timp performanța de vârf.
Ei antrenează două modele, LoopLM cu parametri 1.4B și 2.6B pe jetoane 7.7T care se potrivesc cu performanța transformatoarelor standard 4B și 8B în aproape toate benchmark-urile, obținând îmbunătățiri ale eficienței parametrilor de 2-3×. De asemenea, explorează motivele pentru care transformatoarele în buclă sunt mai bune.
Instrumentul Decathlon: Benchmarking al agenților lingvistici pentru execuția activităților diverse, realiste și la orizont lung Introduce un punct de referință pentru evaluarea agenților lingvistici. TOOLATHLON se bazează pe scenarii realiste care necesită mai multe aplicații.
TOOLATHLON necesită, în medie, 4-6 ore de lucru de către un student absolvent de cercetare care se specializează în CS. Sonnet 4.5, GPT-5 și Grok4 au performanțe bune. Ei observă diferențe semnificative între ratele de succes Pass@3 și Passˆ3, indicând acoperirea capabilităților, dar probleme de consecvență.
Urmăriți-ne @ritualdigest pentru mai multe despre toate lucrurile legate de cercetarea crypto x AI și @ritualnet să aflați mai multe despre ce construiește Ritual.
3,95K