Hier ist der Ritual Research Digest dieser Woche, ein Newsletter, der die neuesten Entwicklungen in der Welt der LLMs und der Schnittstelle von Crypto x AI abdeckt. Mit Hunderten von wöchentlich veröffentlichten Arbeiten ist es unmöglich, auf dem neuesten Stand zu bleiben. Wir lesen für Sie, damit Sie es nicht müssen.
Kritik-RL: Training von Sprachmodellen für die Kritik durch zweistufiges Reinforcement Learning Dieses Papier zielt darauf ab, kritische Sprachmodelle zu entwickeln, die während des Testens nicht auf stärkere Aufsicht oder eine Orakel-Belohnungsfunktion angewiesen sind.
Sie schlagen Critique-RL vor, einen 2-stufigen RL-Ansatz, einen Online-RL-Ansatz, der auf der Interaktion von Actor-Critic basiert, um Kritikmodelle zu entwickeln. Umfangreiche Experimente zeigen, dass die Methode die Baselines übertrifft und eine bessere Leistung mit Qwen 2.5 7B erzielt.
PACR: Progressiv ansteigender Vertrauensbonus für LLM-Argumentation Diese Arbeit fragt, ob schrittweise Überwachung vom Modell erhalten werden kann. Sie führen PACR ein, ein dichtes, modell-intrinsisches Signal, das das Wachstum des Vertrauens in schrittweise Überwachung für RL umwandelt.
Sie stellen unter anderem fest, dass ein konsistenter Anstieg des Vertrauens stark mit der Richtigkeit der endgültigen Antwort korreliert. Über mehrere Bewertungsbenchmarks hinweg verbessert die Ergänzung von RLVR mit PACR-Methoden die Trainingsdynamik und die endgültige Leistung.
Das Ende der manuellen Dekodierung: Auf dem Weg zu wirklich End-to-End-Sprachmodellen Dieses Papier schlägt AutoDeco vor, eine Architektur, die ein "End-to-End"-LM erstellt, das in der Lage ist, seinen eigenen Dekodierungsprozess zu steuern. Sie erweitern den Transformer mit Vorhersageköpfen.
AutoDeco-Köpfe nutzen den aktuellen verborgenen Zustand des Modells, um die optimalen Sampling-Parameter für das nächste Token dynamisch vorherzusagen. Sie veröffentlichen AutoDeco-Köpfe für Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 und GPT-OSS-120 und validieren mit mehreren anderen Modellen.
Skalierung latenter Schlussfolgerungen über Schleifen-Sprachmodelle Dieses Papier zielt darauf ab, das Skalierungsverhalten von LoopLM in verschiedenen Aspekten zu untersuchen. Sie entwickeln neuartige Ziele, um effiziente rekursive Berechnungen zu trainieren und gleichzeitig die Spitzenleistung aufrechtzuerhalten.
Sie trainieren zwei Modelle, 1,4B und 2,6B Parameter LoopLMs auf 7,7T Tokens, die die Leistung von 4B und 8B Standard-Transformern in nahezu allen Benchmarks erreichen und 2-3× Verbesserungen der Parameter-Effizienz erzielen. Sie untersuchen auch die Gründe, warum geschleifte Transformer besser sind.
Der Tool-Decathlon: Benchmarking von Sprachagenten für vielfältige, realistische und langfristige Aufgabenausführung Führt einen Benchmark zur Bewertung von Sprachagenten ein. TOOLATHLON basiert auf realistischen Szenarien, die mehrere Apps erfordern.
TOOLATHLON erfordert im Durchschnitt 4–6 Stunden Arbeit von einem Forschungsstudenten im Bereich Informatik. Sonnet 4.5, GPT-5 und Grok4 schneiden gut ab. Sie beobachten signifikante Unterschiede zwischen den Erfolgsquoten von Pass@3 und Passˆ3, was auf eine Abdeckung der Fähigkeiten, aber auf Konsistenzprobleme hinweist.
Folge uns @ritualdigest für mehr über alles, was mit Krypto x AI-Forschung zu tun hat, und @ritualnet, um mehr darüber zu erfahren, was Ritual aufbaut.
3,91K