İşte bu haftaki Ritual Research Digest, LLM'ler dünyasındaki en son gelişmeleri ve Crypto x AI'nın kesişimini kapsayan bir haber bülteni. Haftalık olarak yayınlanan yüzlerce makale ile en son gelişmelerden haberdar olmak imkansızdır. Okumayı biz yapıyoruz, böylece sizin yapmanıza gerek kalmıyor.
Kritik-RL: İki Aşamalı Pekiştirmeli Öğrenme Yoluyla Eleştiri için Dil Modellerinin Eğitimi Bu makale, test sırasında daha güçlü denetime veya bir oracle ödül işlevine dayanmayan eleştiri dili modelleri geliştirmeyi amaçlamaktadır.
Eleştiri modelleri geliştirmek için aktör-eleştirmen etkileşimine dayalı çevrimiçi bir RL yaklaşımı olan 2 aşamalı bir RL yaklaşımı olan Critique-RL'yi öneriyorlar. Kapsamlı deneyler, yöntemin taban çizgilerinden daha iyi performans gösterdiğini ve Qwen 2.5 7B ile daha iyi performans sağladığını göstermektedir.
PACR: LLM Muhakemesi için Aşamalı Olarak Artan Güven Ödülü Bu çalışma, modelden kademeli denetim elde edilip edilemeyeceğini sormaktadır. Güven artışını RL için kademeli denetime dönüştüren yoğun, modele özgü bir sinyal olan PACR'yi tanıtıyorlar.
Diğer şeylerin yanı sıra, tutarlı bir güven artışının nihai cevabın doğruluğu ile güçlü bir şekilde ilişkili olduğunu bulurlar. Birden fazla muhakeme kıyaslamasında, RLVR'yi PACR yöntemleriyle artırmak, eğitim dinamiklerini ve nihai performansı iyileştirir.
Manuel Kod Çözmenin Sonu: Gerçekten Uçtan Uca Dil Modellerine Doğru Bu makale, kendi kod çözme sürecini kontrol edebilen "uçtan uca" bir LM oluşturan bir mimari olan AutoDeco'yu önermektedir. Transformatörü tahmin kafalarıyla güçlendirirler.
AutoDeco kafaları, bir sonraki belirteç için en uygun örnekleme parametrelerini dinamik olarak tahmin etmek için modelin mevcut gizli durumunu kullanır. Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 ve GPT-OSS-120 için AutoDeco kafalarını piyasaya sürüyorlar ve diğer birçok modelle doğruluyorlar.
Döngülü Dil Modelleri Aracılığıyla Gizli Akıl Yürütmeyi Ölçeklendirme Bu makale, LoopLM'nin ölçeklendirme davranışını çeşitli yönlerden keşfetmeyi amaçlamaktadır. En yüksek performansı korurken verimli tekrarlayan hesaplamayı eğitmek için yeni hedefler geliştirirler.
Neredeyse tüm kıyaslamalarda 1.4B ve 2.6B standart transformatörlerin performansıyla eşleşen 7.7T tokenleri üzerinde 4B ve 8B parametreli LoopLM'ler olmak üzere iki model eğitiyorlar ve 2-3× parametre verimliliği iyileştirmeleri elde ediyorlar. Ayrıca döngülü transformatörlerin neden daha iyi olduğunun nedenlerini de araştırıyorlar.
Araç Dekatlon: Çeşitli, Gerçekçi ve Uzun Vadeli Görev Yürütme için Dil Aracılarını Kıyaslama Dil aracılarını değerlendirmek için bir kıyaslama sunar. TOOLATHLON, birden fazla uygulama gerektiren gerçekçi senaryolara dayanmaktadır.
TOOLATHLON, bilgisayar bilimleri alanında uzmanlaşan bir araştırma yüksek lisans öğrencisinin ortalama 4-6 saat çalışmasını gerektirir. Sonnet 4.5, GPT-5 ve Grok4 iyi performans gösteriyor. Pass@3 ve Passˆ3 başarı oranları arasında önemli farklılıklar gözlemliyorlar, bu da yetenek kapsamına ancak tutarlılık sorunlarına işaret ediyor.
Kripto x yapay zeka araştırmasıyla ilgili her şey hakkında daha fazla bilgi için bizi @ritualdigest takip edin ve Ritual'ın ne inşa ettiği hakkında daha fazla bilgi edinmek için @ritualnet.
3,95K