Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AutoJudge üzerine yaptığımız son araştırmayı paylaşmaktan heyecan duyuyoruz; bu çözümleme tekniği şunları birleştirir:
- Dağılım eşleşme kısıtlamasını gevşeterek çıkarımın hızlandırılması
- Kendi denetimli eğitim protokolü sayesinde kullanım kolaylığı ve ölçeklenebilirlik
Bugün #NeurIPS2025'de sunumluyorum! (1/9)

Kabul sınıflandırıcısı için etiketleri otomatik olarak araştırabildiğimizi bulduk. Özellikle, bir veri seti alıp hedef ve model üretimlerini taslak olarak çalıştırıyoruz.
Sonra, hedef ve taslak modeller arasındaki tüm uyumsuz tokenları kontrol ediyoruz. Eğer jetonu taslak modelden saklamak yanlış cevap verirse, önemli olarak işaretlenir (3/9)

Bu etiketleri kullanarak, basit bir sınıflandırıcı önemli tokenları çıkarım zamanında bulması için eğitebiliriz.
Orijinal spekülatif çözümleme bir tokenı reddedecekse, sınıflayıcıya sorarak ona ikinci bir şans veririz. Önemli olmayan tokenlar için üretimi sürdürürüz, bazıları için ise yeni bir spekülatif döngü başlatılır (4/9)

AutoJudge'ın ana değerlendirmeleri, cevap doğruluğunu kolayca ölçebilen görevlere odaklanıyor — programlama (LiveCodeBench) ve matematik (GSM8K).
8B/70B gibi model çiftleriyle, her döngüde 40'a kadar kabul edilen jeton elde edebiliriz ve %<1 isabet elde edebiliriz! (5/9)

AutoJudge ayrıca vLLM gibi açık kaynak çıkarım çerçeveleriyle kolayca entegre olur. Kabul oranı iyileştirmeleri, uçtan uca hızlanmalara dönüşüyor: doğruluğun %2'sini ödün verirsek, saniyede neredeyse %50 daha fazla token elde ederiz! (6/9)

Önemli tokenlar için açıklamaları incelediğimizde ilginç bir desen ortaya çıkarılır: net hatalar negatif örnekler olarak işaretlenir (=> yeniden oluşturulması gerekir), anlamsal olarak eşdeğer tokenlar ise spekülasyonun ilerlemesine izin verir (7/9)

Daha fazla bilgi için şu adrese göz atabilirsiniz:
Kâğıt:
Kod:
Blog yazısı:
GSM8K & LiveCodeBench için önceden hesaplanmış aktivasyonlar:
(8/9)
Bu çalışma, harika ortak yazarlarım @garipovroma, @MightyNeighbour, Ivan Ermakov, Ruslan Svirschevski ve Vage Egiazarian tarafından yönetildi.
Takım bu hafta NeurIPS için San Diego'da — bugün poster oturumunda merhaba deyin!
16:30, poster #2010 (9/9)
2,51K
En İyiler
Sıralama
Takip Listesi

