Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tencent HY Research blogundan en son haberler: LLM Altyapısı ve algoritma geliştirme köprüleri. 🚀
GradLoc'u açık kaynak olarak sunuyoruz: O(log N) zamanında tam suçlu token'a kadar gradyan artışlarını takip eden beyaz kutu tanı aracı.
RLVR'yi ölçeklendirmek artık "kara kutu" gradyan tırtıllarına karşı bir mücadele olmak zorunda değil. Sezgisel deneme-yanılma yönteminden deterministik mühendislik tanısına geçiş.
Blog:
GitHub:


🔍 Küresel Artışlardan Tek Tokenlara Kadar
Standart izleme sadece gradyan artışı olduğunda söyler. GradLoc size nerede olduğunu söylüyor. Dağıtık ikili arama kullanarak, sıçrayışın yarattığı belirli tokenı önemsiz amortislenmiş ek yükle izole eder. LLM eğitimi için "her zaman açık" bir hata ayıklayıcısı.
💡 Yeni Çökme Modu Keşfedildi
Her zaman "kirli veri" ya da "eğitim-çıkarım uyumsuzluğu" değildir. GradLoc, Katmanlı Gradient Heterojenliği'ni ortaya koydu: Tokenlar "güvenli" Önem Örnekleme (IS) oranlarına sahip olabilir ancak yine de belirli katmanların patlamasına neden olurken diğerleri stabil kalabilir. Standart küresel kırpma bunun için çok açık bir araçtır.
🛡️ Çözüm: LayerClip
Katmanlı Gradient Heterojenliğini ele almak için Katmanlı Gradient Kırpma öneriyoruz. Uniform bir küresel kelepçe yerine, LayerClip yerel katman istatistiklerine dayalı uyarlanabilir kısıtlamalar uygular. Bu ince taneli kontrol, standart yöntemlerin başarısız olduğu durumlarda RLVR eğitimini stabilize eder.
🚀 Gelecek Çalışmalar
RLVR, daha derin anlayış ve analiz için daha iyi mühendislik gözlemlenebilirliğine ihtiyaç duyar. GradLoc'u açık kaynak olarak kullanıyoruz, böylece ince taneli tanılar için engeli azaltıyoruz. Umarız bu, topluluğun mühendislik "kara kutusu"nun içine bakmasına ve optimizasyona ilk prensiplerden doğru ilerlemesine yardımcı olur.
1,83K
En İyiler
Sıralama
Takip Listesi
