DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Tencent HY Research blogundan en son haberler: LLM Altyapısı ve algoritma geliştirme köprüleri. 🚀 GradLoc'u açık kaynak olarak sunuyoruz: O(log N) zamanında tam suçlu token'a kadar gradyan artışlarını takip eden beyaz kutu tanı aracı. RLVR'yi ölçeklendirmek artık "kara kutu" gradyan tırtıllarına karşı bir mücadele olmak zorunda değil. Sezgisel deneme-yanılma yönteminden deterministik mühendislik tanısına geçiş. Blog: GitHub:

🔍 Küresel Artışlardan Tek Tokenlara Kadar Standart izleme sadece gradyan artışı olduğunda söyler. GradLoc size nerede olduğunu söylüyor. Dağıtık ikili arama kullanarak, sıçrayışın yarattığı belirli tokenı önemsiz amortislenmiş ek yükle izole eder. LLM eğitimi için "her zaman açık" bir hata ayıklayıcısı.

💡 Yeni Çökme Modu Keşfedildi Her zaman "kirli veri" ya da "eğitim-çıkarım uyumsuzluğu" değildir. GradLoc, Katmanlı Gradient Heterojenliği'ni ortaya koydu: Tokenlar "güvenli" Önem Örnekleme (IS) oranlarına sahip olabilir ancak yine de belirli katmanların patlamasına neden olurken diğerleri stabil kalabilir. Standart küresel kırpma bunun için çok açık bir araçtır.

🛡️ Çözüm: LayerClip Katmanlı Gradient Heterojenliğini ele almak için Katmanlı Gradient Kırpma öneriyoruz. Uniform bir küresel kelepçe yerine, LayerClip yerel katman istatistiklerine dayalı uyarlanabilir kısıtlamalar uygular. Bu ince taneli kontrol, standart yöntemlerin başarısız olduğu durumlarda RLVR eğitimini stabilize eder.

🚀 Gelecek Çalışmalar RLVR, daha derin anlayış ve analiz için daha iyi mühendislik gözlemlenebilirliğine ihtiyaç duyar. GradLoc'u açık kaynak olarak kullanıyoruz, böylece ince taneli tanılar için engeli azaltıyoruz. Umarız bu, topluluğun mühendislik "kara kutusu"nun içine bakmasına ve optimizasyona ilk prensiplerden doğru ilerlemesine yardımcı olur.

1,83K

En İyiler

Sıralama

Takip Listesi