Terbaru dari blog Tencent HY Research: Menjembatani LLM Infra dan pengembangan algoritma. 🚀   Kami open-source GradLoc: Alat diagnostik kotak putih yang melacak lonjakan gradien ke token penyebab yang tepat dalam waktu O(log N).   Menskalakan RLVR tidak lagi harus menjadi pertempuran melawan lonjakan gradien "kotak hitam". Beralih dari coba-coba heuristik ke diagnostik rekayasa deterministik.   Blog: GitHub:
🔍 Dari Lonjakan Global hingga Token Tunggal   Pemantauan standar hanya memberi tahu Anda saat lonjakan gradien terjadi. GradLoc memberi tahu Anda di mana. Dengan menggunakan pencarian biner terdistribusi, ini mengisolasi token tertentu yang menyebabkan lonjakan dengan overhead yang diamortisasi yang dapat diabaikan. Ini adalah debugger "selalu aktif" untuk pelatihan LLM.
💡 Mode Ciut Baru Ditemukan   Ini tidak selalu "data kotor" atau "ketidakcocokan inferensi pelatihan". GradLoc mengungkapkan Layerwise Gradient Heterogeneity: Token dapat memiliki rasio Importance Sampling (IS) yang "aman" tetapi masih menyebabkan lapisan tertentu meledak sementara yang lain tetap stabil. Kliping global standar adalah alat yang terlalu tumpul untuk ini.
🛡️ Solusinya: LayerClip   Untuk mengatasi Heterogenitas Gradien Layerwise, kami mengusulkan Kliping Gradien Layerwisely. Alih-alih penjepit global yang seragam, LayerClip menerapkan batasan adaptif berdasarkan statistik lapisan lokal. Kontrol terperinci ini menstabilkan pelatihan RLVR di mana metode standar gagal.
🚀 Pekerjaan Masa Depan   RLVR membutuhkan observabilitas teknik yang lebih baik untuk pemahaman dan analisis yang lebih dalam. Kami membuka GradLoc untuk menurunkan penghalang untuk diagnostik halus. Kami berharap ini membantu komunitas melihat ke dalam "kotak hitam" teknik dan bergerak menuju pengoptimalan dari prinsip pertama.
1,9K