Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Blog yang sangat keren oleh @character_ai menyelami bagaimana mereka melatih model milik mereka Kaiju (13B, 34B, 110B), sebelum beralih ke model OSS, dan spoiler: ada Noam Shazeer yang tertulis di atasnya.
Sebagian besar pilihan untuk desain model (MQA, SWA, KV Cache, Kuantisasi) bukan untuk mengoptimalkan "tolok ukur AGI" (pikirkan MMLU) karena ini bukan untuk apa orang akan menggunakan model tetapi sebaliknya memiliki kecepatan penyajian yang baik. Namun, mereka menyertakan kode dalam campuran pra-pelatihan dan melakukan anil pada data "ramah tolok ukur" berkualitas tinggi.
Satu hal yang mengejutkan adalah bahwa model-model itu bukan MoE, meskipun orang-orang yang bekerja pada karakter pada saat itu seperti @stephenroller atau Noam sebelumnya mengerjakan MoE.
Berikut adalah beberapa pengoptimalan yang mereka lakukan
-> penskalaan seperti MuP
-> MQA + SWA
-> Menjepit di mana-mana untuk mengontrol aktivasi, tidak yakin apakah itu lunak atau keras?
-> Berbagi Cache KV
-> Fungsi aktivasi Relu^2
-> FSDP + TP + SP
-> Komunikasi gradien Int6
-> Quantization Aware Training (QAT) dengan hal-hal seperti "bungee_scalar" untuk mendapatkan resep yang stabil untuk model yang lebih kecil. KV Cache dan pass maju berada di int8, gradien dan aktivasi ada di bf16, master weight dan grad acc di fp32.

Teratas
Peringkat
Favorit

