Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Veldig kul blogg av @character_ai dykker ned i hvordan de trente sin proprietære modell Kaiju (13B, 34B, 110B), før de byttet til OSS-modell, og spoiler: den har Noam Shazeer skrevet over seg.
De fleste valgene for modelldesign (MQA, SWA, KV Cache, Quantization) er ikke for å optimalisere for "AGI benchmark" (tenk MMLU) siden dette ikke er det folk vil bruke modellen til, men i stedet ha en god serveringshastighet. Likevel inkluderer de kode i pre-training-miksen og gjør gløding på høykvalitets "benchmark-vennlige" data.
En overraskende ting er at disse modellene ikke er MoE, til tross for at folk som jobbet med karakter på den tiden som @stephenroller eller Noam tidligere jobbet med MoE.
Her er noen optimaliseringer de gjorde
-> MuP-lignende skalering
-> MQA + SWA
-> Klemmer overalt for å kontrollere aktiveringen, er du usikker på om den er myk eller hard?
-> KV Cache-deling
-> Relu^2 aktiveringsfunksjon
-> FSDP + TP + SP
-> Int6 gradert kommunikasjon
-> Quantization Aware Training (QAT) med ting som "bungee_scalar" for å få en stabil oppskrift på mindre modeller. KV Cache og forward pass er i int8, gradient og aktivering er i bf16, master weight og grad acc i fp32.

Topp
Rangering
Favoritter

