Veldig kul blogg av @character_ai dykker ned i hvordan de trente sin proprietære modell Kaiju (13B, 34B, 110B), før de byttet til OSS-modell, og spoiler: den har Noam Shazeer skrevet over seg. De fleste valgene for modelldesign (MQA, SWA, KV Cache, Quantization) er ikke for å optimalisere for "AGI benchmark" (tenk MMLU) siden dette ikke er det folk vil bruke modellen til, men i stedet ha en god serveringshastighet. Likevel inkluderer de kode i pre-training-miksen og gjør gløding på høykvalitets "benchmark-vennlige" data. En overraskende ting er at disse modellene ikke er MoE, til tross for at folk som jobbet med karakter på den tiden som @stephenroller eller Noam tidligere jobbet med MoE. Her er noen optimaliseringer de gjorde -> MuP-lignende skalering -> MQA + SWA -> Klemmer overalt for å kontrollere aktiveringen, er du usikker på om den er myk eller hard? -> KV Cache-deling -> Relu^2 aktiveringsfunksjon -> FSDP + TP + SP -> Int6 gradert kommunikasjon -> Quantization Aware Training (QAT) med ting som "bungee_scalar" for å få en stabil oppskrift på mindre modeller. KV Cache og forward pass er i int8, gradient og aktivering er i bf16, master weight og grad acc i fp32.