Velmi zajímavý blog od @character_ai ponoří se do toho, jak trénovali svůj proprietární model Kaiju (13B, 34B, 110B), než přešli na model OSS, a spoiler: je na něm napsán Noam Shazeer. Většina možností pro návrh modelu (MQA, SWA, KV Cache, kvantizace) není optimalizována pro "AGI benchmark" (myslím MMLU), protože to není to, pro co lidé model používají, ale místo toho mají dobrou rychlost podávání. Přesto zahrnují kód do předtrénovacího mixu a provádějí žíhání na vysoce kvalitních datech, která jsou "přátelská k benchmarkům". Překvapivá věc je, že tyto modely nejsou MoE, přestože na MoE v té době pracovali lidé pracující na postavách jako @stephenroller nebo Noam. Zde je několik optimalizací, které provedli -> škálování podobné MuP -> MQA + SWA -> Upnutí všude pro ovládání aktivace, nejste si jisti, jestli je to měkké nebo tvrdé? -> Sdílení KV Cache -> Funkce aktivace Relu^2 -> FSDP + TP + SP -> Int6 gradientní komunikace -> Quantization Aware Training (QAT) s věcmi jako "bungee_scalar", abyste získali stabilní recept na menší modely. KV Cache a forward pass jsou v int8, gradient a aktivace jsou v bf16, master weight a grad acc ve fp32.