🧵Fünf Pretraining-Tricks von CAI. Vor dem Google-Deal führte @character_ai Pretraining auf GCP H100-TCPX durch, das nur 1/4 der Bandbreite von IB hat (!). @NoamShazeer erfand einen Gradientenkodierungsalgorithmus namens "Squinch", der SOTA MFU trotz des schlechten Netzwerks aufrechterhält.