🧵Viisi esiharjoittelutemppua CAI:lta. Ennen Google-sopimusta @character_ai ajoi esikoulutusta GCP H100-TCPX:llä, jolla on neljäsosa kaistanleveydestä IB:nä (!). @NoamShazeer keksi gradienttipakkausalgoritmin nimeltä "Squinch", joka ylläpitää SOTA MFU:ta huonosta verkotuksesta huolimatta.