🧵Fem förträningstrick från CAI. Före Google-avtalet körde @character_ai förträning på GCP H100-TCPX som har en fjärdedel av bandbredden som IB (!). @NoamShazeer uppfann en gradientkomprimeringsalgoritm kallad "Squinch" som bibehöll SOTA MFU trots dålig nätverksuppbyggnad.