🧵Cinco truques de pré-treinamento da CAI. Antes do acordo com o Google, @character_ai estava rodando pré-treinamento no GCP H100-TCPX, que tem 1/4 da largura de banda do IB (!). @NoamShazeer inventou um algoritmo de compressão por gradiente chamado "Squinch", mantendo a MFU SOTA apesar da rede ruim.