🧵Cinco truques de pré-treinamento do CAI. Antes do acordo com o Google, @character_ai estava a realizar pré-treinamento no GCP H100-TCPX, que tem 1/4 da largura de banda do IB (!). @NoamShazeer inventou um algoritmo de compressão de gradiente chamado "Squinch" mantendo SOTA MFU apesar da má rede.