🧵Cinco trucos previos al entrenamiento de CAI. Antes del acuerdo con Google, @character_ai estaba ejecutando preentrenamiento en GCP H100-TCPX, que tiene 1/4 del ancho de banda que IB (!). @NoamShazeer inventó un algoritmo de compresión de gradiente llamado "Squinch" que mantenía la MFU SOTA a pesar de la mala red.