🧵Cinco trucos de preentrenamiento de CAI. Antes del acuerdo con Google, @character_ai estaba realizando el preentrenamiento en GCP H100-TCPX, que tiene 1/4 del ancho de banda que IB (!). @NoamShazeer inventó un algoritmo de compresión de gradientes llamado "Squinch" que mantiene SOTA MFU a pesar de la mala conectividad.