🧵Cinq astuces de préentraînement de CAI. Avant l'accord avec Google, @character_ai effectuait le préentraînement sur GCP H100-TCPX qui a 1/4 de bande passante par rapport à IB (!). @NoamShazeer a inventé un algorithme de compression de gradient appelé "Squinch" maintenant SOTA MFU malgré le mauvais réseau.