🧵Lima trik prapelatihan dari CAI. Sebelum kesepakatan Google, @character_ai sedang menjalankan prapelatihan pada GCP H100-TCPX yang memiliki 1/4 bandwidth sebagai IB (!). @NoamShazeer menemukan algoritma kompresi gradien yang disebut "Squinch" mempertahankan SOTA MFU meskipun jaringan yang buruk.