🧵Cinque trucchi di pre-addestramento da CAI. Prima dell'accordo con Google, @character_ai stava eseguendo il pre-addestramento su GCP H100-TCPX che ha 1/4 della larghezza di banda rispetto a IB (!). @NoamShazeer ha inventato un algoritmo di compressione del gradiente chiamato "Squinch" mantenendo SOTA MFU nonostante la scarsa rete.