🧵Pět triků předtréninku od CAI. Před dohodou s Googlem @character_ai provozoval předškolení na GCP H100-TCPX, který má čtvrtinu šířky pásma jako IB (!). @NoamShazeer vynalezl algoritmus gradientní komprese nazvaný "Squinch", který udržuje SOTA MFU i přes špatné síťové připojení.