🧵Pięć sztuczek wstępnego szkolenia od CAI. Przed umową z Google, @character_ai prowadził wstępne szkolenie na GCP H100-TCPX, który ma 1/4 przepustowości w porównaniu do IB (!). @NoamShazeer wynalazł algorytm kompresji gradientu nazwany "Squinch", utrzymując SOTA MFU pomimo słabej sieci.