🧵来自CAI的五个预训练技巧。 在与谷歌达成交易之前,@character_ai在GCP H100-TCPX上进行预训练,该设备的带宽仅为IB的1/4(!)。@NoamShazeer发明了一种名为"Squinch"的梯度压缩算法,尽管网络条件较差,但仍保持了SOTA MFU。