🧵П'ять попередніх трюків від CAI. До угоди з Google @character_ai проводив попереднє навчання на GCP H100-TCPX, який має чверть пропускної здатності як IB (!). @NoamShazeer винайшов алгоритм градієнтного стиснення під назвою «Squinch», який підтримував SOTA MFU, незважаючи на слабкі мережі.