🧵CAI'den beş ön eğitim numarası. Google anlaşmasından önce, @character_ai ön eğitim GCP H100-TCPX üzerinde çalışıyordu; bu da IB olarak bant bant genişliğinin dörtte biri (!). @NoamShazeer, kötü ağ yapısına rağmen SOTA MFU'yu koruyan "Squinch" adlı gradyan sıkıştırma algoritması icat etti.