Новый рекорд скорости NanoGPT на 112.7 (-1.0с), с использованием весов в bfloat16 с дополнительными 16 битами в оптимизаторе и чередующимися коммуникациями. Вдохновение от @YouJiacheng и @ChrisJMcCormick. Также оптимизатор Adam, который делает шаги вдвое реже, чем Muon, имеет lm_head beta1=0.5.