За последние 6 месяцев скорость NanoGPT до 3.28 по потере на FineWeb снизилась на 33% до 2 минут. Недавно подмножество этих изменений было массово скопировано и вставлено в более крупный трек с потерей 2.92. Удивительно, но неотлаженный запуск yolo побил рекорд потери 2.92 на 25%.