Der vollständig asynchrone Trainer wurde im @grail_ai Hauptnetz gestartet, der ein 7B-Modell trainiert 🚀 Das Training läuft jetzt kontinuierlich aus einem Replay-Puffer! Kein Warten auf Kommunikation. Dies hat 2k+ Kontext freigeschaltet und uns ermöglicht, von 1,5B → 7B Modellen zu skalieren und später sogar noch größere.