Запущен полностью асинхронный тренер на основной сети @grail_ai, обучение модели на 7B 🚀 Теперь обучение проходит непрерывно из буфера воспроизведения! Никакого ожидания на связь. Это открыло 2k+ контекста и позволило нам масштабироваться с 1.5B → 7B моделей и даже больше в будущем.