Можна просто робити щось у prime-rl — наприклад, навчати GLM5 відповідати на математику в <2000 токенів, використовуючи 16 вузлів для навчання і 12 вузлів для інференції з конфігурацією 2P4D, з лише uv run rl @ rl.toml (@samsja19 казав, що варто більше твітити)