Bạn chỉ cần làm những việc trong prime-rl - như dạy GLM5 trả lời toán trong <2000 tokens sử dụng 16 nút để huấn luyện và 12 nút để thực hiện suy diễn với cấu hình 2P4D chỉ với uv run rl @ rl.toml ( @samsja19 đã nói với tôi rằng tôi nên tweet nhiều hơn)