Có hai GPU và hai lần chạy SFT cùng một lúc với @PrimeIntellect Ý tưởng là cố định các bước trong khi thay đổi số lượng ví dụ và sau đó kiểm tra với một bộ kiểm tra đã giữ lại để xem sự đa dạng đầu vào giúp tổng quát hóa cho một môi trường đơn giản như thế nào Các verifier, tôi đến đây~