CUDA-Agent là mô hình đào tạo RL đầu tiên được biết đến, vượt qua Claude Opus-4.6 và Gemini 3 Pro trong việc tạo ra các lõi CUDA! CUDA Agent sử dụng mô hình đào tạo RL agentic để tự động tạo ra các lõi CUDA hiệu suất cao, trực tiếp sử dụng tốc độ profiling GPU thực tế làm tín hiệu thưởng, phá vỡ quy tắc thông thường. Hãy xem dữ liệu dưới đây: Chỉ số KernelBench: các lõi đơn giản/trung bình nhanh hơn 100% so với torch.compile, các lõi phức tạp nhanh hơn 92%. Tổng thể nhanh hơn 96.8% so với torch.compile, vượt xa Claude Opus 4.5/Gemini 3 Pro (khoảng 40%). Trần hiệu suất thực sự của phần cứng AI là khả năng "mở khóa phần mềm + tối ưu hóa vòng khép kín", chứ không chỉ là chip tự nó. Kết hợp với sự kiện Ane của Apple đang diễn ra: Apple M4 ANE: 6.6 TFLOPS/W (≈80 lần A100), hàng triệu thiết bị đang bị bỏ hoang, nút thắt là API đóng + lớp trừu tượng (CoreML che giấu 2–4 lần thông lượng). NVIDIA GPU: RL Agent đã học được "tối ưu hóa cực đoan dưới phản hồi thực tế của phần cứng", chứng minh rằng chiến lược học được có thể đánh bại các quy tắc tĩnh. Hàng rào bảo vệ hiệu suất của phần cứng (Apple/NVIDIA) đang bị AI "kỹ thuật ngược + tối ưu hóa RL" tấn công kép - cái trước phá vỡ API đóng để biến chip bỏ hoang thành trang trại tính toán, cái sau sử dụng học tăng cường để vắt kiệt từng giọt hiệu suất của GPU hiện có. Tương lai không phải là phần cứng tính toán, mà là ai nắm bắt được "phản hồi gốc phần cứng + tối ưu hóa học tự động" trước, kết hợp cả phần mềm và phần cứng, ai có thể nhân đôi hiệu suất của thiết bị hiện có, sẽ từng bước phá vỡ bức tường của các ông lớn. Sự tăng trưởng kiểu phức hợp này sẽ tạo ra tốc độ mà con người khó có thể cảm nhận được: trong vài năm có thể mở rộng từ 10 lần lên 100 lần → 1,000 lần. Thời đại đào tạo trên thiết bị (phía ANE) + suy diễn cực hạn trên đám mây/biên (phía CUDA Agent) đang đến gần, AI có thể "tự tối ưu" đến gần đỉnh lý thuyết. Hàng triệu thiết bị Apple bỏ hoang + tiềm năng khổng lồ của các thẻ NVIDIA đang được các hacker độc lập/công ty/nghiên cứu viên cùng nhau mở ra.