CUDA-Agent è il primo modello di addestramento RL conosciuto, che ha superato Claude Opus-4.6 e Gemini 3 Pro nella generazione di kernel CUDA! CUDA Agent utilizza modelli di addestramento RL agentic per generare automaticamente kernel CUDA ad alte prestazioni, utilizzando direttamente la velocità di profiling GPU reale come segnale di ricompensa, rompendo le convenzioni. Guarda i dati seguenti: Benchmark KernelBench: kernel semplici/medi 100% più veloci di torch.compile, kernel complessi 92% più veloci. In generale, 96.8% più veloci rispetto a torch.compile, ben oltre Claude Opus 4.5/Gemini 3 Pro (circa 40%). Il vero limite dell'hardware AI è la capacità di "sblocco software + ciclo di ottimizzazione", non solo il chip stesso. In combinazione con l'evento Apple Ane che si verifica contemporaneamente: Apple M4 ANE: 6.6 TFLOPS/W (≈80 volte A100), centinaia di milioni di dispositivi inattivi, il collo di bottiglia è l'API chiusa + il livello di astrazione (CoreML maschera 2–4 volte il throughput). GPU NVIDIA: l'agente RL ha appreso "ottimizzazioni estreme sotto il feedback reale dell'hardware", dimostrando che le strategie apprese possono superare le regole statiche. Il fossato delle prestazioni dell'hardware (Apple/NVIDIA) è stato colpito da un doppio attacco di "reverse engineering AI + ottimizzazione RL" — il primo ha aperto le API chiuse trasformando i chip inattivi in fattorie di calcolo, il secondo ha spremuto ogni goccia di prestazione dalle GPU esistenti tramite l'apprendimento rinforzato. In futuro, il collo di bottiglia non sarà l'hardware di calcolo, ma chi per primo padroneggia il ciclo di "feedback nativo dell'hardware + ottimizzazione autonoma dell'apprendimento", combinando software e hardware; chi riesce a raddoppiare le prestazioni dei dispositivi esistenti potrà abbattere gradualmente i muri dei giganti. Questa crescita composita creerà velocità che l'intuizione umana fatica a percepire: in pochi anni si potrà passare da 10 volte a 100 volte → 1.000 volte. L'era dell'addestramento on-device (lato ANE) + inferenza estrema in cloud/edge (lato CUDA Agent) sta accelerando, l'AI può "auto-ottimizzarsi" fino a raggiungere quasi il picco teorico. Il potenziale di centinaia di milioni di dispositivi Apple inattivi + enormi schede NVIDIA sta per essere aperto da hacker/ricercatori indipendenti/aziendali.