O CUDA-Agent é o primeiro modelo de treinamento RL conhecido, superando Claude Opus-4.6 e Gemini 3 Pro na geração de núcleos CUDA! O CUDA Agent utiliza um modelo de treinamento RL agentic para gerar automaticamente núcleos CUDA de alto desempenho, usando a velocidade de profiling real de GPU como sinal de recompensa, quebrando convenções. Veja os dados abaixo: Benchmark KernelBench: núcleos simples/médios 100% mais rápidos que torch.compile, núcleos complexos 92% mais rápidos. No geral, 96.8% mais rápido em comparação com torch.compile, muito além de Claude Opus 4.5/Gemini 3 Pro (cerca de 40%). O verdadeiro teto do hardware de IA é a capacidade de "desbloqueio de software + ciclo de otimização", e não apenas o chip em si. Juntando-se ao evento Ane da Apple que ocorre simultaneamente: Apple M4 ANE: 6.6 TFLOPS/W (≈80 vezes mais que A100), centenas de milhões de dispositivos ociosos, o gargalo é a API fechada + camada de abstração (CoreML oculta 2–4 vezes a taxa de transferência). NVIDIA GPU: o RL Agent aprendeu a "otimização extrema sob feedback real de hardware", provando que as estratégias aprendidas podem superar regras estáticas. A barreira de desempenho do hardware (Apple/NVIDIA) está sendo duplamente atacada pela "engenharia reversa de IA + otimização RL" — o primeiro quebra a API fechada, transformando chips ociosos em fazendas de computação, enquanto o segundo extrai cada gota de desempenho das GPUs existentes com aprendizado por reforço. No futuro, o que vai estrangular não é o hardware de computação, mas quem dominar primeiro o "feedback nativo de hardware + otimização de aprendizado autônomo" em um ciclo fechado, combinando software e hardware. Quem conseguir dobrar o desempenho dos dispositivos existentes poderá, passo a passo, derrubar os muros dos gigantes. Esse crescimento composto criará uma velocidade que a intuição humana terá dificuldade em perceber: em poucos anos, pode-se expandir de 10 vezes para 100 vezes → 1.000 vezes. A era do treinamento on-device (lado ANE) + inferência extrema em nuvem/borda (lado CUDA Agent) está acelerando, a IA pode "auto-otimizar-se" até perto do pico teórico. O potencial de centenas de milhões de dispositivos Apple ociosos + uma enorme quantidade de placas NVIDIA está sendo coletivamente aberto por hackers independentes/empresas/pesquisadores.