CUDA Agent er den første kjente RL-trente modellen som har overgått Claude Opus 4.5 (og Gemini 3 Pro) i CUDA-kjernegenerering! ByteDances CUDA-agent bruker **agentisk forsterkningslæring** for å trene en modell som automatisk genererer høyytelses CUDA-kjerner, og belønner direkte med reell GPU-profileringshastighet – og bryter med konvensjonelle tilnærminger. Viktige referansedata på KernelBench: - Enkle/middels store kjerner (Nivå-1/2): **100 %** raskere enn torch.compile - Komplekse kjerner (nivå 3): **92 %** raskere hastighet - Totalt: **96,8 %** raskere hastighet sammenlignet med torch.compile, med ~2,11× geometrisk gjennomsnittshastighet - Overgår de sterkeste proprietære modellene som Claude Opus 4.5 og Gemini 3 Pro med omtrent **40 %** på de vanskeligste Level-3-oppgavene (hvor disse modellene bare slår torch.compile ~66–69 % av gangene) Det virkelige taket for AI-maskinvare er ikke selve silisiumet – det er «**programvarelåsing + optimalisering lukket sløyfe**»-funksjonen. Kombinert med det samtidige gjennombruddet i Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× mer effektivt enn A100), med hundrevis av millioner enheter som står inaktive; flaskehalsen er Apples lukkede API-er + abstraksjonslag (CoreML skjuler 2–4 × reell gjennomstrømning) - NVIDIA GPU-er: RL-agenter lærer «**ekstrem optimalisering under reell maskinvarefeedback**», noe som beviser at lærte strategier kan knuse statiske regler/kompilatorer Ytelsesgevinstene til maskinvaregigantene (Apple/NVIDIA) blir **dobbeltdrept av AI**: reverse engineering knuser lukkede API-er (og gjør ledige brikker om til beregningsfarmer), mens RL presser ut hver eneste dråpe fra eksisterende GPU-er. I fremtiden vil det virkelige flaskehalspunktet ikke være datamaskinvaren—det er hvem som først mestrer den lukkede løkken «**maskinvare-native tilbakemelding + autonom læringsoptimalisering**». Ved å kombinere myke og harde taktikker kan den som snur eksisterende enhetsytelse 2×, 10× eller mer gradvis rive ned gigantenes vegger. Denne sammensatte veksten skaper hastigheter utover menneskelig intuisjon: fra 10× → 100× → 1 000× i løpet av noen få år. Æraen med **opplæring på enheten** (ANE-siden) + **sky/edge ekstrem inferens** (CUDA-agentsiden) akseler raskt. AI kan nå «*selvoptimalisere**» nær teoretiske topper. Det uutnyttede potensialet i hundrevis av millioner inaktive Apple-enheter + massive NVIDIA-kort blir samlet åpnet av uavhengige hackere, selskaper og forskere.