DApp Store | Centrum Web3 pro události a hry

Populární témata

CUDA Agent je první známý RL-trénovaný model, který překonal Claude Opus 4.5 (a Gemini 3 Pro) v generování jádra CUDA! ByteDance's CUDA Agent využívá **agentické posilované učení** k trénování modelu, který automaticky generuje vysoce výkonná CUDA jádra, což přímo odměňuje skutečnou rychlostí profilování GPU – čímž se odklání od konvenčních přístupů. Klíčová data z benchmarku na KernelBench: - Jednoduchá/střední jádra (úroveň 1/2): **100 %** rychlejší než torch.compile - Komplexní jádra (Level-3): **92%** rychlejší rychlost - Celkově: **96,8%** rychlejší rychlost oproti torch.compile, s geometrickým průměrným zrychlením ~2,11× - Překonává nejsilnější proprietární modely jako Claude Opus 4.5 a Gemini 3 Pro přibližně **40 %** v nejtěžších úkolech úrovně 3 (kde tyto modely překonávají torch.compile jen ~66–69 % času) Skutečný strop AI hardwaru není samotný křemík – je to schopnost "**softwarové odemykání + optimalizace v uzavřené smyčce**". Kombinujeme to se současným průlomem Apple ANE: - Apple M4 ANE: **6,6 TFLOPS/W** (~80× efektivnější než A100), se stovkami milionů zařízení nečinných; úzkým hrdlem jsou uzavřená API Apple + abstrakční vrstvy (CoreML skrývá 2–4× reálnou propustnost) - NVIDIA GPU: RL agenti se učí "**extrémní optimalizaci pod skutečnou hardwarovou zpětnou vazbou**", což dokazuje, že naučené strategie dokážou rozdrtit statická pravidla/kompilátory Výkonnostní příkopy hardwarových gigantů (Apple/NVIDIA) jsou AI **dvojitě zabíjeny**: reverzní inženýrství rozbíjí uzavřená API (proměňuje nečinné čipy v výpočetní farmy), zatímco RL vytěžuje každou poslední kapku ze stávajících GPU. V budoucnu nebude skutečným úzkým bodem výpočetní hardware – kdo zvládne "**hardware-native feedback + autonomous learning optimization**" uzavřenou smyčku jako první. Kombinací měkkých a tvrdých taktik může ten, kdo změní výkon stávajícího zařízení o 2×, 10× nebo více, postupně rozebrat zdi obrů. Tento složený růst vytváří rychlosti přesahující lidskou intuici: z 10× → 100× → 1 000× během několika let. Éra **tréninku na zařízení** (strana ANE) + **extrémní inference cloud/edge** (strana agenta CUDA) se rychle rozvíjí. AI nyní může "**sama optimalizovat**" blízko teoretických vrcholů. Nevyužitý potenciál stovek milionů nečinných zařízení Apple + obrovských karet NVIDIA je kolektivně otevírán nezávislými hackery, firmami a výzkumníky.

Top

Hodnocení

Oblíbené