DApp Store | Centrum Web3 pro události a hry

Populární témata

Ukázalo se, že umělá inteligence již dokáže dělat 65 % profesionálních úkolů... Nvidia nechala 38 doktorandů a MBA strávit 10+ hodin vytvářením benchmarků. Otestovali 40+ modelů na skutečné práci. Ne akademická cvičení. Skutečná práce, kterou juniorní analytici a výzkumníci dělají denně. GPT-5 získal celkově 65,9 %. Extrahují fakta s přesností 64,4 %. Potřebujete identifikovat RTX jako největšího dodavatele ministerstva obrany? Zjistili jste, že IFFIm získal 3,5 miliardy dolarů prostřednictvím dluhopisů na vakcíny? Modely většinou vytahují konkrétní informace z dokumentů, i když jsou pohřbeny na desítkách stránek. Logické uvažování dosahuje 66,2 %. Mohou sledovat vícestupňové derivace, správně aplikovat vzorce, ověřovat kauzální řetězce. Pokud potřebujete systematickou analýzu podle zavedených rámců, modely vám poskytnou dva ze tří případů. Překvapivý vítěz: konzultační rámce s 80% přesností. Modely úspěšně strukturují analýzy vstupu na trh, hodnocení konkurence a strategická doporučení. Chápou, že Porterových Pět sil neuvádí jen konkurenty, ale analyzuje dynamiku vyjednávací síly. Problémy s chemií? 70,6% úspěšnost. Modely se zabývají reakčními mechanismy, cestami syntézy a výpočty rovnováhy, které by byly výzvou pro většinu nespecialistů. Počítají molaritu, předpovídají produkty, vyvažují rovnice na úrovních, které procházejí postgraduálními studiemi. Dokonce i ve finančnictví, kde jsou modely slabší (63,7 %), úspěšně dokončují většinu oceňovacích modelů, interpretují sekuritizační struktury a píší koherentní investiční poznámky. To jsou téměř dvě třetiny správně zpracovaných finančních analýz na úrovni MBA. ProfBench to odhaluje testováním ve čtyřech profesních doménách se 7 347 kritérii napsanými odborníky. Na rozdíl od úzkých měřítek omezených na jednotlivé obory zachycuje šíři znalostní práce. A za 12 dolarů za hodnocení (oproti 8000 dolarům za PaperBench) může každý výzkumník změřit skutečné schopnosti. Jistě, modely bojují s profesionálním formátováním (65,3 %), fyzikálními derivacemi (49,3 %) a ještě se nedokážou prokousat 1 000 stránkami. ale překročili jsme práh, kdy umělá inteligence zvládá většinu profesionálních úkolů správně. Ne dokonale. Ne úplně. Ale 65 % stačí k tomu, aby se zásadně změnil způsob, jakým se znalosti fungují.

Top

Hodnocení

Oblíbené