Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ukázalo se, že umělá inteligence již dokáže dělat 65 % profesionálních úkolů...
Nvidia nechala 38 doktorandů a MBA strávit 10+ hodin vytvářením benchmarků.
Otestovali 40+ modelů na skutečné práci. Ne akademická cvičení. Skutečná práce, kterou juniorní analytici a výzkumníci dělají denně.
GPT-5 získal celkově 65,9 %.
Extrahují fakta s přesností 64,4 %. Potřebujete identifikovat RTX jako největšího dodavatele ministerstva obrany? Zjistili jste, že IFFIm získal 3,5 miliardy dolarů prostřednictvím dluhopisů na vakcíny? Modely většinou vytahují konkrétní informace z dokumentů, i když jsou pohřbeny na desítkách stránek.
Logické uvažování dosahuje 66,2 %. Mohou sledovat vícestupňové derivace, správně aplikovat vzorce, ověřovat kauzální řetězce. Pokud potřebujete systematickou analýzu podle zavedených rámců, modely vám poskytnou dva ze tří případů.
Překvapivý vítěz: konzultační rámce s 80% přesností. Modely úspěšně strukturují analýzy vstupu na trh, hodnocení konkurence a strategická doporučení. Chápou, že Porterových Pět sil neuvádí jen konkurenty, ale analyzuje dynamiku vyjednávací síly.
Problémy s chemií? 70,6% úspěšnost. Modely se zabývají reakčními mechanismy, cestami syntézy a výpočty rovnováhy, které by byly výzvou pro většinu nespecialistů. Počítají molaritu, předpovídají produkty, vyvažují rovnice na úrovních, které procházejí postgraduálními studiemi.
Dokonce i ve finančnictví, kde jsou modely slabší (63,7 %), úspěšně dokončují většinu oceňovacích modelů, interpretují sekuritizační struktury a píší koherentní investiční poznámky. To jsou téměř dvě třetiny správně zpracovaných finančních analýz na úrovni MBA.
ProfBench to odhaluje testováním ve čtyřech profesních doménách se 7 347 kritérii napsanými odborníky.
Na rozdíl od úzkých měřítek omezených na jednotlivé obory zachycuje šíři znalostní práce. A za 12 dolarů za hodnocení (oproti 8000 dolarům za PaperBench) může každý výzkumník změřit skutečné schopnosti.
Jistě, modely bojují s profesionálním formátováním (65,3 %), fyzikálními derivacemi (49,3 %) a ještě se nedokážou prokousat 1 000 stránkami. ale překročili jsme práh, kdy umělá inteligence zvládá většinu profesionálních úkolů správně.
Ne dokonale. Ne úplně. Ale 65 % stačí k tomu, aby se zásadně změnil způsob, jakým se znalosti fungují.

Top
Hodnocení
Oblíbené

