Pokaždé, když vidím nové "špičkové" benchmarkové skóre, zkusím jednoduchý myšlenkový experiment. Pokud je AI peníze, pak každý bod přesnosti v MMLU je rozhodnutí o platu, úvěrovém limitu, obchodu, klinické vlajně. Dnešní benchmarky zacházejí s modely jako se studenty během zkouškového týdne. MMLU na 88 %, HumanEval na jakémkoli procentu, výhra v aréně, ale téměř nikdo neklade otázku, která je důležitá, když model skutečně dělá placenou práci. Dal tento mozek v tomto stavu tuto odpověď správně? Už víme, co se stane, když tu vrstvu ignorujete. Během nedostatku čipů v letech 2021–2022 modely dodavatelských řetězců, které byly roky "dostatečně dobré", upadly do propasti. Stále doporučovali plány, které ekonomicky nedávaly smysl, protože se pod nimi svět změnil a nikdo si toho nevšiml dostatečně rychle. Nedávno uživatelé Claude objevili týdny degradovaných výstupů, než Anthropic přiznal, že tři samostatné chyby infrastruktury tiše korumpovaly odpovědi. Mnoho takových případů se pohodlně (téměř až příliš pohodlně) nemluví. V Ambient jsme to začali brát jako něco, co lze měřit. Naše vlastní matematické experimenty na základní škole využívají jednoduchou aritmetiku a ukazují, jak často modely hranic váhají v úkolech, které by měly brát jako stůlní kolíky. Jakmile vidíte, že některé snímky "AI příjmy" vypadají neúplně bez sourozeneckého snímku: jeden pro ověřenou inferenci (kterou definuji jednoduše jako schopnost dokázat, který model s jakými váhami odpověděl na který dotaz v daný čas). Pokud má AI sedět uprostřed mezd, rizik a provozu, benchmarky budou muset vyrostnout a přesnost je vstupní vstupenkou. Ověřitelné chování za ekonomických pobídek je skutečnou zkouškou.