Máme příliš mnoho měřítek na modelové schopnosti a příliš málo na agentskou práci. Z ekonomického hlediska stále více nezáleží na schopnosti umělé inteligence správně odpovědět na otázku prostřednictvím volání rozhraní API, ale spíše na její schopnosti kombinovat nástroje a schopnost vyřešit problém. To je podhodnocené.
Model, který je slabší ve schopnostech, ale dokáže zjistit, kdy je špatný a je dobrý v používání jiných přístupů k překonání své slabosti, má mnohem praktičtější využití než model, který má o několik bodů vyšší skóre v Poslední zkoušce lidstva. Ale naše benchmarking to nevidí.
Potřebujeme také lepší benchmarking , který ukáže , PROČ se agentické schopnosti rozpadají . Například vidění je zřejmým slabým místem modelů, které vysvětluje mnoho selhání agentů při interakci s reálným světem. Ale stejně tak "smyčky zkázy", kde umělá inteligence zkouší stále to samé.
Skutečnost, že provoz fiktivního prodejního automatu je hlavním měřítkem používaným při oznamování významných nových modelů umělé inteligence, vám ukazuje, kde se nacházíme. Není to špatný test (je opravdu velmi zajímavý), ale není jasné, co měří, a také potřebujeme mnohem větší rozmanitost úkolů.
30,53K