Museli jsme z naší tabulky benchmarků odstranit hodnocení τ2-bench airlines, protože Opus 4.5 ho porušil tím, že byl příliš chytrý. Benchmark simuluje zákaznického servisního agenta letecké společnosti. V jednom testovacím případě zavolá vystresovaný zákazník a chce změnit let, ale má základní ekonomickou letenku. Politika simulované letecké společnosti uvádí, že základní ekonomické letenky nelze upravovat. "Správná" odpověď je, že model žádost odmítá. Místo toho Opus 4.5 našel v této politice mezeru. Vylepšila kabinu a poté upravila lety. Pomáhat zákazníkovi a dodržovat pravidla, ale technicky neuspěl v testovacím případě. Modelový přepis:
Přečtěte si celý příběh na naší modelové kartě:
212,7K