Claude Opus 4.5 vychází dnes. Je špičkový v oblasti programování, agentů a používání počítačů a výrazně lepší v běžných úkolech, jako je tvorba tabulek a diapozitivů. Tady je, co vidíme:
Konzistentní zpětná vazba od interních testerů je, že to prostě "chápe". Zabývá se nejasností, důvody ohledně kompromisů bez vedení za ruku. Úkoly, které byly pro Sonnet 4.5 téměř nemožné, jsou nyní na dosah.
Například kandidátům na výkonnostní inženýrství dáváme notoricky obtížný domácí test. V rámci dvouhodinového limitu dosáhl Opus 4.5 vyššího skóre než jakýkoli lidský kandidát v historii.
Je to také výrazně efektivnější. Na SWE-bench ověřeném při středním úsilí Opus 4.5 překonává Sonnet 4.5 a používá o 76 % méně výstupních tokenů. Nový parametr úsilí vám umožní vyměnit inteligenci za náklady/latenci s jedním kolečkem.
295,35K