Anegdotycznie, wczoraj kazałem Claude'owi zeskrobać moje dane dotyczące roszczeń ubezpieczeniowych i umieścić je w tabeli. Zajęło to około 30 minut bez interwencji. Następnie Claude/Gemini porównał to z moimi świadczeniami. Znalazł 2 miejsca, w których wydaje się, że zostałem nadmiernie obciążony. Pierwszy raz poza SWE, kiedy agenci zrobili dla mnie różnicę.
METR
METR20 gru 2025
Szacujemy, że w naszych zadaniach Claude Opus 4.5 ma 50%-owy horyzont czasowy wynoszący około 4 godziny 49 minut (95% przedział ufności od 1 godziny 49 minut do 20 godzin 25 minut). Chociaż wciąż pracujemy nad ocenami innych niedawnych modeli, to jest nasz najwyższy opublikowany horyzont czasowy do tej pory.
To właściwie świetne wykorzystanie agenta, ponieważ dane są stosunkowo łatwe do znalezienia na stronie internetowej. Ale jest to irytujące i czasochłonne, aby przekształcić je w format, który można wykorzystać.
Sprawdzanie swoich korzyści jest potężne, ponieważ istnieje duża asymetria informacji między tobą, dostawcą a firmą ubezpieczeniową. Posiadanie LLM jako adwokata to świetny sposób na wyrównanie szans.
855