Anecdotic în ziua de azi, l-am rugat pe Claude să extragă datele mele de despăgubire de asigurare și să le pună într-un tabel. A durat ~30 de minute fără intervenție Apoi Claude/Gemini compară cu beneficiile mele. Am găsit 2 locuri unde se pare că am fost suprataxat. Prima oară în afara SWE când agenții au făcut o diferență pentru mine
METR
METR20 dec. 2025
We estimate that, on our tasks, Claude Opus 4.5 has a 50%-time horizon of around 4 hrs 49 mins (95% confidence interval of 1 hr 49 mins to 20 hrs 25 mins). While we're still working through evaluations for other recent models, this is our highest published time horizon to date.
De fapt, este o utilizare excelentă a unui agent pentru că toate datele sunt relativ ușor de găsit pe o pagină web. Dar este enervant și consumator de timp să-l aduci într-un format care să poată fi consumat.
Iar verificarea beneficiilor tale este puternică pentru că există o mare asimetrie informațională între tine, un furnizor și o companie de asigurări. Faptul că un LLM acționează ca avocat este o modalitate excelentă de a echilibra șansele.
842