На днях я попросил Claude собрать данные о моих страховых претензиях и поместить их в таблицу. Это заняло около 30 минут без вмешательства. Затем Claude/Gemini сравнили с моими льготами. Нашли 2 случая, когда, похоже, меня переплатили. Впервые за пределами SWE агенты действительно помогли мне.
METR
METR20 дек. 2025 г.
Мы оцениваем, что для наших задач Claude Opus 4.5 имеет 50%-ный временной горизонт около 4 часов 49 минут (95%-ный доверительный интервал от 1 часа 49 минут до 20 часов 25 минут). Хотя мы все еще работаем над оценками других недавних моделей, это наш самый высокий опубликованный временной горизонт на сегодняшний день.
На самом деле, это отличное использование агента, потому что данные все там, относительно легко найти на веб-странице. Но это раздражает и отнимает много времени, чтобы привести их в формат, который можно использовать.
Проверка ваших преимуществ имеет большое значение, потому что существует значительная информационная асимметрия между вами, поставщиком и страховой компанией. Использование LLM в качестве защитника — отличный способ выровнять условия.
878