Плакал, SOTA — это всего лишь фасад, настоящая работа зависит от "модели быка и лошади". Основатель OpenRouter Алекс Аттал только что опубликовал твит, в котором сказал, что он все еще использует Kimi-K2-0711 (инструкция Kimi-K2 за июль) больше всего. Затем идут openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3. Когда я впервые это увидел, подумал, неужели этот человек отключился от интернета, давно не использовал новые большие модели? Но, подумав хорошенько, понял, что это не так, это очень странно. Это действительно способ использования настоящего Power User, слишком реалистично. Если в этот момент найти модель с достаточно большим контекстом (128K), приемлемой производительностью (SWE-Bench Verified > 65), сильными агентскими способностями (Tau2-bench > 65), обширными знаниями (соответствующее большое количество параметров) и быстрой реакцией (не Thinking модель), похоже, что только Kimi-K2-Instruct подходит. Таким образом, можно предположить, что большая часть работы Алекса Аттала связана с обработкой документов (долгий контекст, особенно с использованием 13.4M токенов), анализом инструментов и написанием отчетов (агентские способности), все это Kimi-K2-Instruct может сделать, а затем написанием скриптов (o4 и Claude-3.7-Sonnet в качестве запасных, даже упаковывая их в агента, чтобы Kimi-k2 мог вызывать эти модели для написания скриптов). В конце концов, Kimi-k2 также может удовлетворить самый важный момент — конфиденциальность данных, потому что модель имеет открытые веса и может быть развернута на собственном сервере, никакая конфиденциальная информация не будет передана OpenAI или Anthropic. Даже существование GPT-OSS-120B, вероятно, связано с этим. Я примерно понимаю, почему новые большие модели сейчас конкурируют в агентских способностях, использование AI человеком — это всего лишь промежуточный этап, продвинутые пользователи уже используют AI для управления AI. Модель агента, предназначенная для отправки и получения всего контекста AI, обязательно будет самой используемой.