Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chorando, SOTA é apenas aparência, para trabalho de verdade ainda precisamos do "modelo de boi e cavalo".
O fundador do OpenRouter, Alex Atallah, acabou de twittar, dizendo que o que ele mais usa ainda é o Kimi-K2-0711 (o Kimi-K2-Instruct de julho).
Depois vem o openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
A primeira coisa que pensei foi: será que essa pessoa ficou sem internet, faz tempo que não usa novos grandes modelos?
Mas pensando melhor, não, está muito errado. Essa é a verdadeira forma de uso de um Power User, é muito real.
Se neste momento procurarmos um modelo que tenha um contexto grande o suficiente (128K), que tenha um desempenho utilizável (SWE-Bench Verified > 65), com forte capacidade de agente (Tau2-bench > 65), um conhecimento vasto (com um número de parâmetros considerável) e que responda rapidamente (modelo não Thinking), parece que só temos o Kimi-K2-Instruct.
Assim, deduzindo, Alex Atallah deve passar a maior parte do tempo lidando com documentos (longos contextos, especialmente usando 13.4M tokens), usando ferramentas para analisar e redigir relatórios (capacidade de agente), tudo isso o Kimi-K2-Instruct consegue fazer, e depois escrever alguns scripts (o4 e Claude-3.7-Sonnet como suporte, até mesmo empacotar como um agente para que o Kimi-k2 chame esses modelos para escrever scripts).
Por fim, o Kimi-k2 também pode atender ao ponto mais importante, a privacidade dos dados, pois o modelo tem pesos abertos, podendo ser implantado em servidores próprios, nenhuma informação sensível será vazada para a OpenAI ou Anthropic. Até mesmo o GPT-OSS-120B abaixo deve existir por essa razão.
Acho que consigo entender por que os novos grandes modelos estão competindo em capacidade de agente, o uso direto de IA é apenas uma fase intermediária, usuários avançados já estão usando IA para operar IA. Um modelo especializado de agente para enviar e receber todo o contexto da IA certamente será o mais utilizado.


Top
Classificação
Favoritos
