Ho pianto, SOTA è solo una facciata, per lavorare davvero bisogna contare sul "modello di buoi e cavalli". Il fondatore di OpenRouter, Alex Atallah, ha appena twittato dicendo che il suo utilizzo maggiore è ancora Kimi-K2-0711 (il Kimi-K2-Instruct di luglio). Poi ci sono openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3. La prima cosa che ho pensato è stata: questa persona è rimasta senza internet, non ha usato nuovi grandi modelli da un po'? Ma riflettendo bene, no, non è affatto così. Questo è davvero l'uso di un Power User, è troppo reale. Se in questo momento si cerca un modello con un contesto sufficientemente grande (128K), prestazioni utilizzabili (SWE-Bench Verified > 65), capacità di agente forte (Tau2-bench > 65), una vasta gamma di conoscenze (un numero di parametri piuttosto grande), e risposte rapide (modello non Thinking), sembra che l'unico sia Kimi-K2-Instruct. Quindi, deducendo, Alex Atallah dovrebbe passare la maggior parte del suo tempo a gestire documenti (lungo contesto, specialmente avendo usato 13.4M token), utilizzando strumenti per analizzare e redigere rapporti (capacità di agente), tutto ciò che Kimi-K2-Instruct può gestire, e poi scrivere script (o4 e Claude-3.7-Sonnet come backup, persino impacchettandoli come agenti per far sì che Kimi-k2 utilizzi questi modelli per scrivere script). Infine, Kimi-k2 può soddisfare il punto più importante, la privacy dei dati, poiché il modello ha pesi aperti, può essere distribuito sui propri server, e nessuna informazione sensibile verrà rivelata a OpenAI o Anthropic. Anche il GPT-OSS-120B sottostante dovrebbe avere questo significato. Ora capisco perché i nuovi grandi modelli si concentrano sulle capacità degli agenti, l'uso diretto dell'AI da parte delle persone è solo una fase intermedia, gli utenti avanzati stanno già usando l'AI per operare l'AI. Un modello specializzato per ricevere e inviare tutto il contesto dell'AI sarà sicuramente il più utilizzato.