Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho pianto, SOTA è solo una facciata, per lavorare davvero bisogna contare sul "modello di buoi e cavalli".
Il fondatore di OpenRouter, Alex Atallah, ha appena twittato dicendo che il suo utilizzo maggiore è ancora Kimi-K2-0711 (il Kimi-K2-Instruct di luglio).
Poi ci sono openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
La prima cosa che ho pensato è stata: questa persona è rimasta senza internet, non ha usato nuovi grandi modelli da un po'?
Ma riflettendo bene, no, non è affatto così. Questo è davvero l'uso di un Power User, è troppo reale.
Se in questo momento si cerca un modello con un contesto sufficientemente grande (128K), prestazioni utilizzabili (SWE-Bench Verified > 65), capacità di agente forte (Tau2-bench > 65), una vasta gamma di conoscenze (un numero di parametri piuttosto grande), e risposte rapide (modello non Thinking), sembra che l'unico sia Kimi-K2-Instruct.
Quindi, deducendo, Alex Atallah dovrebbe passare la maggior parte del suo tempo a gestire documenti (lungo contesto, specialmente avendo usato 13.4M token), utilizzando strumenti per analizzare e redigere rapporti (capacità di agente), tutto ciò che Kimi-K2-Instruct può gestire, e poi scrivere script (o4 e Claude-3.7-Sonnet come backup, persino impacchettandoli come agenti per far sì che Kimi-k2 utilizzi questi modelli per scrivere script).
Infine, Kimi-k2 può soddisfare il punto più importante, la privacy dei dati, poiché il modello ha pesi aperti, può essere distribuito sui propri server, e nessuna informazione sensibile verrà rivelata a OpenAI o Anthropic. Anche il GPT-OSS-120B sottostante dovrebbe avere questo significato.
Ora capisco perché i nuovi grandi modelli si concentrano sulle capacità degli agenti, l'uso diretto dell'AI da parte delle persone è solo una fase intermedia, gli utenti avanzati stanno già usando l'AI per operare l'AI. Un modello specializzato per ricevere e inviare tutto il contesto dell'AI sarà sicuramente il più utilizzato.


Principali
Ranking
Preferiti
