Ho bruciato 84 milioni di token il 28 febbraio. Ricerca di aziende, redazione di memo, gestione di agenti. Questo è l'utilizzo di Kimi K2.5, un modello serverless tramite API. Ai tassi di Claude o OpenAI — circa 9 dollari per milione di token miscelati — l'uso equivalente costerebbe 756 dollari per un giorno di lavoro. I miei giorni di picco raggiungono 80 milioni di token. I miei giorni medi si attestano su 20 milioni. L'inferenza cloud ai prezzi dei modelli all'avanguardia si accumula rapidamente.
Questa settimana, Alibaba ha rilasciato Qwen3.5-9B, un modello open-source che eguaglia Claude Opus 4.1 di dicembre 2025. Funziona localmente con 12GB di RAM. Tre mesi fa, questa capacità richiedeva un data center. Ora richiede solo una presa di corrente.
Un laptop da 5.000 $ — un MacBook Pro con abbastanza memoria per eseguire Qwen localmente — si ripaga dopo 556 milioni di token. Con il mio tasso di utilizzo, ci vogliono circa un mese. A 20 milioni di token al giorno, sono quattro settimane. Dopo il rimborso, il costo marginale scende all'elettricità. Non si tratta di un compromesso sull'intelligenza. Ragionamento, codifica, flussi di lavoro agentici, elaborazione di documenti, seguire istruzioni: il modello 9B corrisponde alla frontiera di dicembre su tutti i fronti.
@twlvone Maggiore potenza di calcolo non aiuta oltre un certo livello di precisione nella chiamata degli strumenti
76