Spaliłem 84 miliony tokenów 28 lutego. Badam firmy, piszę notatki, prowadzę agentów. To działa na Kimi K2.5, modelu bezserwerowym przez API. Przy stawkach Claude'a lub OpenAI — około 9 dolarów za milion tokenów mieszanych — równoważne użycie kosztowałoby 756 dolarów za jeden dzień pracy. Moje szczytowe dni osiągają 80 milionów tokenów. Moje średnie dni to 20 milionów. Wykorzystanie chmury przy cenach modeli na granicy szybko się sumuje.
W tym tygodniu Alibaba wydała Qwen3.5-9B, model open-source, który dorównuje Claude Opus 4.1 z grudnia 2025 roku. Działa lokalnie na 12 GB RAM. Trzy miesiące temu ta funkcjonalność wymagała centrum danych. Teraz wystarczy gniazdko elektryczne.
Laptop za 5 000 dolarów — MacBook Pro z wystarczającą ilością pamięci, aby uruchomić Qwen lokalnie — zwraca się po 556 milionach tokenów. Przy moim tempie użytkowania to około miesiąca. Przy 20 milionach tokenów dziennie to cztery tygodnie. Po zwrocie kosztów, marginalny koszt spada do kosztów energii elektrycznej. To nie jest kompromis w zakresie inteligencji. Rozumowanie, kodowanie, agentowe przepływy pracy, przetwarzanie dokumentów, wykonywanie instrukcji: model 9B odpowiada grudniowej granicy we wszystkich aspektach.
@twlvone Więcej mocy obliczeniowej nie pomaga poza pewnym poziomem dokładności wywoływania narzędzi
82