🚨 PRZEŁOM: Badacz Google'a i laureat Nagrody Turinga właśnie opublikowali artykuł, który ujawnia prawdziwy kryzys w AI. To nie jest trening. To wnioskowanie. A sprzęt, którego używamy, nigdy nie był do tego zaprojektowany. Artykuł jest autorstwa Xiaoyu Ma i Davida Pattersona. Przyjęty przez IEEE Computer, 2026. Bez hype'u. Bez premiery produktu. Tylko zimne rozbicie tego, dlaczego obsługa LLM-ów jest zasadniczo zepsuta na poziomie sprzętowym. Główna teza jest brutalna: → FLOPS GPU wzrosły 80 razy od 2012 do 2022 → Przepustowość pamięci wzrosła tylko 17 razy w tym samym okresie → Koszty HBM za GB rosną, a nie maleją → Faza dekodowania jest ograniczona przez pamięć, a nie przez obliczenia → Budujemy wnioskowanie na chipach zaprojektowanych do treningu Oto najdziksza część: OpenAI straciło około 5 miliardów dolarów przy 3,7 miliardach dolarów przychodu. Wąskie gardło nie leży w jakości modelu. To koszt obsługi każdego pojedynczego tokena dla każdego pojedynczego użytkownika. Wnioskowanie wyczerpuje te firmy. A pięć trendów jednocześnie pogarsza sytuację: → Modele MoE, takie jak DeepSeek-V3 z 256 ekspertami, eksplodujące pamięć → Modele rozumowania generujące ogromne łańcuchy myślowe przed odpowiedzią → Multimodalne wejścia (obraz, dźwięk, wideo) przytłaczające tekst → Długie okna kontekstowe obciążające pamięci KV → RAG pipeline'y wprowadzające więcej kontekstu na żądanie Ich cztery proponowane zmiany sprzętowe: → Wysoka przepustowość Flash: 512GB stosy przy przepustowości na poziomie HBM, 10 razy więcej pamięci na węzeł → Przetwarzanie blisko pamięci: układy logiczne umieszczone obok pamięci, a nie na tym samym chipie → 3D Stacking Pamięci-Logiki: pionowe połączenia dostarczające 2-3 razy niższe zużycie energii niż HBM...