🚨 AKTUÁLNÍ: Výzkumník Googlu a držitel Turingovy ceny právě publikoval článek, který odhaluje skutečnou krizi v AI. Není to trénink. Je to domněnka. A hardware, který používáme, pro to nikdy nebyl navržen. Článek napsali Xiaoyu Ma a David Patterson. Přijato společností IEEE Computer, 2026. Žádný humbuk. Žádné uvedení produktu na trh. Jen stručné rozbor toho, proč je obsluha LLM na hardwarové úrovni zásadně rozbitá. Hlavní argument je brutální: → GPU FLOPS vzrostl 80x mezi lety 2012 a 2022 → Šířka pásma pamětí vzrostla ve stejném období pouze 17x → náklady na HBM na GB rostou, nikoli klesají → Fáze Dekódování je vázaná na paměť, nikoli na výpočetní → Budujeme inferenci na čipech určených pro trénink Tady je ta nejdivočejší část: OpenAI přišlo přibližně o 5 miliard dolarů při tržbách 3,7 miliardy dolarů. Úzké hrdlo není v kvalitě modelu. Je to cena za to, že každý token bude dostupný každému uživateli. Závěry tyto společnosti vysávají. A pět trendů to současně zhoršuje: → MoE modely jako DeepSeek-V3 s 256 experty explodující paměti → Modely uvažování generují masivní řetězce myšlenek před odpovědí → Multimodální vstupy (obraz, zvuk, video) překrývající text → Okna s dlouhým kontextem namáhající KV cache → RAG pipeline, které vstřikují více kontextu na požadavek Jejich čtyři navrhované hardwarové změny: → Flash s vysokou šířkou pásma: 512GB stacků na úrovni HBM, 10x více paměti na uzel → Zpracování téměř paměti: logické čipy umístěné vedle paměti, nikoli na stejném čipu → 3D paměťové a logické stacking: vertikální připojení poskytující 2–3krát nižší spotřebu než HBM...