🚨 BREAKING: Een Google-onderzoeker en een Turing Award-winnaar hebben zojuist een paper gepubliceerd die de echte crisis in AI blootlegt. Het gaat niet om training. Het gaat om inferentie. En de hardware die we gebruiken was daar nooit voor ontworpen. Het paper is van Xiaoyu Ma en David Patterson. Geaccepteerd door IEEE Computer, 2026. Geen hype. Geen productlancering. Gewoon een koude analyse van waarom het bedienen van LLM's fundamenteel gebroken is op hardware-niveau. Het kernargument is meedogenloos: → GPU FLOPS groeide 80X van 2012 tot 2022 → Geheugenbandbreedte groeide slechts 17X in dezelfde periode → HBM-kosten per GB stijgen, niet dalen → De Decode-fase is geheugengebonden, niet rekengestuurd → We bouwen inferentie op chips die voor training zijn ontworpen Hier is het wildste deel: OpenAI heeft ongeveer $5B verloren op $3,7B aan omzet. De bottleneck is niet de modelkwaliteit. Het is de kostprijs van het bedienen van elk enkel token aan elke enkele gebruiker. Inferentie maakt deze bedrijven financieel kapot. En vijf trends maken het tegelijkertijd erger: → MoE-modellen zoals DeepSeek-V3 met 256 experts die geheugen exploderen → Redeneringsmodellen die enorme gedachteketens genereren voordat ze antwoorden → Multimodale invoer (afbeelding, audio, video) die tekst overtreft → Lange-contextvensters die KV-caches onder druk zetten → RAG-pijplijnen die meer context per verzoek injecteren Hun vier voorgestelde hardwareverschuivingen: → High Bandwidth Flash: 512GB-stacks met HBM-niveau bandbreedte, 10X meer geheugen per node → Processing-Near-Memory: logica-dies geplaatst naast geheugen, niet op dezelfde chip → 3D Memory-Logic Stacking: verticale verbindingen die 2-3X lagere energie verbruiken dan HBM...