🚨 UUTINEN: Googlen tutkija ja Turing-palkinnon voittaja julkaisi juuri artikkelin, joka paljastaa tekoälyn todellisen kriisin. Se ei ole harjoittelua. Se on päättelyä. Ja käyttämämme laitteisto ei ole koskaan suunniteltu siihen. Artikkelin ovat kirjoittaneet Xiaoyu Ma ja David Patterson. Hyväksytty IEEE Computerin toimesta, 2026. Ei hypeä. Ei tuotteen lanseerausta. Vain kylmä selitys siitä, miksi LLM:ien palveleminen on perustavanlaatuisesti rikki laitteistotasolla. Ydinargumentti on julma: → GPU:n FLOPS kasvoi 80-kertaiseksi vuosina 2012–2022 → Muistin kaistanleveys kasvoi vain 17-kertaiseksi samana ajanjaksona → HBM-hinnat per GB nousevat, eivät laskevat → Dekoodausvaihe on muistisidonnainen, ei laskentarajoitettu → Rakennamme päättelyä siruista, jotka on suunniteltu koulutusta varten Tässä on villein osa: OpenAI menetti noin 5 miljardia dollaria 3,7 miljardin dollarin liikevaihdolla. Pullonkaula ei ole mallin laatu. Se on jokaisen tokenin palvelemisen kustannus jokaiselle käyttäjälle. Päättelyt imevät nämä yritykset tyhjiin. Viisi trendiä pahentavat tilannetta samanaikaisesti: → MoE-mallit, kuten DeepSeek-V3, jossa 256 asiantuntijaa räjähtää muistia → Päättelymallit luovat valtavia ajatusketjuja ennen vastausta → Multimodaalitulot (kuva, ääni, video) pienentävät tekstiä → Pitkän kontekstin ikkunat, jotka rasittavat KV-välimuistija → RAG-putket lisäävät kontekstia per pyyntö Heidän neljä ehdotettua laitteistomuutostaan: → Korkean kaistanleveyden flash: 512GB pinoa HBM-tason kaistanleveydellä, 10 kertaa enemmän muistia per solmu → Processing-Near-Memory: logiikka-muotit sijoitetaan muistin viereen, eivät samalle sirulle → 3D-muisti-logiikkapino: pystysuorat yhteydet, jotka tuottavat 2–3 kertaa vähemmän tehoa kuin HBM...