Tokenien kysynnän lähestyessä on merkittäviä mahdollisuuksia orkestroida taustalla oleva muisti+laskenta *juuri sopivasti* LLM:ille. Perustavanlaatuinen ja ei-ilmeinen rajoite on, että sirun valmistusprosessin seurauksena saat kaksi täysin erilaista muistipoolia (myös eri fyysisistä toteutuksista): 1) sirun sisäinen SRAM, joka sijaitsee heti laskentayksiköiden vieressä, on uskomattoman nopea mutta hyvin pienikapasiteettinen, ja 2) sirun ulkopuolinen DRAM, jolla on erittäin suuri kapasiteetti, Mutta sisältöä voi vain imeä pitkän pilven läpi. Tämän lisäksi arkkitehtuurissa on monia yksityiskohtia (esim. systoliset taulukot), numeeriset jne. Optimaalisen fyysisen alustan suunnittelu ja muistin+laskennan orkestrointi LLM:ien ylimpien volyymityönkulujen (päättelyesitäyttö/dekoodaus, koulutus/hienosäätö jne.) parhaalla läpäisevyydellä/viiveellä/$ on todennäköisesti tämän päivän mielenkiintoisin älyllinen pulma, jossa on suurimmat palkinnot (\cite 4.6T NVDA:ssa). Kaikki tämä saadakseni paljon tokeneita, nopeasti ja halvalla. Voidaan väittää, että työnkulku, jolla voi olla eniten merkitystä (päättelydekoodaus *ja* pitkissä token-konteksteissa tiukoissa agenttisissa silmukoissa) on vaikein saavuttaa samanaikaisesti ~molempien nykyisten leirien (HBM-ensimmäinen NVIDIA-viereinen ja SRAM-ensimmäinen Cerebras-viereinen). Joka tapauksessa MatX-tiimi on A++-tasolla, joten on ilo saada pieni osallistuminen ja onnea palkankorotuksesta!