Met de komende tsunami van vraag naar tokens zijn er aanzienlijke kansen om het onderliggende geheugen+rekenkracht *precies goed* te orkestreren voor LLM's. De fundamentele en niet-voor-de-hand-liggende beperking is dat, vanwege het chipfabricageproces, je twee volledig verschillende geheugenpools krijgt (met ook verschillende fysieke implementaties): 1) on-chip SRAM die onmiddellijk naast de rekeneenheden ligt, die ongelooflijk snel is maar van zeer lage capaciteit, en 2) off-chip DRAM dat een extreem hoge capaciteit heeft, maar waarvan je de inhoud alleen door een lange rietje kunt zuigen. Bovenop dit alles zijn er veel details van de architectuur (bijv. systolische arrays), numeriek, enz. Het ontwerp van het optimale fysieke substraat en vervolgens de orkestratie van geheugen+rekenkracht over de top volumeworkflows van LLM's (inference prefill/decode, training/finetuning, enz.) met de beste doorvoer/latentie/$ is waarschijnlijk de meest interessante intellectuele puzzel van vandaag met de hoogste beloningen (\cite 4.6T van NVDA). Alles om veel tokens snel en goedkoop te krijgen. Arguably is de workflow die het belangrijkst kan zijn (inference decode *en* over lange tokencontexten in strakke agentische lussen) degene die het moeilijkst gelijktijdig te bereiken is door de ~beide kampen van wat er vandaag bestaat (HBM-eerst NVIDIA aangrenzend en SRAM-eerst Cerebras aangrenzend). Hoe dan ook, het MatX-team is van A++-kwaliteit, dus het is mijn genoegen om een kleine betrokkenheid te hebben en gefeliciteerd met de financiering!