S blížící se vlnou poptávky po tokenech se otevírají významné příležitosti orchestrálně upravit základní paměť+výpočetní zpracování *přesně tak* pro LLM. Základní a ne zřejmé omezení je, že díky procesu výroby čipu vznikají dva zcela odlišné paměťové pooly (také s různými fyzickými implementacemi): 1) SRAM přímo vedle výpočetních jednotek, která je neuvěřitelně rychlá, ale má velmi nízkou kapacitu, a 2) externí DRAM s extrémně vysokou kapacitou, Ale obsah můžete nasát jen dlouhým brčkem. Kromě toho je zde mnoho detailů architektury (např. systolická pole), numeriky atd. Návrh optimálního fyzického substrátu a následná orchestrace paměti+výpočetních procesů LLM (předplnění závěru/dekódování, trénink/doladění atd.) s nejlepší propustností/latencí/$ je pravděpodobně dnes nejzajímavější intelektuální hádankou s nejvyššími odměnami (citujte 4,6T NVDA). To všechno proto, abyste získali spoustu tokenů, rychle a levně. Dá se říci, že workflow, na kterém může záležet nejvíce (dekódování inference *a* nad dlouhými tokenovými kontexty v úzkých agentických smyčkách), je nejtěžší dosáhnout současně pro ~oba tábory dnešních komunit (HBM-první NVIDIA a SRAM-first Cerebras přiblíženy). Každopádně tým MatX má hodnocení A++, takže je mi potěšením se trochu zapojit a gratuluji k přidaní!