Con l'imminente tsunami di domanda per i token, ci sono opportunità significative per orchestrare la memoria+calcolo sottostante *proprio nel modo giusto* per i LLM. Il vincolo fondamentale e non ovvio è che, a causa del processo di fabbricazione dei chip, si ottengono due pool di memoria completamente distinti (anche di diverse implementazioni fisiche): 1) SRAM on-chip che è immediatamente accanto alle unità di calcolo, incredibilmente veloce ma di capacità molto bassa, e 2) DRAM off-chip che ha una capacità estremamente alta, ma il cui contenuto può essere estratto solo attraverso una lunga cannuccia. Inoltre, ci sono molti dettagli dell'architettura (ad es. array sistolici), numeri, ecc. La progettazione del substrato fisico ottimale e poi l'orchestrazione della memoria+calcolo attraverso i flussi di lavoro volumetrici superiori dei LLM (inference prefill/decode, training/finetuning, ecc.) con il miglior throughput/latency/$ è probabilmente il puzzle intellettuale più interessante di oggi con le ricompense più elevate (\cite 4.6T di NVDA). Tutto ciò per ottenere molti token, velocemente e a basso costo. Si potrebbe sostenere che il flusso di lavoro che potrebbe contare di più (inference decode *e* su lunghi contesti di token in loop agentici stretti) è quello più difficile da realizzare simultaneamente dai ~due campi di ciò che esiste oggi (HBM-first adiacente a NVIDIA e SRAM-first adiacente a Cerebras). Comunque, il team di MatX è di grado A++, quindi è un piacere avere un piccolo coinvolgimento e congratulazioni per il finanziamento!