З наближенням хвилі попиту на токени з'являються значні можливості організувати базову пам'ять+обчислення *ідеально* для LLM. Фундаментальне і не очевидне обмеження полягає в тому, що через процес виготовлення чипа ви отримуєте два абсолютно різні пули пам'яті (різних фізичних реалізацій): 1) вбудована SRAM, яка знаходиться безпосередньо поруч із обчислювальними блоками, надзвичайно швидка, але з дуже низькою ємністю, і 2) позачипова DRAM з надзвичайно великою ємністю, але вміст якої можна лише висмоктати через довгу соломинку. Крім того, є багато деталей архітектури (наприклад, систолічні масиви), чисельна техніка тощо. Проєктування оптимального фізичного субстрату, а потім оркестрація пам'яті+обчислення між робочими процесами LLM з максимальним обсягом (inference, prefill/decode, training/finetuning тощо) з найкращою пропускною здатністю/затримкою/$ — це, мабуть, найцікавіша інтелектуальна головоломка сьогодні з найвищими винагородами (\cite 4.6T NVDA). Все це — щоб швидко і дешево отримати багато токенів. Можна стверджувати, що найважчий робочий процес, який має найбільше значення (декодування виведення *і* у довгих контекстах токенів у вузьких агентних циклах), є найскладнішим для одночасного виконання ~обома таборами, які існують сьогодні (HBM-перша сусідня NVIDIA та SRAM-перша Cerebras). У будь-якому разі, команда MatX має клас A++, тож мені приємно мати невелику участь і вітаю з підвищенням!