Token talebinin yaklaşan tsunamisiyle, LLM'ler için temel bellek+hesaplama *tam doğru* düzenleme fırsatları var. Temel ve bariz olmayan kısıtlama, çip üretim süreci nedeniyle iki tamamen farklı bellek havuzu elde etmesidir (farklı fiziksel uygulamalara da): 1) hesaplama birimlerinin hemen yanında olan ve inanılmaz hızlı ama çok düşük kapasiteye sahip çip içi SRAM ve 2) çok yüksek kapasiteye sahip çip dışı DRAM, ama içeriğini uzun bir pipetten emebilirsiniz. Bunun üstüne, mimarinin birçok detayı (örneğin sistolik diziler), sayısal sistemler vb. vardır. Optimal fiziksel substratın tasarımı ve ardından LLM'lerin en üst hacimli iş akışlarında (çıkarım ön doldurma/çözme, eğitim/ince ayarlama vb.) en iyi veri aktarımı/gecikme/$ ile bellek+hesaplamanın orkestrasyonu, muhtemelen günümüzün en ilginç entelektüel bulmacasıdır ve en yüksek ödülleri verir (\ 4.6T NVDA). Hepsi hızlı ve ucuz çok sayıda token elde etmek için. Tartışmasız, en önemli iş akışı (çıkarım çözme *ve* uzun token bağlamlarında sıkı ajanik döngülerde) bugün var olanların ~her iki kampı (HBM-önce NVIDIA komşu ve SRAM öncesi Cerebras) tarafından aynı anda elde edilmesi en zor olanıdır. Her neyse, MatX ekibi A++ derecesinde, bu yüzden küçük bir katılım olduğu için benim için bir zevk ve zam için tebrikler!