Çıkarım hesaplaması, bu on yılın sonunda büyük bir hesaplama iş yükü olmaya doğru ilerliyor. Bence bu, eğitimden çok daha büyük olacak (özellikle gerçek hayatta eğitim uygulamaları / çıkarım ihtiyaçlarını dikkate alırsanız). Ve donanım, platformlar ve modeller açısından hâlâ açık bir oyun alanı. Ayrıca, insanların düşük gecikme için ekstra ödeme yapmaya istekli olduğu giderek daha net hale geliyor. Donanım tarafında dikkat edilmesi gereken birkaç ilginç yön var: - SRAM tarzı kurulumlar umut verici görünüyor (Cerebras'ta GPT Spark, Nvidia'nın Groq satın alması) - Bölünmüş sistemler (bir makinede / işlemcide ön doldurma, farklı bir işlemcide üretim) muhtemelen çok mantıklı. Ön doldurma ile kod çözmenin hesaplama özellikleri o kadar farklıdır ki, donanım seviyesinde uzmanlaşmak verimlilik artışı sağlar - Ayrıca Taalas çipi / yakın bellek hesaplama gibi daha egzotik teknolojileri de göz ardı etmem. Büyük ölçekli dağıtımdan hâlâ oldukça uzakta olsalar da, verimlilik artışı için ekonomik baskı bir katalizör olabilir Algoritma / mimari tarafında: - Neredeyse her büyük açık ağırlık modelinin en az bir optimizasyonu vardır ve bu da çıkarım için daha hızlı olur. İster MoE, ister SSM (ya da başka bir hibrit tür), ister kayan pencere ya da seyrek dikkat olsun. Burada bir yıl öncesine göre daha fazla fark var. Ve nerede birleştiğimizi görmek ilginç olacak. - Difüzyon modelleri ön doldurma / kod çözme bölünmesini birleştirir mi? - Model, donanım ve iş yükünün ortak tasarımında büyük kazanımlar elde edileceğine hâlâ inanıyorum Ayrıca gelecekte herkese uyan tek bir çözümümüz olacağını da sanmıyorum: - Bulut tabanlı modeller, kenar optimize edilmiş modellerden çok farklı görünebilir - Modeller, konuşlandırıldıkları donanım için giderek daha fazla ortak tasarlanmış olabilir - Gecikme ile güç verimliliği / maliyeti arasında en az bir düğme bulunur.