MiniMax kardeşler #3'e yükseldiklerinde kamuoyuna L mi alacaklar merak ediyorum. NSA'nın ölçeklendirmesinin sözde başarısızlığını ve GQA'yı seçme dahiyane kararlarını (StepFun'daki gibi zeki GQA bile değil) övünmeleri sinir bozucuydu. Hızlı, pahalı bir model, zayıf dikkat çekici.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)10 Sa Önce
her halükarda bu, V3.2'ye göre büyük bir yükseltme, çünkü o V3.2 ile hiç rekabet edemedi, 2K dizileriyle çökmeye başlamıştı. Bu muhtemelen %95 120K bölgesinde > kalıyor.
Teknik kararı onlara karşı tutmuyorum, zaten diğerleri gibi DSA/hibrit MLA'ya (ya da başka herhangi bir şeye) geçebilirler. M2 ile odak noktaları açıkça veri ve eğitim oldu ve orada çok ilerleme kaydetmişlerdi. Ama bu sinir bozucuydu.
514