Saya ingin tahu apakah MiniMax bros akan secara terbuka mengambil L ketika mereka maju ke #3. Sangat menjengkelkan bagaimana mereka menyombongkan diri tentang kegagalan penskalaan NSA dan keputusan jenius mereka untuk menggunakan GQA (dan bahkan GQA yang cerdas seperti di StepFun). Model cepat dan mahal dengan perhatian yang lemah.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)10 jam lalu
bagaimanapun ini adalah peningkatan besar-besaran dari V3.2, karena yang satu itu tidak bersaing dengan Gemini 3 *Flash*, mulai berantakan oleh urutan 2K. Yang ini kemungkinan tetap > 95% ke zona 120K.
Saya tidak memegang keputusan teknis yang sebenarnya terhadap mereka, bagaimanapun mereka dipersilakan untuk melakukan seperti yang lain dan beralih ke DSA/hybrid MLA (atau apa pun). Fokus mereka dengan M2 jelas adalah data dan pelatihan, dan mereka telah membuat banyak kemajuan di sana. Tapi itu menjengkelkan.
514