Me pregunto si los hermanos de MiniMax aceptarán públicamente la derrota cuando avancen al #3. Ha sido molesto cómo se jactan del supuesto fracaso del escalado NSA y su genial decisión de optar por GQA (y ni siquiera GQA tan ingeniosa como en StepFun). Modelo rápido, caro y con poca atención.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)hace 10 horas
en cualquier caso, esto supone una mejora enorme respecto a la V3.2, porque esa no era ni de lejos competitiva con Gemini 3 *Flash*, que empezaba a desmoronarse con secuencias 2K. Este probablemente se mantenga > 95% en la zona de los 120K.
No les reprocho la decisión técnica real, de todas formas pueden hacer como los demás y cambiar a DSA/híbrido MLA (o cualquier otra cosa). Su enfoque con M2 ha sido claramente los datos y el entrenamiento, y habían avanzado muchísimo en ese aspecto. Pero era molesto.
518