Me pregunto si los MiniMax bros admitirán públicamente su error cuando avancen al #3. Ha sido molesto cómo se jactaron del supuesto fracaso de la escalabilidad de NSA y de su genial decisión de optar por GQA (y ni siquiera un GQA ingenioso como en StepFun). Modelo rápido y caro con atención débil.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)Hace 10 horas
en cualquier caso, esta es una mejora masiva sobre V3.2, porque esa no era ni de cerca competitiva con Gemini 3 *Flash*, comenzando a desmoronarse en secuencias de 2K. Este probablemente se mantenga > 95% en la zona de 120K.
No les tengo en cuenta la decisión técnica real, de todos modos son bienvenidos a hacer como los demás y cambiar a DSA/MLA híbrido (o cualquier otra cosa). Su enfoque con M2 ha sido claramente en los datos y el entrenamiento, y han hecho un montón de progreso allí. Pero fue molesto.
516