Fico pensando se os irmãos da MiniMax vão assumir a derrota publicamente quando avançarem para o #3. Tem sido irritante como eles se vangloriaram do suposto fracasso do escalonamento da NSA e da decisão genial de escolher o GQA (e nem mesmo o GQA inteligente como em StepFun). Modelo rápido, caro e com pouca atenção.
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)10 horas atrás
de qualquer forma, isso é uma grande atualização em relação à V3.2, porque essa não era nem de longe competitiva com o Gemini 3 *Flash*, começando a desmoronar com as sequências 2K. Essa provavelmente fica > 95% na zona de 120K.
Não guardo rancor pela decisão técnica em si, de qualquer forma eles podem fazer como os outros e mudar para DSA/híbrido MLA (ou qualquer outra coisa). O foco deles com o M2 claramente foi dados e treinamento, e eles fizeram muito progresso nesse aspecto. Mas era irritante.
517