inferência deepseek v3 (MLA e DSA) (otimizada para estabilidade numérica para rollouts de RL) chegando ao nmoe (desempenho vs cerebras para referência)