MASSIVO > Passo-3.5-Flash da StepFun > Agente e MONSTRO de Codificação > MoE de código aberto, Apache-2.0 > funciona com contexto completo em > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, apenas 11B ativos por token > 256K de contexto via atenção de janela deslizante 3:1 > bases de código longas e tarefas longas, custo-efetivo para longos contextos > benchmarks > 74.4% SWE-bench Verificado > 51.0% Terminal-Bench 2.0 > raciocínio forte, codificação forte, agentes estáveis > MoE esparso + Roteamento Top-8 > com atenção de janela deslizante > MTP-3 prevê múltiplos tokens de uma vez > 100–300 tok/s típico, picos ~350 tok/s > rápido o suficiente para agentes paralelos, não apenas para conversar > apache-2.0 > pesos abertos > funciona localmente > Macs, DGX Spark, GPUs > vLLM, SGLang, Transformers, llama.cpp > isso é o que “Compre uma GPU” tentou te avisar...