ENORME > Step-3.5-Flash pela StepFun > Agentic & Coding MONSTER > MoE opensource, Apache-2.0 > roda com o contexto completo em > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, apenas 11 bilhões ativos por token > 256K contexto via janela deslizante 3:1 atenção > bases de código longas e tarefas longas, contexto longo econômico > Referências > 74,4% Verificados por SWE-bench > 51,0% Terminal-Bench 2.0 > raciocínio forte, codificação forte, agentes estáveis > MoE esparso + roteamento Top-8 > com janela deslizante atenção. > MTP-3 prevê múltiplos tokens ao mesmo tempo > 100–300 tok/s típico, picos ~350 tok/s > rápido o suficiente para agentes paralelos, não só para conversar > apache-2.0 > Pesos abertos > funciona localmente > Macs, DGX Spark, GPUs > vLLM, SGLang, Transformers, llama.cpp > é isso que "Compre uma GPU" tentou te alertar...