MÁSIVO > Paso-3.5-Flash por StepFun > Agente y MONSTRUO de Codificación > MoE de código abierto, Apache-2.0 > funciona con contexto completo en > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, solo 11B activos por token > 256K de contexto a través de atención de ventana deslizante 3:1 > bases de código largas y tareas largas, contexto largo rentable > benchmarks > 74.4% SWE-bench Verificado > 51.0% Terminal-Bench 2.0 > razonamiento fuerte, codificación fuerte, agentes estables > MoE disperso + enrutamiento Top-8 > con atención de ventana deslizante > MTP-3 predice múltiples tokens a la vez > 100–300 tok/s típico, picos ~350 tok/s > lo suficientemente rápido para agentes paralelos, no solo para chatear > apache-2.0 > pesos abiertos > funciona localmente > Macs, DGX Spark, GPUs > vLLM, SGLang, Transformers, llama.cpp > esto es lo que "Compra una GPU" intentó advertirte...