ENORME > Paso 3.5-Flash por StepFun > Agentic & Coding MONSTER > MoE de código abierto, Apache-2.0 > se ejecuta con el contexto completo en > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, solo 11 mil millones activos por token > 256K contexto mediante ventana deslizante 3:1 atención > bases de código largas y tareas largas, contexto largo rentable > Referencias > 74,4% Verificado por el banco de SWE > 51,0% Terminal Bench 2,0 > razonamiento fuerte, codificación sólida, agentes estables > MoE disperso + enrutamiento Top-8 > con ventana corredera de atención > MTP-3 predice múltiples tokens a la vez > 100–300 tok/s típicos, picos ~350 tok/s > lo suficientemente rápido para agentes paralelos, no solo charlando > Apache-2.0 > Peso abierto > se emite localmente > Macs, DGX Spark, GPUs > vLLM, SGLang, Transformers llama.cpp > esto es lo que "Compra una GPU" intentó advertirte...