MASSIVO > Passo-3.5-Flash di StepFun > Agente e Coding MONSTER > MoE open source, Apache-2.0 > funziona con contesto completo su > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, solo 11B attivi per token > 256K contesto tramite attenzione a finestra scorrevole 3:1 > lunghe codebase e compiti lunghi, lungo contesto a costo efficiente > benchmark > 74.4% SWE-bench Verificato > 51.0% Terminal-Bench 2.0 > forte ragionamento, forte coding, agenti stabili > sparse MoE + routing Top-8 > con attenzione a finestra scorrevole > MTP-3 prevede più token contemporaneamente > 100–300 tok/s tipico, picchi ~350 tok/s > abbastanza veloce per agenti paralleli, non solo per chiacchierare > apache-2.0 > pesi aperti > funziona localmente > Macs, DGX Spark, GPU > vLLM, SGLang, Transformers, llama.cpp > questo è ciò di cui "Compra una GPU" ha cercato di avvertirti...