MASSIV > Step-3.5-Flash av StepFun > Agentisk og koding MONSTER > åpen kildekode MoE, Apache-2.0 > kjører med full kontekst på > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, kun 11B aktive per token > 256K-kontekst via 3:1 skyvevindu. Oppmerksomhet > lange kodebaser og lange oppgaver, kostnadseffektiv langkontekst > referansepunkter > 74,4 % SWE-benk Verifisert > 51,0 % Terminal-Bench 2.0 > sterk resonnement, sterk koding, stabile agenter > sparsom MoE + Top-8 ruting > med glidende vindus-oppmerksomhet > MTP-3 forutsier flere tokens samtidig > typisk 100–300 tok/s, topper ~350 tok/s > raskt nok for parallelle agenter, ikke bare for å chatte > Apache-2.0 > åpne vekter > går lokalt > Mac-er, DGX Spark, GPU-er > vLLM, SGLang, Transformers llama.cpp > dette er det "Kjøp et grafikkort" prøvde å advare deg om...