MASSIEF > Stap-3.5-Flash door StepFun > Agentic & Coding MONSTER > opensource MoE, Apache-2.0 > draait met volledige context aan > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, slechts 11B actief per token > 256K context via 3:1 sliding window attention > lange codebases & lange taken, kosteneffectieve lange context > benchmarks > 74.4% SWE-bench Geverifieerd > 51.0% Terminal-Bench 2.0 > sterke redenering, sterke codering, stabiele agenten > sparse MoE + Top-8 routing > met sliding window attention > MTP-3 voorspelt meerdere tokens tegelijk > 100–300 tok/s typisch, pieken ~350 tok/s > snel genoeg voor parallelle agenten, niet alleen voor chatten > apache-2.0 > openweights > draait lokaal > Macs, DGX Spark, GPU's > vLLM, SGLang, Transformers, llama.cpp > dit is waar "Koop een GPU" je voor probeerde te waarschuwen...