MASSIV > Schritt-3.5-Flash von StepFun > Agentic & Coding MONSTER > Open-Source MoE, Apache-2.0 > läuft mit vollem Kontext auf > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, nur 11B aktiv pro Token > 256K Kontext über 3:1 Sliding Window Attention > lange Codebasen & lange Aufgaben, kosteneffizienter Langkontext > Benchmarks > 74,4% SWE-bench Verifiziert > 51,0% Terminal-Bench 2.0 > starkes Denken, starkes Programmieren, stabile Agenten > spärliches MoE + Top-8 Routing > mit Sliding Window Attention > MTP-3 sagt mehrere Tokens gleichzeitig voraus > 100–300 tok/s typisch, Spitzen ~350 tok/s > schnell genug für parallele Agenten, nicht nur zum Chatten > apache-2.0 > offene Gewichte > läuft lokal > Macs, DGX Spark, GPUs > vLLM, SGLang, Transformers, llama.cpp > das ist, was "Kaufe eine GPU" versucht hat, dich zu warnen...