MASSIV > Step-3.5-Flash av StepFun > Agentic & Coding MONSTER > öppen källkod MoE, Apache-2.0 > körs med full kontext på > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, endast 11B aktiva per token > 256K-kontext via 3:1 glidande fönster uppmärksamhet > långa kodbaser och långa uppgifter, kostnadseffektiv långkontext > riktmärken > 74,4 % SWE-bench verifierad > 51,0 % Terminal-Bench 2.0 > starkt resonemang, stark kodning, stabila agenter > gles MoE + Top-8-ruttning > med glidande fönster uppmärksamhet > MTP-3 förutspår flera tokens samtidigt > typiskt 100–300 tok/s, toppar ~350 tok/s > tillräckligt snabbt för parallella agenter, inte bara för att chatta > Apache-2.0 > öppna vikter > körs lokalt > Macs, DGX Spark, GPU:er > vLLM, SGLang, Transformers, llama.cpp > det var vad "Köp ett grafikkort" försökte varna dig för...