MASSIF > Étape-3.5-Flash par StepFun > Agentique & MONSTRE de Codage > MoE open source, Apache-2.0 > fonctionne avec un contexte complet sur > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, seulement 11B actifs par token > 256K contexte via attention à fenêtre glissante 3:1 > longues bases de code & longues tâches, coût-efficace pour un long contexte > benchmarks > 74.4% SWE-bench Vérifié > 51.0% Terminal-Bench 2.0 > raisonnement solide, codage solide, agents stables > MoE sparse + routage Top-8 > avec attention à fenêtre glissante > MTP-3 prédit plusieurs tokens à la fois > 100–300 tok/s typique, pics à ~350 tok/s > assez rapide pour des agents parallèles, pas juste pour discuter > apache-2.0 > poids ouverts > fonctionne localement > Macs, DGX Spark, GPU > vLLM, SGLang, Transformers, llama.cpp > c'est ce que "Achetez un GPU" a essayé de vous avertir...