巨大的 > 第3.5步-逐步闪光由StepFun提供 > 代理与编码怪兽 > 开源MoE,Apache-2.0 > 在 > 2x RTX PRO 6000/8x RTX 3090s上运行全上下文 > 196B MoE,每个令牌仅11B活跃 > 通过3:1滑动窗口注意力256K上下文 > 长代码库和长任务,成本效益高的长上下文 > 基准测试 > 74.4% SWE-bench验证 > 51.0% Terminal-Bench 2.0 > 强大的推理,强大的编码,稳定的代理 > 稀疏MoE + Top-8路由 > 结合滑动窗口注意力 > MTP-3一次预测多个令牌 > 典型速度100–300 tok/s,峰值约350 tok/s > 足够快以支持并行代理,而不仅仅是聊天 > apache-2.0 > 开放权重 > 本地运行 > Macs,DGX Spark,GPU > vLLM,SGLang,Transformers,llama.cpp > 这就是“购买GPU”试图警告你的事情...