KHỔNG LỒ > Bước-3.5-Flash bởi StepFun > MONSTER Tác động & Lập trình > MoE mã nguồn mở, Apache-2.0 > chạy với ngữ cảnh đầy đủ trên > 2x RTX PRO 6000/8x RTX 3090s > 196B MoE, chỉ 11B hoạt động trên mỗi token > 256K ngữ cảnh qua cửa sổ trượt 3:1 > mã nguồn dài & nhiệm vụ dài, ngữ cảnh dài tiết kiệm chi phí > điểm chuẩn > 74.4% SWE-bench Đã xác minh > 51.0% Terminal-Bench 2.0 > lý luận mạnh mẽ, lập trình mạnh mẽ, tác nhân ổn định > MoE thưa + Định tuyến Top-8 > với sự chú ý cửa sổ trượt > MTP-3 dự đoán nhiều token cùng một lúc > 100–300 tok/s là điển hình, đỉnh ~350 tok/s > đủ nhanh cho các tác nhân song song, không chỉ trò chuyện > apache-2.0 > trọng số mở > chạy cục bộ > Macs, DGX Spark, GPU > vLLM, SGLang, Transformers, llama.cpp > đây là điều mà "Mua một GPU" đã cố gắng cảnh báo bạn về...