MASIVNÍ > Step-3.5-Flash od StepFun > Agentic & Coding MONSTER > opensource MoE, Apache-2.0 > běží s plným kontextem zapnutým > 2x RTX PRO 6000/8x RTX 3090 > MoE 196B, pouze 11B aktivních na token > 256K kontextu přes 3:1 posuvné okno pozornosti > dlouhé kódové základny a dlouhé úkoly, nákladově efektivní dlouhodobý kontext > benchmarky > 74,4 % SWE-bench ověřeno > 51,0 % Terminální lavičky 2,0 > silné uvažování, silné kódování, stabilní agenti > řídké vedení Ministerstva výpravy + Top-8 trasování > s posuvným oknem pozornosti > MTP-3 předpovídá více tokenů najednou > Typické 100–300 tok/s, vrcholy ~350 tok/s > dost rychlé na paralelní agenty, nejen na chatování > Apache-2.0 > otevřené váhy > jezdí lokálně > Macy, DGX Spark, GPU > vLLM, SGLang, Transformers llama.cpp > tohle je to, na co se vás "Kupte GPU" snažil varovat...