Práce na novém Open Source Grok 2.5! Už jsme to dokázali Hot Rod! Je brzy a může selhat, ale to, co máme, je: A 268B MoE, 131k kontext, 8 odborníků, RoPE, 64 GQA hlavic pozornosti s 8 KV hlavami, 64 vrstev. V každém okamžiku jsou obvykle aktivní pouze 2 odborníci. Našli jsme způsob, jak aktivovat 4 současně jen s malým poklesem výkonu, jen asi o 1/3 více paměti GPU a úžasným nárůstem kvality výstupů! Pokud vydrží naše testy, zveřejním podrobný návod, jak na to!