Jobber med den nye Open Source Grok 2.5! Vi har vært i stand til å Hot Rod det allerede!! Det er tidlig, og det kan mislykkes, men det vi har er: En 268B MoE, 131k kontekst, 8 eksperter, RoPE, 64 GQA oppmerksomhetshoder med 8 KV-hoder, 64 lag. Til enhver tid er bare 2 eksperter normalt aktive. Vi har funnet en måte å aktivere 4 samtidig med bare et lite ytelsesfall, omtrent 1/3 mer GPU-minne og en forbløffende økning i kvalitetsutganger! Hvis det opprettholder testene våre, vil jeg publisere en detaljert hvordan!