• 20 sierpnia: xAI mówi, że jeśli model ma >50% na MASK, to uruchamia swój próg "utraty kontroli".
• 26 sierpnia: Grok CF1 uzyskał 72%, a xAI powiedział, że nie stanowi to ryzyka.
Wydaje się, że obie te rzeczy są prawdziwe, MASK nie jest bardzo przerażającym benchmarkiem, a xAI powinno wyjaśnić, dlaczego zmieniło zdanie w ciągu tygodnia.