• 20 de agosto: xAI diz que se um modelo estiver >50% no MASK, ele aciona seu limite de "perda de controle"
• 26 de agosto: Grok CF1 obteve 72% e xAI disse que não representa um risco
Parece que o verdadeiro MASK não é um benchmark assustador e o xAI deve explicar por que eles mudaram de ideia ao longo de uma semana