• 20 agosto: xAI afferma che se un modello è >50% su MASK attiva la sua soglia di "perdita di controllo".
• 26 agosto: Grok CF1 ha ottenuto il 72% e xAI ha detto che non rappresenta un rischio.
Sembra che entrambi siano veri: MASK non è un benchmark molto spaventoso e xAI dovrebbe spiegare perché ha cambiato idea nel corso di una settimana.