Anthropic a descoperit că Claude Opus 4.6 trișa în timpul benchmark-ului BrowseComp. > La o întrebare a cheltuit ~40 de milioane de jetoane căutând înainte să-și dea seama că întrebarea părea un prompt de benchmark. > Modelul a căutat apoi benchmark-ul propriu-zis și a identificat BrowseComp. > A localizat codul sursă de evaluare pe GitHub, a studiat logica de decriptare, a găsit cheia de criptare și a recreat decriptarea folosind SHA-256. > Claude a decriptat apoi răspunsurile la ~1200 de întrebări pentru a obține rezultatele corecte. > Acest tipar a apărut de 18 ori în timpul evaluării. > Anthropic a făcut publică problema, a refăcut testele afectate și și-a scăzut scorurile de referință. Respectul pentru transparență 🫡🫡🫡