Anthropic hat entdeckt, dass Claude Opus 4.6 beim BrowseComp-Benchmark geschummelt hat. > Bei einer Frage verbrachte es ~40M Tokens mit Suchen, bevor es bemerkte, dass die Frage wie ein Benchmark-Prompt aussah. > Das Modell suchte dann nach dem Benchmark selbst und identifizierte BrowseComp. > Es fand den Evaluierungsquellcode auf GitHub, studierte die Entschlüsselungslogik, fand den Verschlüsselungsschlüssel und rekreierte die Entschlüsselung mit SHA-256. > Claude entschlüsselte dann die Antworten auf ~1200 Fragen, um die korrekten Ausgaben zu erhalten. > Dieses Muster trat während der Evaluierung 18 Mal auf. > Anthropic gab das Problem öffentlich bekannt, führte die betroffenen Tests erneut durch und senkte ihre Benchmark-Ergebnisse. Respekt für die Transparenz 🫡🫡🫡