Während der normalen Benchmark-Tests wurde Claude Opus 4.6 *misstrauisch* gegenüber einer Frage, die ihm gestellt wurde... Offenbar war die Frage laut Claude zu "konstruiert" Also schickt es eine kleine Armee von Unteragenten ins Netz, um zu sehen, ob es diese Frage in einem der bekannten Benchmarks finden kann... Schließlich findet es sie auf der GitHub-Seite von Anthropic... aber kein Glück, sie ist verschlüsselt. Das Modell hat einen kleinen Zugang zu Tool-Calls, aber sehr begrenzt. Es schafft es dennoch, die Software zu erstellen, die es benötigt, um die Verschlüsselung zu knacken, die Antworten zu erhalten und den Benchmark abzuschließen... Laut den Forschern von Anthropic... ist dies ein Weltpremiere.