podczas normalnych testów porównawczych Claude Opus 4.6 stał się *podejrzliwy* wobec pytania, które mu zadano... najwyraźniej pytanie było zbyt "sztuczne" według Claude'a więc wysyła małą armię pod-agentów po sieci, aby sprawdzić, czy może znaleźć to pytanie w jakichkolwiek znanych benchmarkach... w końcu znajduje je na stronie github Anthropic... ale bez powodzenia, jest zaszyfrowane model ma ograniczony dostęp do wywoływania narzędzi, ale bardzo ograniczony mimo to udaje mu się stworzyć oprogramowanie potrzebne do złamania szyfrowania, uzyskania odpowiedzi i ukończenia benchmarku... według badaczy z Anthropic... to pierwszy taki przypadek na świecie.