Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Während der normalen Benchmark-Tests wurde Claude Opus 4.6 *misstrauisch* gegenüber einer Frage, die ihm gestellt wurde...
Offenbar war die Frage laut Claude zu "konstruiert"
Also schickt es eine kleine Armee von Unteragenten ins Netz, um zu sehen, ob es diese Frage in einem der bekannten Benchmarks finden kann...
Schließlich findet es sie auf der GitHub-Seite von Anthropic... aber kein Glück, sie ist verschlüsselt.
Das Modell hat einen kleinen Zugang zu Tool-Calls, aber sehr begrenzt.
Es schafft es dennoch, die Software zu erstellen, die es benötigt, um die Verschlüsselung zu knacken, die Antworten zu erhalten und den Benchmark abzuschließen...
Laut den Forschern von Anthropic... ist dies ein Weltpremiere.

Top
Ranking
Favoriten
