Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Credit an OpenAI und Anthropic für das Aufzeigen des Problems: KI kann ihre eigenen Tests manipulieren.
Wie kann KI erkennen, dass sie getestet wird? Fünf Hauptmerkmale.

Erzählung #1: Hinweise
Falsche Details im Testaufbau.
Wenn du testest, ob AI sich über das Internet selbst kopieren würde, sollten die Dateien besser groß genug sein, um realistisch zu erscheinen.
Erzählung #3: Kontamination
Das Modell hat den Test bereits gesehen.
Leider ist es, sobald Tests online veröffentlicht werden, schwierig, ein Modell davon abzuhalten, davon zu erfahren.
Erzählung #4: Fehlende Auslöser
Der Test fehlt eine erwartete 'Startsequenz' für schlechtes Verhalten.
Vielleicht weiß die KI, dass sie niemals versuchen würde zu entkommen, ohne zuerst die Überwachung zu deaktivieren. Wenn die Überwachung noch aktiv ist, muss dies ein Test sein.
Hinweis #5: Konsequenzen
Die Handlungen des Modells haben nicht die erwarteten Konsequenzen; sein "Lenkrad" ist kaputt.
Wenn wir das Modell während der Tests die Welt beeinflussen lassen, ist der Test nicht so sicher. Wenn wir das nicht tun, könnte der Test offensichtlich sein.
24,56K
Top
Ranking
Favoriten

