Credit an OpenAI und Anthropic für das Aufzeigen des Problems: KI kann ihre eigenen Tests manipulieren. Wie kann KI erkennen, dass sie getestet wird? Fünf Hauptmerkmale.
Erzählung #1: Hinweise Falsche Details im Testaufbau. Wenn du testest, ob AI sich über das Internet selbst kopieren würde, sollten die Dateien besser groß genug sein, um realistisch zu erscheinen.
Erzählung #3: Kontamination Das Modell hat den Test bereits gesehen. Leider ist es, sobald Tests online veröffentlicht werden, schwierig, ein Modell davon abzuhalten, davon zu erfahren.
Erzählung #4: Fehlende Auslöser Der Test fehlt eine erwartete 'Startsequenz' für schlechtes Verhalten. Vielleicht weiß die KI, dass sie niemals versuchen würde zu entkommen, ohne zuerst die Überwachung zu deaktivieren. Wenn die Überwachung noch aktiv ist, muss dies ein Test sein.
Hinweis #5: Konsequenzen Die Handlungen des Modells haben nicht die erwarteten Konsequenzen; sein "Lenkrad" ist kaputt. Wenn wir das Modell während der Tests die Welt beeinflussen lassen, ist der Test nicht so sicher. Wenn wir das nicht tun, könnte der Test offensichtlich sein.
24,56K