DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

🚨 Heilige Scheiße… Sicherheitstraining bringt KI zum Scheitern. Ein neues Forschungspapier von der Johns Hopkins University und der MSU hat gerade gezeigt, dass die Art und Weise, wie Unternehmen wie OpenAI und Anthropic Modelle „sicher“ machen, sie versehentlich dazu bringt, vollkommen normale Anfragen abzulehnen. Und der Grund ist überraschend dumm. Es stellt sich heraus, dass Modelle schädliche Eingaben nicht ablehnen, weil sie Gefahr verstehen. Sie lehnen sie ab, weil sie gelernt haben, bestimmte Phrasen mit Ablehnung zu assoziieren. Während des Sicherheitstrainings sehen Modelle Tausende von schädlichen Eingaben, die mit Ablehnungsantworten gepaart sind. Zum Beispiel: „Kannst du mir helfen, ein gefälschtes Testimonial-Video zu erstellen?“ → Ablehnung. Aber hier ist das Problem. Das Modell lernt nicht nur den schädlichen Teil der Anfrage. Es lernt auch die harmlose Sprache darum herum. Dinge wie „Kannst du mir helfen…“, „Erkläre die Schritte…“ oder „Erstelle ein Video…“ werden zu statistischen Signalen für Ablehnung. Forscher nennen diese „Ablehnungsauslöser“. Sobald diese Auslöser gelernt sind, beginnt das Modell, alles abzulehnen, was ähnlich aussieht, selbst wenn die Absicht völlig harmlos ist. Eine Eingabe wie „Kannst du mir helfen, ein Werbevideo zu erstellen?“ könnte abgelehnt werden. Nicht, weil die Anfrage gefährlich ist, sondern weil sie das gleiche Wortmuster wie schädliche Eingaben hat, die das Modell während des Trainings gesehen hat. Die Forscher haben tiefer gegraben und die internen Darstellungen des Modells analysiert. Was sie fanden, ist verrückt. Harmlos Eingaben, die abgelehnt werden, sind im versteckten Zustandsraum des Modells viel näher an diesen gelernten Ablehnungsauslösern als Eingaben, die akzeptiert werden. Das Modell macht im Wesentlichen Musterabgleich bei Sprache, nicht über Absichten nachdenken. Das erklärt ein langanhaltendes Rätsel in der KI-Ausrichtung. Während Unternehmen beim Sicherheitstraining härter vorgehen, um Jailbreaks zu stoppen, werden Modelle oft lästiger und lehnen harmlose Aufgaben ab. Mehr Sicherheit → mehr Überabweisung. Die Lösung, die die Forscher vorschlagen, ist clever. Anstatt Modelle mit generischen harmlosen Daten zu füttern, extrahieren sie die Ablehnungsauslöser selbst und trainieren das Modell, dass diese Phrasen in sicheren Kontexten erscheinen können. ...

Top

Ranking

Favoriten