Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Warum KI-Agenten bei Zeit und Kontext scheitern und wie schlechte Trainingsdaten das Problem verschärfen!
Ein kritisches neues Papier liefert eine ernüchternde Einsicht: Die meisten KI-Agenten werden nicht gefährlich, weil sie die Benutzeranweisungen missverstehen, sondern weil sie Zeit und Kontext grundlegend missverstehen.
Das Kernproblem wird klar veranschaulicht:
Eine Aktion wie "die Mikrowelle einschalten" ist nur sicher, wenn sich kein Metall darin befindet. Statische Regeln und vage, auf Aufforderungen basierende Warnungen können dies nicht erkennen. Viele Gefahren entstehen nicht aus einer einzelnen Aktion, sondern aus einer Abfolge: Es ist in Ordnung, einen Herd einzuschalten; ihn einzuschalten und dann zu vergessen, ihn auszuschalten, ist es nicht.
Die vorgeschlagene Lösung, RoboSafe, führt Laufzeit-Schutzmaßnahmen ein, die bidirektionales Denken ermöglichen:
• Vorwärtsdenken untersucht die aktuelle visuelle Szene und den Zustand der Objekte, bevor eine Aktion erlaubt wird.
• Rückwärtsdenken überprüft kürzliche Aktionen, um unerledigte Verpflichtungen zu erkennen (z. B. den Agenten zu zwingen, ein Gerät auszuschalten, das er zuvor aktiviert hat).
Sicherheitsbeschränkungen werden als ausführbare logische verifizierbare Code-Prädikate ausgedrückt, anstatt als unzuverlässige natürliche Sprachaufforderungen.
Experimente zeigen, dass RoboSafe gefährliche Aktionen um 36,8 % reduziert, während nahezu alle Aufgabenleistungen erhalten bleiben, und es übertrifft auf Aufforderungen basierende und statische Methoden und widersteht sogar Jailbreak-Versuchen auf physischer Robotik-Hardware.
Die tiefere Implikation ist unvermeidlich: Die Sicherheit von Agenten kann nicht vollständig zur Trainingszeit erreicht werden. Die reale Bereitstellung erfordert aktives Laufzeitmonitoring, das zeitliche Abfolgen und situativen Kontext wirklich versteht.
Aber warum haben die heutigen Modelle so große Schwierigkeiten mit Zeit und Kontext?
Eine wachsende Anzahl von Beweisen weist direkt auf die Datenqualität als Hauptursache hin.
Jüngste Studien, einschließlich einer von der NHS unterstützten Bewertung von LLMs in der Medikamentensicherheit, zeigen ein aufschlussreiches Muster: Modelle erreichten eine perfekte Sensitivität bei der Erkennung potenzieller Probleme, schlugen jedoch nur in 46,9 % der Fälle die richtige Intervention vor.
Kritisch ist, dass 86 % der Fehler nicht aus fehlendem Wissen oder Halluzinationen resultierten, sondern aus Fehlern im kontextuellen Denken: starres Anwenden von Richtlinien, ohne sich an die Ziele der Patienten anzupassen, Missverständnisse realer Arbeitsabläufe oder übermäßiges Selbstbewusstsein, wenn Unsicherheit Zurückhaltung erforderte.
Diese Schwäche wiederholt sich in verschiedenen Bereichen. Modelle sind hervorragend im isolierten Musterabgleich, scheitern jedoch, wenn Urteilsvermögen nuanciertes, situatives Bewusstsein für Zeit, Absicht und Konsequenzen erfordert.
...

Top
Ranking
Favoriten
