Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir haben versehentlich selbstverbessernde KI-Systeme entwickelt. Dieses Papier von der Universität Oxford beweist es.
Die meisten Menschen gehen davon aus, dass Modellverbesserungen von größeren Architekturen oder sorgfältig gestalteten Verstärkungslern-Pipelines kommen.
Diese Arbeit zeigt etwas Subtileres und Beunruhigenderes.
Wenn Sie ein Modell bereitstellen, es den Benutzern ermöglichen, damit zu interagieren, die Misserfolge herausfiltern und nur auf den erfolgreichen Spuren feinabstimmen, beginnt das Modell, seine Planungsfähigkeiten von selbst zu verbessern.
Keine expliziten Belohnungen, kein handgefertigter Lehrplan und kein externer Planer.
Nur Iteration.
Die Autoren nennen dies iterative Bereitstellung, und sie testen es in kontrollierten Planungsumgebungen wie Blocksworld, Rovers und Sokoban.
Die Einrichtung ist einfach:
1. Ein LLM für Planungsaufgaben bereitstellen
2. Nur die Pläne behalten, die tatsächlich funktionieren
3. Die nächste Version auf diesen gültigen Spuren feinabstimmen
Wiederholen
Nach nur fünf Generationen verdoppelt sich die Planungsleistung in allen Bereichen mehr als. In einigen Fällen verbessert sie sich um das 4- bis 5-fache. Noch interessanter ist, dass spätere Generationen viel längere Pläne als das Basismodell entdecken, was eine echte Generalisierung außerhalb der Verteilung zeigt, nicht nur Formatierungs-Tricks oder Eingabe-Compliance.
Hier ist die entscheidende Einsicht.
Das Papier beweist, dass dieser Prozess mathematisch äquivalent zu Verstärkungslernen mit einem binären Belohnungssignal ist.
Aber die Belohnungsfunktion wird nie niedergeschrieben.
...

Top
Ranking
Favoriten
