Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heilige Scheiße… dieses Papier vom MIT erklärt leise, wie Modelle sich selbst beibringen können zu schlussfolgern, wenn sie völlig feststecken 🤯
Die Grundidee ist täuschend einfach:
Schlussfolgern scheitert, weil das Lernen nichts hat, woran es sich festhalten kann.
Wenn die Erfolgsquote eines Modells auf nahezu null sinkt, hört das verstärkende Lernen auf zu funktionieren. Kein Belohnungssignal. Kein Gradient. Keine Verbesserung. Das Modell ist nicht "schlecht im Schlussfolgern" — es ist jenseits der Grenze des Lernens gefangen.
Dieses Papier stellt das Problem neu dar.
Anstatt zu fragen: "Wie bringen wir das Modell dazu, schwierigere Probleme zu lösen?"
Fragen sie: "Wie schafft es ein Modell, Probleme zu erzeugen, von denen es lernen kann?"
Hier kommt SOAR ins Spiel.
SOAR teilt ein einzelnes vortrainiertes Modell in zwei Rollen auf:
• Ein Schüler, der extrem schwierige Zielprobleme versucht
• Ein Lehrer, der neue Trainingsprobleme für den Schüler generiert
Aber die Einschränkung ist brutal.
Der Lehrer wird niemals für clevere Fragen, Vielfalt oder Realismus belohnt.
Er wird nur belohnt, wenn die Leistung des Schülers bei einem festen Satz von realen Bewertungsproblemen verbessert wird.
Keine Verbesserung? Keine Belohnung.
Das ändert die Dynamik völlig.
...

Top
Ranking
Favoriten
