Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Robotik stößt immer wieder an dieselbe Wand.
Einzelaufgaben-RL funktioniert, aber... es skaliert nicht auf Hunderte von Aufgaben oder neuen Ausführungen.
Dieses neue Papier sieht aus wie ein echter Schritt in Richtung Lösung dieses Problems.
Das Team stellt MMBench vor, ein Benchmark mit 200 Aufgaben aus vielen Bereichen und Robotern, und Newt, ein sprachlich konditioniertes Weltmodell, das online über alle 200 Aufgaben gleichzeitig trainiert wird.
Die einfache Idee hinter Newt:
Das Modell lernt aus Demos, um die richtigen Prioritäten zu setzen.
Es trainiert über viele Aufgaben hinweg durch Online-Interaktion.
Es nutzt Sprache, um das Ziel zu verankern.
Es passt sich schnell an, wenn eine neue Aufgabe auftaucht.
Was mir aufgefallen ist:
✅ Ein Modell, das gleichzeitig auf 200 Aufgaben trainiert wurde.
✅ Sprachlich konditionierte Steuerung für sowohl Zustände als auch RGB.
✅ Bessere Dateneffizienz als starke Baselines.
✅ Starke offene Schleifensteuerung.
✅ Schnelle Anpassung an neue Aufgaben und Ausführungen.
✅ Vollständige Veröffentlichung von 200 Checkpoints, 4000 Demos, Code und Benchmark.
Dies ist ein guter Schritt in Richtung allgemeiner Kontrolle anstelle eines Modells pro Aufgabe.
Wenn Sie das vollständige Papier möchten:
Projektseite:
...
Top
Ranking
Favoriten

