Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Robotyka wciąż uderza w tę samą ścianę.
Jednozadaniowe RL działa, ale... nie skaluje się do setek zadań ani nowych wcieleń.
Ten nowy artykuł wygląda na prawdziwy krok w kierunku naprawienia tego.
Zespół wprowadza MMBench, benchmark z 200 zadaniami w wielu dziedzinach i robotach, oraz Newt, model świata warunkowany językowo, trenowany online we wszystkich 200 zadaniach jednocześnie.
Prosta idea stojąca za Newt:
Model uczy się z demonstracji, aby uzyskać odpowiednie priorytety
Trenuje w wielu zadaniach poprzez interakcję online
Używa języka do ugruntowania celu
Szybko dostosowuje się, gdy pojawia się nowe zadanie
Co mnie zaskoczyło:
✅ Jeden model trenowany na 200 zadaniach jednocześnie
✅ Kontrola warunkowana językowo zarówno dla stanów, jak i RGB
✅ Lepsza efektywność danych niż silne podstawy
✅ Silna kontrola w otwartej pętli
✅ Szybkie dostosowanie do nowych zadań i wcieleń
✅ Pełne wydanie 200 punktów kontrolnych, 4000 demonstracji, kodu i benchmarku
To dobry krok w kierunku ogólnej kontroli zamiast jednego modelu na zadanie.
Jeśli chcesz pełny artykuł:
Strona projektu:
...
Najlepsze
Ranking
Ulubione

