Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Robo-Dopamina: Zmiana gry w precyzji robotów – Proces nagród, które naśladują ludzką intuicję!
Ten przełomowy artykuł wprowadza Robo-Dopaminę, ramy, które przesuwają uczenie się robotów z prymitywnych nagród opartych na wynikach do wyrafinowanych nagród zorientowanych na proces.
Trenując na ogromnym zbiorze danych z ponad 3400 godzinami wielopunktowymi, ich Model Nagrody Ogólnej (GRM) osiąga 92,8% dokładności w ocenie postępów w manipulacji, łącząc perspektywy, aby radzić sobie z przeszkodami i drobnymi szczegółami jak nigdy dotąd.
W testach w rzeczywistych warunkach, w zadaniach takich jak składanie ręczników czy układanie kostek, ich polityka Dopamina-RL wystrzeliwuje wskaźniki sukcesu do 95% przy zaledwie 150 próbach – to około godziny czasu robota!
Interesujące spostrzeżenia:
•Unika „pułapki semantycznej” w tradycyjnym kształtowaniu nagród, zapewniając, że polityki optymalizują bez utknięcia w suboptymalnych pętlach – teoretyczne zwycięstwo dla niezawodnej AI.
•Ogólny zasięg: Od symulacji do rzeczywistości, niewidziane obiekty i układy, spadając tylko o 8-20% w scenariuszach OOD w porównaniu do konkurencji, która ma 50-60%.
•Implikacje? Chirurdzy, fabryki i asystenci domowi mogą wkrótce obsługiwać delikatne operacje z ludzką finezją, redukując błędy i czas szkolenia.
Będę to testować dzisiaj!
Pełny artykuł: –

Najlepsze
Ranking
Ulubione
