Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Робо-дофамін: Прорив у роботизованій точності — винагороди за процеси, які імітують людську інтуїцію!
Ця новаторська стаття представляє Robo-Dofamine — фреймворк, який переносить роботизоване навчання від примітивних, орієнтованих на результат винагород, до складних, орієнтованих на процеси.
Завдяки навчанню на величезному багатопереглядному наборі даних тривалістю 3 400+ годин, їхня Загальна модель винагороди (GRM) досягає 92,8% точності у оцінці прогресу маніпуляцій, поєднуючи перспективи для обробки закривань і дрібних деталей, як ніколи раніше.
У реальних тестах для таких завдань, як складання рушників або складання кубів, їхня політика Dofamine-RL стрімко зростає до 95% при лише 150 запусках — це приблизно година роботи робота!
Цікаві інсайти:
• Він уникає «семантичної пастки» у традиційному формуванні винагород, забезпечуючи оптимізацію політик без застрягання в неоптимальних циклах — теоретична перемога для надійного ШІ.
• Широко узагальнює: від симулятора до реальних, невидимих об'єктів і макетів, знижуючи лише 8-20% у OOD-сценаріях порівняно з 50-60% у конкурентів.
•Наслідки? Хірурги, фабрики та домашні помічники швидко зможуть справлятися з делікатними операціями з людською майстерністю, зменшуючи помилки та час навчання.
Сьогодні я протестую це!
Повна стаття: –

Найкращі
Рейтинг
Вибране
