Робо-Дофамин: Революция в Роботизированной Точности – Процессуальные Награды, Которые Имитации Человеческой Интуиции! Эта революционная работа представляет Робо-Дофамин, структуру, которая переводит обучение роботов с грубых наград, основанных на результатах, на сложные награды, ориентированные на процесс. Обучаясь на огромном многовидовом наборе данных более 3400 часов, их Модель Общей Награды (GRM) достигает 92,8% точности в оценке прогресса манипуляции, объединяя перспективы для обработки окклюзий и тонких деталей, как никогда ранее. В реальных тестах по таким задачам, как складывание полотенец или укладка кубиков, их политика Dopamine-RL взлетает до 95% успеха всего за 150 запусков – это примерно час времени робота! Интересные выводы: • Она избегает "семантической ловушки" в традиционном формировании наград, обеспечивая оптимизацию политик без застревания в субоптимальных циклах – теоретическая победа для надежного ИИ. • Широко обобщается: от симуляции до реальности, невидимые объекты и компоновки, теряя всего 8-20% в сценариях OOD по сравнению с 50-60% у конкурентов. • Последствия? Хирурги, фабрики и домашние помощники вскоре смогут выполнять деликатные операции с человеческой ловкостью, сокращая ошибки и время обучения. Я буду тестировать это сегодня! Полная работа: –