Я побывал в лаборатории @DvijKalaria в @berkeley_ai и играл в пинг-понг против его робота, Орео. В детстве я много играл в пинг-понг. Это было довольно сюрреалистично и один из тех моментов, когда думаешь: "Как бы я хотел рассказать об этом своему школьному я". Настольный теннис — один из самых сложных видов спорта для роботов. Мяч может двигаться со скоростью более 30 миль в час с сильным вращением, намерения человеческого соперника скрыты, и всему телу нужно координироваться. Орео — это полноценный гуманоид, держащий настоящую ракетку, и он научился ключевым движениям, таким как удары, наблюдая за демонстрацией Двия. Никаких данных для обучения, собранных роботом. Один человек показывает движение, политика обобщается. Как я это понял: - Умная система (иерархический планировщик) сначала определяет, куда будет лететь мяч, и выбирает лучший тип удара, например, форхенд или бэкхенд. - Этот план затем помогает обучить "мозг" робота (политику RL) в виртуальной симуляции. Мозг учится методом проб и ошибок, получая награды, когда он имитирует несколько примеров движений. - После обучения в симуляции вся установка применяется к реальному физическому роботу, чтобы он мог играть по-настоящему. Человеческие демонстрации по сути являются эталонными движениями. Они создают робота, который наблюдал за настольным теннисом больше, чем любой человек, и использует это, чтобы развивать свою собственную игру. Я все равно выиграл. (Едва. Но это не продлится.)
Следите за работой Dvij здесь: И спасибо @hananyss за то, что позволил мне присоединиться!
316