🦾開源機器人領域的一個重大📷里程碑:@physical_int 的 pi0 和 pi0.5 現已在 @huggingface 上,完全移植到 PyTorch 中,並與 OpenPI 進行了並行驗證,供大家實驗、微調和部署到他們的機器人中! 正如 Physical Intelligence 所描述的,π₀.₅ 是一個視覺-語言-行動模型,代表了從 π₀ 到 π₀.₅ 的重大演變,旨在解決機器人學中的一個重大挑戰:開放世界泛化。 雖然機器人在受控環境中可以執行令人印象深刻的任務,但 π₀.₅ 的設計是為了能夠泛化到完全新的環境和情況,這些在訓練期間從未見過。 泛化必須在多個層面上發生: - 物理層面:理解如何拿起湯匙(從把手)或盤子(從邊緣),即使在雜亂的環境中面對未見過的物體 - 語義層面:理解任務語義,知道將衣物和鞋子放在哪裡(洗衣籃,而不是床上),以及哪些工具適合清理溢出物 - 環境層面:適應“雜亂”的現實世界環境,如家庭、雜貨店、辦公室和醫院 π₀.₅ 的突破性創新在於對異質數據源的共同訓練。該模型從以下方面學習: - 多模態網絡數據:圖像標題生成、視覺問答、物體檢測 - 口頭指令:人類逐步指導機器人完成複雜任務 - 子任務命令:高層次語義行為標籤(例如,“拿起枕頭”對於未整理的床) - 跨體現機器人數據:來自不同能力的各種機器人平台的數據 - 多環境數據:靜態機器人在許多不同的家庭中部署 - 移動操作數據:約 400 小時的移動機器人演示 這種多樣化的訓練混合創造了一個“課程”,使得在物理、視覺和語義層面上同時實現泛化。 非常感謝 @physical_int 團隊及貢獻者 模型: LeRobot: