不用提前熟悉環境,一聲令下,就能讓宇樹機器人坐在椅子上、桌子上、箱子上!
基于模擬數據訓練實現零樣本部署,讓人形機器人通過感知新環境,理解語言指令就能直接完成全身動作。
LeVERB 首次打通了視覺語義理解與物理運動兩者之間的斷層,讓機器人能像人類一樣從 " 想 " 到 " 做 ",自動感知環境,直接遵循指令完成動作。
上面展示的 " 坐下 " 動作就是通過 " 相機感知環境 +' 坐在 [ 椅子 / 盒子 / 桌子 ] 上 ' 指令 " 完成的:
這是首個面向人形機器人 WBC(全身控制)的 " 仿真到真實 " 視覺 - 語言閉環基準,包含 10 類超 150 個任務。
在簡單視覺導航任務中零樣本成功率達 80%,整體任務成功率58.5%,比樸素分層 VLA(視覺 - 語言 - 動作)方案的性能強 7.8 倍。
目前,LeVERB-Bench 數據集已在 LeRobot 格式中開源,項目的完整代碼也即將發布。
雙層系統實現從 " 想 " 到 " 做 " 的全身動作
多數視覺 - 語言 - 動作(VLA)模型在控制機器人時,依賴手工設計的底層動作 " 詞匯 "(如末端執行器姿勢、根部速度等)。
這使得它們只能處理準靜態任務,無法應對人形機器人全身控制(WBC)所需的靈活全身動作。
簡單來說,以前的機器人要么高層直接控制細節(就像大腦同時管走路和思考,效率低),要么底層不懂語義(就像四肢只聽簡單命令,復雜任務做不了)。
而人形機器人是高維非線性動態系統,需要高頻控制與低頻規劃結合,傳統方法缺乏對視覺和語言語義的有效整合。
于是,團隊提出將高層的視覺 - 語言指令壓縮映射為一個動作向量,也就是一個抽象指令,這種指令能夠被底層的動作模塊識別并執行。
在 LeVERB 框架中,這個抽象指令被稱為" 潛在動作詞匯 "。
LeVERB 框架由分層雙系統組成,這兩層系統以 " 潛在動作詞匯 " 作為接口。
該方法的最終目標是使兩層的 " 潛在動作詞匯 " 保持一致,讓高層專注 " 理解任務 ",底層專注 " 做好動作 ",各取所長。
LeVERB 框架
它通過 VLA 先驗模塊、運動學編碼器、殘差潛在空間、運動學解碼器和判別器等組件,將視覺和語言輸入映射到平滑規則的潛在詞匯空間,為運動控制生成潛在動作計劃。
訓練時,通過軌跡重建、分布對齊和對抗分類三部分優化模型,同時采用數據混合策略增強數據多樣性,并對超參數進行精細設置,以實現對視覺 - 語言信息的高效處理和準確決策 。
底層LeVERB-A(做):一個基于 Transformer 的 1.1M 全身動作專家,利用強化學習訓練的 WBC 策略,接收高層的潛在動作指令,將潛在動詞解碼為動力學級的人形動作輸出,運行頻率 50Hz。
訓練時,先通過近端策略優化算法訓練與視覺 - 語言無關的教師策略,再使用 DAgger 算法和 Huber 損失函數將教師策略的動作蒸餾到以潛在命令為條件的學生策略(即 LeVERB-A)中。
運行時,LeVERB-A 接收本體感受信息和潛在向量,采用 Transformer 架構輸出經重新參數化的扭矩級關節位置動作指令,并在機器人板載 CPU 上用 C++ 實現實時推理,完成人形機器人的全身控制 。
LeVERB-Bench
無法衡量就無法展開下一步工作,團隊還專門提出了一個人形機器人視覺 - 語言全身控制(WBC)任務的配套基準 LeVERB-Bench。
在人形機器人 WBC 領域,用于訓練 VLA 模型的演示數據稀缺。現有基準存在諸多問題,如僅關注 locomotion、在狀態空間中無視覺、渲染不真實導致仿真與現實差距大等,無法滿足研究需求。
LeVERB-Bench 在仿真中重放重定向的動作捕捉(MoCap)運動,收集逼真的軌跡數據。這種方式無需在數據收集時進行可靠的動態控制,運動學姿勢能提供任務級語義,還支持使用互聯網視頻等來源的重定向人形數據。
采用 IsaacSim 中的光線追蹤渲染技術,能更準確地模擬場景光照和陰影,減輕以往合成數據中因光照不真實導致的仿真與現實差距問題。
通過程序生成管道,對每個軌跡進行縮放和隨機化處理,隨機化場景背景、物體屬性、任務設置、相機視圖,并對部分演示進行鏡像,以確保數據的多樣性和語義豐富性。
手動或使用 VLM 為數據標注以自我為中心的文本命令。同時,利用 VLM 為僅包含運動的對標注文本指令,增加僅語言數據,擴大數據覆蓋范圍。
從視覺 - 語言任務和僅語言任務兩個維度進行分類,共涵蓋 154 個視覺 - 語言任務軌跡和 460 個僅語言任務軌跡,每個軌跡經過多次隨機化后生成大量演示數據。
實驗結果
團隊將 LeVERB 框架部署在 Unitree G1 機器人上,測試其在真實場景中的零樣本閉環控制能力,讓機器人執行如 " 走向椅子坐下 " 等任務。驗證了 LeVERB 從仿真到真實的遷移能力,證明該框架在實際應用中的可行性。
去掉判別器(ND)會導致性能顯著下降,表明其在對齊潛在空間、增強模型泛化能力方面的重要性;去掉運動學編碼器(NE)也會使性能降低,證明運動學編碼器對補充運動細節信息的必要性。
LeVERB 團隊有半數成員是來自 UC 伯克利、卡內基梅隆大學(CMU)等的華人學者。
該項目的主要負責人薛浩儒碩士畢業于卡內基梅隆大學(CMU),現于 UC 伯克利攻讀博士學位。
他曾在 MPC Lab、LeCAR 實驗室實驗室進行機器人研究,現在 NVIDIA GEAR 實驗室實習。
該項目在 F1 級自動駕駛賽車上部署了真實世界的機器人學習,最高時速達到 160 英里。
AI Racing Tech 在 2022 年的美國印第安納波利斯自動駕駛挑戰賽中奪得亞軍,在 2023 年奪得季軍。
他的研究方向專注于開發新型機器和驅動方式、結合學習和基于模型的方法、協同設計硬件、學習和控制。
目前,他在波士頓動力公司實習。
項目地址:https://ember-lab-berkeley.github.io/LeVERB-Website/
論文地址:https://arxiv.org/abs/2506.13751
參考鏈接:
https://x.com/HaoruXue/status/1937216452983160863
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產品,或發現的AI 新動向。
也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~
一鍵關注 點亮星標
科技前沿進展每日見