關于ZAKER 合作
      量子位 昨天

      人形機器人首次打通視覺感知與運動斷層,UC 伯克利華人博士讓宇樹 G1 現場演示

      不用提前熟悉環境,一聲令下,就能讓宇樹機器人坐在椅子上、桌子上、箱子上!

      還能直接解鎖 " 跨過箱子 "、" 敲門 " 等任務 ~

      這是來自 UC 伯克利、卡內基梅隆大學等團隊的最新研究成果LeVERB 框架——

      基于模擬數據訓練實現零樣本部署,讓人形機器人通過感知新環境,理解語言指令就能直接完成全身動作。

      傳統人形機器人要么 " 能看懂指令卻動不了 "(缺乏全身控制能力),要么 " 只能機械執行動作卻讀不懂環境 "(依賴人工預設動作庫)。

      LeVERB 首次打通了視覺語義理解物理運動兩者之間的斷層,讓機器人能像人類一樣從 " 想 " 到 " 做 ",自動感知環境,直接遵循指令完成動作。

      上面展示的 " 坐下 " 動作就是通過 " 相機感知環境 +' 坐在 [ 椅子 / 盒子 / 桌子 ] 上 ' 指令 " 完成的:

      團隊還推出了配套基準:LeVERB-Bench

      這是首個面向人形機器人 WBC(全身控制)的 " 仿真到真實 " 視覺 - 語言閉環基準,包含 10 類超 150 個任務。

      團隊將該框架部署在宇樹 G1 機器人上進行基準測試,結果顯示:

      在簡單視覺導航任務中零樣本成功率達 80%,整體任務成功率58.5%,比樸素分層 VLA(視覺 - 語言 - 動作)方案的性能強 7.8 倍

      目前,LeVERB-Bench 數據集已在 LeRobot 格式中開源,項目的完整代碼也即將發布。

      雙層系統實現從 " 想 " 到 " 做 " 的全身動作

      多數視覺 - 語言 - 動作(VLA)模型在控制機器人時,依賴手工設計的底層動作 " 詞匯 "(如末端執行器姿勢、根部速度等)。

      這使得它們只能處理準靜態任務,無法應對人形機器人全身控制(WBC)所需的靈活全身動作。

      簡單來說,以前的機器人要么高層直接控制細節(就像大腦同時管走路和思考,效率低),要么底層不懂語義(就像四肢只聽簡單命令,復雜任務做不了)。

      而人形機器人是高維非線性動態系統,需要高頻控制與低頻規劃結合,傳統方法缺乏對視覺和語言語義的有效整合。

      于是,團隊提出將高層的視覺 - 語言指令壓縮映射為一個動作向量,也就是一個抽象指令,這種指令能夠被底層的動作模塊識別并執行。

      在 LeVERB 框架中,這個抽象指令被稱為" 潛在動作詞匯 "

      LeVERB 框架由分層雙系統組成,這兩層系統以 " 潛在動作詞匯 " 作為接口。

      該方法的最終目標是使兩層的 " 潛在動作詞匯 " 保持一致,讓高層專注 " 理解任務 ",底層專注 " 做好動作 ",各取所長。

      LeVERB 框架

      高層LeVERB-VL(想):一個基于 Transformer 的 102.6M 視覺語言主干,將語言指令和視覺上下文轉換為潛在動詞,運行頻率 10Hz。

      LeVERB-VL 負責理解 " 看到的東西 " 和 " 聽到的話 "。比如看到 " 去坐藍色椅子 ",它會先分析 " 藍色椅子在哪 "" 怎么過去 ",但不直接控制動作細節,而是把想法轉化成一種 " 抽象指令 "。

      它通過 VLA 先驗模塊、運動學編碼器、殘差潛在空間、運動學解碼器和判別器等組件,將視覺和語言輸入映射到平滑規則的潛在詞匯空間,為運動控制生成潛在動作計劃。

      訓練時,通過軌跡重建、分布對齊和對抗分類三部分優化模型,同時采用數據混合策略增強數據多樣性,并對超參數進行精細設置,以實現對視覺 - 語言信息的高效處理和準確決策 。

      底層LeVERB-A(做):一個基于 Transformer 的 1.1M 全身動作專家,利用強化學習訓練的 WBC 策略,接收高層的潛在動作指令,將潛在動詞解碼為動力學級的人形動作輸出,運行頻率 50Hz。

      這部分作用是將 LeVERB-VL 生成的潛在指令轉化為機器人可執行的動力學級動作。

      訓練時,先通過近端策略優化算法訓練與視覺 - 語言無關的教師策略,再使用 DAgger 算法和 Huber 損失函數將教師策略的動作蒸餾到以潛在命令為條件的學生策略(即 LeVERB-A)中。

      運行時,LeVERB-A 接收本體感受信息和潛在向量,采用 Transformer 架構輸出經重新參數化的扭矩級關節位置動作指令,并在機器人板載 CPU 上用 C++ 實現實時推理,完成人形機器人的全身控制 。

      LeVERB-Bench

      無法衡量就無法展開下一步工作,團隊還專門提出了一個人形機器人視覺 - 語言全身控制(WBC)任務的配套基準 LeVERB-Bench。

      在人形機器人 WBC 領域,用于訓練 VLA 模型的演示數據稀缺。現有基準存在諸多問題,如僅關注 locomotion、在狀態空間中無視覺、渲染不真實導致仿真與現實差距大等,無法滿足研究需求。

      LeVERB-Bench 在仿真中重放重定向的動作捕捉(MoCap)運動,收集逼真的軌跡數據。這種方式無需在數據收集時進行可靠的動態控制,運動學姿勢能提供任務級語義,還支持使用互聯網視頻等來源的重定向人形數據。

      采用 IsaacSim 中的光線追蹤渲染技術,能更準確地模擬場景光照和陰影,減輕以往合成數據中因光照不真實導致的仿真與現實差距問題。

      通過程序生成管道,對每個軌跡進行縮放和隨機化處理,隨機化場景背景、物體屬性、任務設置、相機視圖,并對部分演示進行鏡像,以確保數據的多樣性和語義豐富性。

      手動或使用 VLM 為數據標注以自我為中心的文本命令。同時,利用 VLM 為僅包含運動的對標注文本指令,增加僅語言數據,擴大數據覆蓋范圍。

      LeVERB-Bench 包含多種任務類別,如導航(Navigation)、走向目標(Towards)、繞物體移動(Around)、移動(Locomotion)、坐下(Sitting)、伸手夠物(Reaching)等。

      從視覺 - 語言任務和僅語言任務兩個維度進行分類,共涵蓋 154 個視覺 - 語言任務軌跡和 460 個僅語言任務軌跡,每個軌跡經過多次隨機化后生成大量演示數據。

      通過 154 條軌跡,每條隨機化 100 次,生成了 17.1 小時的逼真運動軌跡數據。此外,還增加了 2.7 小時的僅語言數據,覆蓋 500 條不同軌跡,進一步豐富了數據集。

      在評估時,會在 20 個隨機環境中進行,每個任務類別的場景紋理和物體屬性完全隨機化且在訓練數據中未出現過,同時對第三人稱相機角度進行局部隨機化,確保評估任務在視覺上未在訓練集中出現,以此檢驗模型的泛化能力。

      實驗結果

      團隊將 LeVERB 框架部署在 Unitree G1 機器人上,測試其在真實場景中的零樣本閉環控制能力,讓機器人執行如 " 走向椅子坐下 " 等任務。驗證了 LeVERB 從仿真到真實的遷移能力,證明該框架在實際應用中的可行性。

      通過在 LeVERB-Bench 基準上評估,LeVERB 框架表現出色,簡單視覺導航任務零樣本成功率達 80%,整體任務成功率為 58.5% ,比樸素分層 VLA 方案高出 7.8 倍。這表明 LeVERB 能有效處理復雜視覺 - 語言任務,在不同場景下具備良好的泛化能力。

      還對 LeVERB 框架的關鍵組件進行消融實驗,探究各組件對性能的影響,例如去掉判別器(ND)、運動學編碼器(NE)等組件進行測試。

      去掉判別器(ND)會導致性能顯著下降,表明其在對齊潛在空間、增強模型泛化能力方面的重要性;去掉運動學編碼器(NE)也會使性能降低,證明運動學編碼器對補充運動細節信息的必要性。

      團隊成員半數為華人

      LeVERB 團隊有半數成員是來自 UC 伯克利、卡內基梅隆大學(CMU)等的華人學者。

      該項目的主要負責人薛浩儒碩士畢業于卡內基梅隆大學(CMU),現于 UC 伯克利攻讀博士學位。

      他曾在 MPC Lab、LeCAR 實驗室實驗室進行機器人研究,現在 NVIDIA GEAR 實驗室實習。

      2021 年至 2024 年,他領導了 AI Racing Tech 項目——一個價值數百萬美元的自動駕駛賽車研究項目。

      該項目在 F1 級自動駕駛賽車上部署了真實世界的機器人學習,最高時速達到 160 英里。

      AI Racing Tech 在 2022 年的美國印第安納波利斯自動駕駛挑戰賽中奪得亞軍,在 2023 年奪得季軍。

      另一位負責人廖啟源本科畢業于廣東工業大學機電工程專業,目前是 UC 伯克利機械工程專業的博士研究生。

      他的研究方向專注于開發新型機器和驅動方式、結合學習和基于模型的方法、協同設計硬件、學習和控制。

      目前,他在波士頓動力公司實習。

      感興趣的朋友可以到原文中查看更多細節。

      項目地址:https://ember-lab-berkeley.github.io/LeVERB-Website/

      論文地址:https://arxiv.org/abs/2506.13751

      參考鏈接:

      https://x.com/HaoruXue/status/1937216452983160863

      一鍵三連「點贊」「轉發」「小心心」

      歡迎在評論區留下你的想法!

      量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應,或與我們分享你在尋找的 AI 產品,或發現的AI 新動向

      也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~

      一鍵關注 點亮星標

      科技前沿進展每日見

      相關標簽
      主站蜘蛛池模板: 国产区精品一区二区不卡中文| 交换国产精品视频一区| 国产成人无码一区二区在线观看 | 2014AV天堂无码一区| 精品国产一区二区三区久久蜜臀 | 视频在线观看一区| 呦系列视频一区二区三区| 成人国产一区二区三区| 亚洲AV无码国产一区二区三区| 亚洲bt加勒比一区二区| 色系一区二区三区四区五区| 日韩精品一区二区三区大桥未久| 韩国福利视频一区二区| 久久精品国产一区| 精品亚洲一区二区三区在线观看| 国产成人精品一区二区三在线观看| 国产成人精品第一区二区| 国产美女在线一区二区三区| 亚洲国产精品一区二区久| 亚洲一区综合在线播放| 国产在线精品一区二区在线观看| 乱人伦一区二区三区| 久久国产高清一区二区三区| 人妻内射一区二区在线视频| 精品亚洲一区二区三区在线观看 | 国产亚洲无线码一区二区 | 中文字幕一区二区三区有限公司 | 日韩精品无码视频一区二区蜜桃 | 亚洲午夜精品一区二区| 国产一区二区久久久| 亚洲福利秒拍一区二区| 亚洲一区二区久久| 亚洲A∨精品一区二区三区下载| 波多野结衣AV一区二区三区中文| 人妻在线无码一区二区三区| 国产精品美女一区二区| 久久亚洲中文字幕精品一区| 无码免费一区二区三区免费播放| 亚洲一区在线免费观看| 日韩福利视频一区| 久久AAAA片一区二区|