作者 | 李水青
編輯 | 云鵬
智東西 8 月 11 日報道,在世界機器人大會上,阿里達摩院宣布開源其自研的 VLA(視覺 - 語言 - 動作) 模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及機器人上下文協議 RynnRCP,推動數據、模型和機器人的兼容適配,打通具身智能開發全流程。
達摩院將 MCP(模型上下文協議)理念引入具身智能,首次提出并開源 RCP(Robotics Context Protocol)協議,推出一套完整的機器人服務協議和框架 RynnRCP。它類似于一個 " 萬能連接器 ",能夠打通從傳感器數據采集、模型推理到機器人動作執行的完整工作流,目前已支持 Pi0、GR00T N1.5 等多款熱門模型以及 SO-100、SO-101 等多種機械臂。
RynnRCP 是一套完整的機器人服務協議和框架,主要由兩個模塊組成:RCP 框架和 RobotMotion。
RCP 目前實現的主要功能包括:提供機器人本體及相關傳感器能力的抽象,對外提供各種功能,并通過標準協議、不同的傳輸層和模型服務進行交互;RobotMotion 作為云端推理與機器人本體控制之間的橋梁,將離散的低頻推理命令實時轉換為高頻的連續控制信號,驅動機器人完成運動任務。此外,它還配備了運動規劃與控制所需的工具包,助力具身智能融入物理世界。
開源地址:
https://github.com/alibaba-damo-academy/RynnRCP
RynnVLA-001 是達摩院自研的基于視頻生成和人體軌跡預訓練的視覺 - 語言 - 動作模型,能夠從第一人稱視角的視頻中學習人類的操作技能,隱式遷移到機器人手臂的操控上。
如下面動圖所示,當研發人員告訴機械臂把草莓放到手掌上,機械臂能夠理解語言的意思,隨后在一些物品中識別出草莓,拿起并放到正確的位置。
RynnVLA-001 演示
研發人員在同一數據集上對基線進行了微調,以評估其性能。對比結果如下圖所示,RynnVLA-001 在多項具體的撿拾物品放置測評中都取得了最高分成績。
研發團隊提供了如何使用開發者自己的 LeRobot 數據(第 2 階段和第 3 階段)對模型進行微調的說明,后續還將發布如何從零開始訓練模型的說明。
開源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型 RynnEC 將多模態大語言模型引入具身世界,賦予了大模型理解物理世界的能力。該模型能夠從位置、功能、數量等 11 個維度全面解析場景中的物體,并在復雜的室內環境中精準定位和分割目標物體,建立連續的空間感知并支持靈活交互。
RynnEC 是一種專為具身認知任務設計的視頻多模態大型語言模型(MLLM),如下圖所示,能夠對現實世界中幾乎無限的事物進行識別和認知分析。本次,達摩院推出了 RynnEC-2B 模型、RynnEC-Bench 和訓練代碼。
如下圖所示,RynnEC-2B 在 Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(狀態)、Surface(表面)等對象認知測試中超越了 Gemini-2.5-Pro、Qwen2.5-VL-72B 等頂尖模型,并在空間認知測試中大幅超越了這些模型。
聚焦 RynnEC-Bench 基準,其在兩個關鍵領域對模型進行評估:object cognition(對象認知)和 spatial cognition(空間認知),評估總體 22 體現的認知能力。
開源地址:
https://github.com/alibaba-damo-academy/RynnEC
結語:打通機器人從感知到執行的完整鏈路
達摩院此次開源的 " 三件套 " ——貫通硬件的 RynnRCP 協議、擬人化操控的 RynnVLA 模型與理解物理世界的 RynnEC 模型,如同為具身智能開發者提供了一套 " 樂高式工具包 "。
它們通過標準化連接、擬人化控制與空間認知三大突破,打通了機器人從感知到執行的完整鏈路,有望在之后迭代的過程中大幅降低開發門檻,加速具身智能在工業、家庭等場景的規模化落地,讓機器人真正 " 看得懂世界,動得像人類 "。