關于ZAKER 合作
      雷鋒網 2小時前

      將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人的“知行合一”?

      大模型處理復雜問題時,它越來越傾向于生成一個推理鏈條。這條鏈,把一個復雜問題,拆解成多個推理環節,一步步得出結論。

      支撐這種推理能力的,是一種被反復驗證的技術路徑:思維鏈(Chain of Thought,簡稱 CoT)。這項技術并不新,本質上是一種提示工程的升級版——通過引導模型 " 慢慢想 ",強迫其展開清晰的推理流程。

      早期的 CoT 停留在語言層面,即 " 思維可視化 ";而在具身智能領域,它的角色正在發生變化——不再只要 " 想得清楚 ",更要 " 做得明白 "。也就是說,CoT 正從語言中的邏輯鏈條,演變成機器人行為背后的核心認知機制。

      越來越多公司正在嘗試將 CoT 應用到具身智能的架構設計中。主流做法是基于分層結構,借助預訓練視覺語言模型(VLM)作為感知與推理的中樞,用自然語言能力 " 驅動 " 物理動作。

      而一些更前沿的團隊,如自變量機器人,正試圖通過統一的 " 多模態到多模態 " 生成架構,從根本上重構這一過程:不僅讓機器人 " 看 " 和 " 想 ",更讓它們以類似人類的整體性方式思考、計劃、行動——而非三者割裂。

      這就像人類學習騎自行車:沒有人能單純靠分步驟的語言描述學會騎行。初學者往往需要調動全身肌肉一次次試錯,真正的掌握,則是身體在實踐中的形成的一整套連貫動作,將復雜的身體自由度收斂為腰腿間的協調發力。這種從感知到行動的整體性學習,恰恰是割裂的模態拼接的方式無法實現的。

      這種探索背后的核心命題是:機器人的 " 認知 " 與 " 行為 ",是否可以被徹底打通

      連接 " 思考 " 與 " 行動 " 的 CoT

      " 具身 CoT 的意義超越了單純的語言任務規劃,它是連接抽象思考與具體行動的絕對核心。" 自變量機器人 CTO 王昊告訴 AI 科技評論。

      CoT,最初是一種語言模型在面對復雜問題時用于逐步推理的提示技巧,而當它被引入具身智能領域時,它承擔的角色已遠不止于此——它正在成為大模型從感知世界、理解任務到執行動作的核心橋梁。

      簡單來說,傳統的語言模型思考(CoT)是在一個封閉的、符號化的世界里進行邏輯推演,而機器人的行動則發生在開放、動態、充滿不確定性的物理世界。兩者之間存在天然的巨大鴻溝,具體來看:

      首先,具身 CoT 是一種融合推理,其每一步思考都必須融合視覺、空間與物理常識,確保了邏輯從一開始就與物理世界綁定;

      其次,這種扎根現實的推理使其能夠進行 " 動態 grounding(需要加中文解釋)",將模糊指令實時分解為與環境持續交互的子任務鏈,讓思考過程本身就是一個感知 - 規劃 - 行動的循環;

      最終,這必然導向因果驅動的行動,即機器人的每個動作都是由思維鏈上的具體推理步驟所直接生成,并且每步推理都會受到動作在環境中執行帶來的影響。

      釋義:" 動態 grounding" 指機器人將抽象符號、語言或概念與動態變化的現實世界感知信息(如視覺、觸覺等)實時關聯的過程,讓機器人能在環境變化中理解概念并調整行為,是實現智能交互的關鍵能力。

      目前,包括英偉達、谷歌、自變量等公司正在探索將 CoT 引入具身任務中,用以提升多模態大語言模型(MLLM)在物理世界中的決策能力。技術路徑上,大致分為兩種方向:分層架構與端到端模型。

      以英偉達為例,其在 2025 年 GTC 大會后推出 Cosmos-Reason1 采用了分層架構 +CoT 的方式。該系統基于模塊化的感知、推理、控制流程構建了層次化物理本體,能夠生成顯式、可解釋的動作序列,具備良好的追溯性和驗證性。

      一位業內專家告訴 AI 科技評論,這種路徑 " 工程上更穩健、調試更方便。" 尤其是對于能被明確拆解的任務,比如疊衣服等,分層結構非常管用。但他也指出,這一路徑存在天然的上限:" 一旦任務場景變復雜,模塊之間的信息傳遞容易出問題,尤其是面對環境變化時,響應往往滯后。"

      AI 科技評論了解到,多數企業或研究團隊選擇分層結構的原因之一在于工程可控性強。尤其是雙系統架構在實驗中表現穩定,從語言到視覺再到行動由中間信號傳遞,更容易實現閉環。但缺點也顯而易見,一旦要應對復雜推理、解決隨機問題時,完成難度直線上升。

      顯然,認知深度是更進一步的問題。另一位業內人士指出," 真正的具身智能,不只是能看、能想、能說,更要知道自己在做什么,以及怎么做。" 物理世界的高度復雜性和不確定性,要求具身智能必須解決兩個核心問題:

      一是知道在做什么。例如,去倒一杯水,必須理解 " 水是液體,杯子傾斜才會倒出,而不是機械地把一個圓柱體傾斜到某個角度。

      二是知道怎么做。例如,偏癱患者,即使有明確意圖,也無法準確控制自身的動作及與外界的交互。

      在王昊看來,這也是分層架構的本質問題之一。他指出,首先是 " 表征瓶頸 " ——信息在不同模塊之間頻繁傳遞,會發生壓縮與損失;其次是 " 難以涌現 " ——模塊之間的結構割裂,讓模型很難自然學到跨模態的物理因果和直覺常識。

      因此,自變量機器人選擇了另一條路線:端到端的具身 CoT。他們設計了一整套統一的多模態生成架構,試圖在同一個神經網絡中處理視覺、語言、觸覺和動作等不同模態的信息。

      " 我們的目的是消除人為劃分的模態邊界,把它們都看作一個‘高維信息流’。" 王昊說。

      這種統一架構,主要在于信息流的融合:讓視覺、語言、動作等各種模態的信息在同一個空間里可以自由地流動。關鍵突破在于他們引入了一種 " 多任務多模態生成 " 的監督機制。

      王昊表示,他們要求模型在訓練時必須學會任意模態之間的轉換,比如用語言生成圖像、用圖像預測下一步動作。" 這種機制會驅動會強迫模型去學習模態之間深層的因果聯系。"

      過去在單一模態生成上,其他公司已有所嘗試。谷歌 DeepMind 的 RT 系列已經實現了語言到動作的直接映射;斯坦福大學團隊也在測試將 CoT 與物理環境仿真融合,以實現更自然的機器人操作規劃。

      王昊解釋,為了讓機器人從 " 看懂 " 走向 " 會做 ",統一的、多模態的思維鏈能夠驅使系統呈現出一種類似人類的 " 整體性認知 ":在面對未知任務時,能夠在一個表示空間中同時完成視覺理解、語義推理、物理預測與動作規劃,不再依賴串行模塊處理。

      自然涌現

      與分層結構通過模塊拆解任務不同,自變量機器人的統一架構更關注模型內部思維過程的自然涌現。

      他們推出的具身智能模型,基于統一神經網絡架構,在執行復雜任務時引入 CoT 機制,不再依賴人工拆分的感知、推理和控制流程,而是讓模型自主完成從感知到動作的完整閉環。

      這種設計帶來的挑戰是顯而易見的:系統不僅要能 " 做 ",還要能 " 想清楚再做 ",甚至 " 邊想邊做邊說 "。這意味著模型需要具備復雜推理能力、連續操作能力以及多模態表達能力,能夠將視覺、語言和動作有效對齊,并實時呈現思維鏈條。

      在多個具身任務實驗中,自變量機器人的具身模型展示出了三類關鍵能力:

      第一個是符號 - 空間推理能力。

      符號 - 空間推理能力是指機器人不僅能理解符號的含義,比如文字、圖形等抽象信息,還能夠將這些符號與物理空間中的對象、位置和操作建立對應關系,并在此基礎上做出合理推理與操作決策。

      比如,當機器人看到一幅手繪的 " 五角星 " 圖案時,它首先需要識別這個圖形所代表的含義,并聯想到對應的字母拼寫,比如 "S""T""A""R"。接著,系統要理解這些字母在二維平面中的排列順序,進一步推理出一個有語義的英文單詞。

      但這還不夠,機器人還要把這種符號信息轉化為動作指令——比如用積木在三維空間中重新 " 搭建出 " 這個單詞的拼寫。這需要它具備:

      對圖形 / 字母的識別能力(視覺感知)

      對字母組合的語義理解與推理(語言與因果)

      對目標在空間中的相對位置規劃能力(空間操作)

      整個過程體現了視覺感知、因果推理和空間操作的深度融合。

      【視頻演示 1:機器人根據手繪圖形拼出對應單詞】

      第二個是物理空間推理能力。

      物理空間推理能力表示機器人在面對一個現實環境中的物體或任務時,能夠理解物體之間的空間關系、物理屬性,如重力、支撐、平衡等,并據此推理出合理的操作順序與結果。這種能力是機器人真正 " 理解 " 環境并做出符合常識決策的關鍵。

      【視頻演示 2:觀察積木操作步驟并搭建對應空間形狀】

      視頻中,機器人能從積木圖片中看懂每一步怎么做,按部就班地拾取相應積木并妥善擺放。

      一連串動作的背后,是機器人對整個結構的空間理解和因果推理。比如哪塊積木起支撐作用,先放哪塊才能保持整體穩定,甚至能預測如果換一種順序搭建,積木結構會不會倒。更重要的是,機器人能把自己的思考過程用語言清晰地表述出來,解釋為什么要這么放置、哪里需要注意重力和結構的平衡。

      可以說,機器人基于深層的物理理解,獨立完成復雜的三維結構搭建,展現了物理直覺與推理能力的有機結合。

      第三個是具備推理鏈的自主探索能力。

      推理鏈的自主探索能力是指機器人在面對一個未知或不確定的任務時,不再依賴預設規則或外部指令,而是能像人一樣,自主觀察環境、調動已有知識,構建出一套連貫的推理過程,來指導自己的行動。這是從 " 被動執行 " 走向 " 主動決策 " 的關鍵能力。

      【視頻演示 3:帶有推理過程的物品搜索】

      在 Demo 中,當機器人得到指令:" 找到藍色的布偶玩具并把它拿到桌子中間 "。沒有任何記憶參考的機器人,開始根據指令進行探索:先查看桌面物品,逐一挪開杯子、衣服,試圖找到玩偶;隨后又依次拉開抽屜,尋找可能的藏匿處。

      整個過程,機器人展現出的不是機械式執行,而是一種目標導向的推理能力,意味著機器人能夠理解任務目標,并推理出合理的行動路徑," 自己想辦法完成任務 "。

      以上三個過程,機器人需要在操作中實時輸出推理過程,這要求模型在統一架構中實現物理操作、視覺和語言推理的精確同步," 這種推理過程是端到端學習的自然涌現 "。

      因此 CoT 不再是工程技巧,而是真正成為驅動機器人思考和行動的重要機制。在這一過程中,模型架構、任務反饋機制與訓練范式的每一步演進,都教會機器人以新的方式理解世界,完成交互。

      此外,端到端統一具身思維鏈讓機器人還具備了從視頻中學習的能力和協作推理能力。

      在觀察人類操作的視頻時,機器人并不只是模仿動作表面,而是嘗試去 " 看懂人類在做什么 " ——它從視頻中推斷出人類行為背后的真實意圖和目標狀態。這意味著它不僅能學會怎么做,更能理解 " 為什么這么做 "。

      【視頻演示 4:從視頻中推斷動作信息意圖并自主執行】

      這種能力遠不止是復制動作,而是一種融合了視頻理解、人類意圖識別和任務目標推理的復雜能力。它讓機器人具備了初步的自主學習能力。

      結 語

      在具身智能的發展路徑上,CoT 正逐漸成為連接感知、推理與行動的核心技術。無論是分層架構還是端到端模型,各方都在尋找更好的方式,讓機器人真正理解并適應物理世界。

      自變量機器人選擇了一條天花板更高的路:在統一的端到端架構中推動多模態思維鏈的自然涌現。

      他們相信,只有拋棄拼接式的多模態融合方式,才能打通視覺、語言和行動之間的壁壘,讓機器人像人一樣,在行動中感知,在感知中思考,思考的結果又即時地、非線性地體現在行動中,從而形成更加豐富的 " 思維環 ",以適應復雜的物理世界。

      這是一場對具身認知的重構,讓機器人具備真正的整體性能力。或許就從這樣一條思維鏈起,機器人將開始真正走進現實世界。

      文中視頻可查看文章:https://mp.weixin.qq.com/s/i6zmzBlMxEZWh7F2H6b-iw

      雷峰網雷峰網

      相關標簽
      主站蜘蛛池模板: 老鸭窝毛片一区二区三区| 久久久久99人妻一区二区三区 | 国产成人无码一区二区在线播放| 蜜桃传媒视频麻豆第一区| 无码乱码av天堂一区二区| 丰满爆乳一区二区三区| 男人的天堂亚洲一区二区三区| 波多野结衣一区二区| 国产自产V一区二区三区C| 久久久人妻精品无码一区 | 国产微拍精品一区二区| 久久se精品一区精品二区| 香蕉视频一区二区| 成人区精品一区二区不卡| 国产一区二区三区播放| 国产主播福利精品一区二区| 亚洲无码一区二区三区| 日韩在线一区二区| 亚洲国产欧美国产综合一区| 国产99视频精品一区| 精品一区二区视频在线观看| 久久无码人妻一区二区三区| 久久精品国产第一区二区三区 | 国产福利电影一区二区三区,日韩伦理电影在线福 | 一区二区三区免费在线视频 | 国产精品久久一区二区三区| 亚洲国产美国国产综合一区二区| 日本免费电影一区二区| 少妇无码一区二区二三区| 精品一区二区三区波多野结衣| 久久精品无码一区二区无码| 国产成人综合一区精品| 色国产在线视频一区| 一区二区不卡视频在线观看| 中文字幕无码一区二区三区本日| 日本一区二区三区精品中文字幕| 一区二区视频在线播放| 在线精品亚洲一区二区| 午夜无码一区二区三区在线观看| 国模丽丽啪啪一区二区| 少妇无码一区二区三区|