置身機器人這樣的大熱賽道,明星研究員總被如此之多的目光注視著。
但關于龐江淼,網絡查到的信息寥寥。為數不多的內容是,聚焦計算機視覺,浙江大學博士,香港中文大學 MMLab 研究員,接下來一份經歷就是現在了——上海 AI 實驗室青年科學家,具身智能團隊負責人。30 歲出頭,屬實年輕。
在今天的具身智能領域里,CV 出身的研究人員占據了相當大的比重,龐江淼算得上是其中很典型但又很顛覆的一個。
之所以說典型,是因為其早期成果全部集中于傳統 CV 范疇。他曾連續兩年斬獲 MS COCO 目標檢測挑戰賽冠軍,是 MMLab 視覺感知系列開源平臺 MMDetection、MMTracking、MMDetection3D 的作者,取得 CVPR 2023 最有影響力論文和 ECCV 2024 最佳論文提名。
而之所以又說顛覆,則是因為,龐江淼并未像多數 CV 出身的其他人一樣,停留在感知層面向機器人領域漸進過渡,而是從轉型之初就直接切入了底層的控制。
由他主導開發的人形機器人多姿勢站起控制算法是一個典型例證,這篇文章獲得了機器人學習頂級會議 RSS 2025 的最佳系統論文提名獎。這也是龐江淼第一次投稿 RSS,此后,他共有 6 篇文章相繼被 RSS 接收,中稿率 75%,主要涉及人形機器人與機械臂的運動控制方向。
用他自己的話來說," 我切得很直接,決定去做具身之后,就不再是僅僅用視覺去解決具身的問題。所以,盡管我是 CV 出身,但我現在的 mindset 其實挺不 CV 的。科研最關鍵的還是定義問題和解決問題的思維邏輯。只要找到合適的問題,聚焦并追求極致,總會有好的結果。"
這個跨越式的轉型發生在 2021 年前后。
據他回憶,當時," 老本行 " 目標檢測觸到瓶頸,技術 " 拱 " 不動了。同時,視覺本身很難產生閉環價值,業界開始熱議 " 感知與行為閉環 ",視覺的獨立性被重新評估,成為機器人感知的一個模塊。驅動機器人行動,才會帶來價值。
而比這早一年,Marco Hutter 團隊采用強化學習在仿真環境中訓練,再將之遷移到真實的四足機器人 ANYmal 上,使機器人實現高動態運動。這意味著機器人領域終于出現了 data driven(數據驅動)的解決方案,也逐漸掀翻了傳統認知。
" 舊的領域遇到了瓶頸,新的東西也出現了,那么轉型也是自然而然的了。"
在向雷峰網 AI 科技評論講述這段經歷時,龐江淼向后靠坐在椅背,整個人似乎松懈了一下,但語速仍然很快——這也是對談中他留給人最鮮明的印象,思維敏捷、語速極快,問與答之間基本沒有留下思考的空檔。
在剛剛過去的 WAIC 期間,他帶領上海 AI 實驗室具身智能團隊發布了『書生』具身全棧引擎 Intern-Robotics。發布結束后,雷峰網 AI 科技評論與之進行了對談。
以 Intern-Robotics 為錨點,你會發現,他們的目標不在某個單一的技術點,而是一套開放共享的基礎設施,一個具身智能領域的 "ChatGPT" 時刻,讓整個行業的飛輪轉起來,轉得更快。這也是在對談中龐江淼數次想要強調的雄心。
大小腦融合可能是大趨勢
AI 科技評論:最近和很多行業內人士聊,一部分聲音認為具身智能的研究逐漸收斂到了三個大方向——具身大腦、全身控制、大小腦協調。您認可嗎?
龐江淼:我個人不完全認同。所謂大小腦是更偏宏觀的劃分。
具身智能目前還很難做到任務泛化,任務層面可能包括空間感知、導航、操作、人形運控等;所有任務都可以有大腦負責推理,同時有小腦負責具體執行,只不過有的任務側重大腦,有的任務側重小腦。現在無法融合才會存在所謂大、小腦,再發展幾年可能就是一個模型。
AI 科技評論:所以大小腦融合是大趨勢?
龐江淼:可以這么說。目前大小腦之所以無法快速融合,和端側算力水平有關,端側芯片還推不起大模型,這就意味著,要做低頻的思考和高頻的行動,也就是雙系統,前者相當于大腦,后者相當于小腦,這種架構本質上也符合人類行為學。
AI 科技評論:你們在研究具身大模型的過程中會受限于算力水平嗎?
龐江淼:算力分為云端和終端兩部分,模型訓練肯定是在云端,但推理一定是在端側,目前主要是端側算力受限。當然,科研是可以用各種各樣的方式繞過它的,但如果走向了商業化落地場景,這個問題就繞不過去了。
AI 科技評論:大腦層面,VLA 是現在的共識路線了嗎?
龐江淼:VLA 是重要的技術路線,有助于泛化能力的提升,但只有 VLA 應該也不夠,我們很關注一些傳統的控制理論,共同提升模型的能力。其實在 VLA 領域現在也標準不一,我們一直開玩笑說現在市面上有三種 VLA。
Google 在 2023 年發布的 RT-2 算是第一個具身智能 VLA。當時谷歌在 VL 大模型中加入了一個 A 的模態,將機器人動作映射為文本標記,和互聯網規模的視覺 - 語言數據集共同訓練,既保留多模態大模型的識別和交互能力,又能讓機器人動起來。這是最狹義的 VLA。
但后來大家逐漸發現這種技術路線不是最優的,因為機器人動作數據很少,加入后無法泛化。那就基于一個多模態大模型微調出來一個模型,只具備執行能力,不具備思考能力,我們一般把這種叫做 A 式的 VLA。
第三種是只要有視覺、文本、行為的 encoder 就叫 VLA,這種可能就過于寬泛了。
AI 科技評論:你剛剛提到任務劃分,具身領域的主流任務有哪些?
龐江淼:主要是四個比較核心的方向:感知、操作、導航、人形運控。
這幾個任務之間是平行的,也許最終會融合但目前還沒有。比如巡檢機器人公司可能只關心導航能力,工業機器人公司可能只關心機械臂的操作能力,而人形機器人目前則只關心人形運控……
不同的任務,VLA 大模型的技術方案和表現也會有所不同。和真實世界的交互越多,真機數據的價值就越大。所以導航,以及 pick and place 等簡單任務,合成數據可以占據大部分比重。但如果復雜度進一步上升,仿真算法本身就會帶來新的挑戰,也會帶來非常多有意思的研究課題。
AI 科技評論:具身智能領域仍然有很多路線之爭。
龐江淼:是的,我覺得有兩個原因。
首先,復雜性太高了。拿計算機視覺舉例,這個領域在上個世紀就已經形成了清晰的任務定義、數據集,比如目標檢測、分割、跟蹤等高維視覺,去模糊、超分辨等低維視覺……而具身智能的復雜度更大,子任務的拆分定義還是模糊的。
其次,高度復合,這意味著所有人都可以走向這個領域,NLP、視覺、機器人、IL、自動駕駛等等的人都會有自己的視角,選擇離自己最近的路線切入。
做平臺和賣芯片差不多
AI 科技評論:在爭論仍舊很 " 嘈雜 " 的背景下,WAIC 期間團隊發布的 Intern-Robotics 亮點在于什么?
龐江淼:我覺得可以從兩個維度看,一方面,科研層面肯定有其先進性,我們還會在接下來一段時間公開最新的工作;另一方面,定位比較清晰,它作為一個平臺,一個基礎工具鏈,能夠跟更多的伙伴合作,為領域內其他團隊創造價值。
通過這次發布,實驗室把過去幾年的積累去以一種非常體系化的方式 " 給 " 了出去,我們也會以它為載體跟業內交流、合作。也希望未來平臺用戶量越來越大,大家能聚集起來一起做一些事情,同時隨著數據積累形成公開數據集。
AI 科技評論:但實驗室離場景有點遠,在提升大腦能力方面會不會受局限?
龐江淼:所以才需要跟公司合作,對方有數據和場景,我們提供模型能力,雙向助益。
AI 科技評論:合作具體是怎么進行的?
龐江淼:以今年我們跟國地中心的合作為例,國地中心有場景、有本體,我們協助他們進行任務定義和數據采集規則的制定。我們內部有一條合成數據的管線,場景數據給過來后,我們再做一些合成數據,把兩種數據整合起來訓練模型,模型會部署到 " 青龍 " 上。本體落地應用的過程中又會產生一系列交互數據,我們會利用這些逐步迭代模型能力、數據管線的能力。
慢慢地,這個領域可能會出現基模型,搭配上一系列工具鏈,行業內的任何本體公司都可以 " 開箱即用 ",輪子也就轉起來了。
AI 科技評論:所以實驗室在具身智能方向的定位是做平臺?最終想達成的愿景是什么?
龐江淼:我們一直希望做平臺,但不僅僅是平臺。
最終目的是希望推動整個領域有更加歸一化的基準,比如在任務劃分、數據等方面,大家的努力能匯到一塊去,推動整個領域迭代更快一些。
AI 科技評論:這種定位和團隊的發展歷程、優勢基礎有關嗎?
龐江淼:實驗室在具身智能這個領域積淀的時間算是比較長了。2022 年初我們團隊就已經存在了,早期偏向前沿探索,最初是做足式機器人,但同期也有做操作。2024 年年中,具身智能團隊更完善,方向也更加聚焦。
另外我們團隊組成足夠 diverse,NLP、AGC、自動駕駛等等領域的人員都有,內部還有一個 AIGC 的團隊,能做 Real2Sim。
總之,認知積累早、技術儲備全,公立的研發機構的身份也有助于開展類似的合作。所以我們有希望率先去解決領域內關于任務定義、數據集等基礎問題。
AI 科技評論:怎么吸引企業加入合作?
龐江淼:其實做平臺和賣芯片差不多,本質是把生態做好,靠模型算法取勝。同時把用戶體驗做好,比如一套易用性很高的框架。
AI 科技評論:平臺希望吸引更多人、沉淀更多數據,對量級有沒有初步的規劃?
龐江淼:無論是用戶,還是數據,我認為現在很難去判斷量級,因為沒什么參考。打個可能不太恰當的比方,大模型有點像互聯網,具身智能有點像制造業。制造業的本質是價值閉環的流程更長,例如,一家車企銷量過百萬已經算是很高的數值,但一家互聯網企業用戶上億都不算什么。所以討論用戶數的量級意義不大。
再者,數據量本身不產生價值,數據集的多樣性也不產生價值,利用這一數據集能訓練出來什么樣的模型,才決定了價值。
接下來的目標是 " 三個泛化 "
AI 科技評論:那接下來平臺還有什么重點方向嗎?
龐江淼:現在具身智能主要的問題在于,泛化不足。包括今年以來很火的機器人跳舞,其實也是用模型去擬合一條軌跡。未來實驗室的目標是,在具身智能作業 100% 可靠性的前提下,實現本體泛化、場景泛化、任務泛化,這是總體的邏輯。
具身智能和大模型有一個非常明顯的不同,就是對作業成功率趨近 100% 的要求。大模型可以有幻覺,可以 " 再想一想 ",但人形機器人摔倒了就是摔倒了。
現在我們正在做人形運控的基模型,當然它目前只是基模型的概念,但在參數量上還是一個小模型。我們也一直在尋找一些更難的場景來展示模型能力,比如高動態場景的交互,之后我們可能會出一個 demo,讓異構的機器人從不同速度轉動的輪盤上把物體精準拿下來,再去做協作,這就同時能夠體現出上述三種泛化。
當然,短周期內我們會先做好聚焦場景下的局部泛化,先解決最基礎和關鍵的問題,再去拓寬。剛剛提到了 3 種泛化、4 種任務,我們會在這個大框架下找一些具體場景,橫向拉幾條比較窄的線去做。
AI 科技評論:所以 Intern-Robotics 的 " 一腦多形 " 也呼應了其中的本體泛化?
龐江淼:是的,具身智能要面向應用需求,不限場景、任務。高成功率,本質是需要一個好的后訓練技術。那么只要有一條通用的管線,基于前期預訓練的基模型,就可以在一定時間內微調出一個具體行業領域的機器人。
如果基模型是允許 " 多形 " 的,也就相當于管線相通。在迭代過程中,我們可以逐漸把后訓練過程干掉,這樣也許可以出現一個可以零樣本泛化的 "ChatGPT"。
AI 科技評論:這也是業內大家一直在追問的,具身智能領域的 ChatGPT 什么時候才能出現?這也是你們在做的東西對嗎?
龐江淼:其實我們是 " 沿途下蛋 "。ChatGPT 是終極目標,但并不是立刻就要做出來。這是一個一邊迭代、一邊落地,逐漸把后續微調工作壓縮下來的過程。
AI 科技評論:除了本體泛化,還有場景泛化,之前你主導的可泛化地形人形機器人自主站立控制技術做了多久?
龐江淼:這項工作的周期并不長,也就 3 — 6 個月。
技術突破其實是跟著整個領域的迭代節奏走,如果你真的覺得一些工作做得很好,它本質只是領先了整個領域 3 — 6 個月,并不會超脫出領域發展的客觀規律。
AI 科技評論:當時這個項目的 idea 是怎么出現的?
龐江淼:我們當時在做人形機器人運控,第一階段是盲走。沒有視覺的情況下,機器人動作是非常穩定的,包括現在機器人打拳整個決策也是沒用到視覺的。
接下來要讓它上臺階,這時候就必須加入視覺了,但視覺會給系統帶來噪聲,使機器人經常摔倒,每摔倒一次都要重新調試。所以我們覺得,如果機器人能自主站起來,整個系統會更加魯棒。所以這個項目就出來了。
其實從這個項目也能看出,我們的風格還是以解決具體問題為導向去做項目的。
AI 科技評論:怎么處理視覺帶來的這些噪聲?
龐江淼:我們當時有一篇論文叫 PIM(Perceptive Internal Model),利用傳統機器人領域的建圖技術,把機器人周圍環境精盡量精準構建起來。仿真訓練的過程可以直接拿到障礙物位置的真值,然后再把 Sim 和 Real 之間盡可能對齊。
AI 科技評論:這套算法其實還解決了一些高難度地形上機器人的動作穩定性,比如梅花樁這樣的稀疏落足點,甚至在機器人運動中突然加入障礙物。
龐江淼:梅花樁很簡單,只要在仿真里加一些這樣的地形,定向去微調一下。在通用的框架下,機器人就能完成相關動作。
動態地形的問題比較難,現在所有 AI 處理動態事物都非常困難,坦白講,我們最近并沒有什么能解決這個問題的辦法。動態相當于增加了多樣性,AI 的邏輯很簡單,input 多樣性越小,模型表現越好;多樣性上去了,模型表現就會下來。
數據匱乏的對策是 Real-Sim-Real
AI 科技評論:從多樣性的維度看,機器人動作仍然是背誦而非自學習的過程?
龐江淼:你可以理解它是在背誦,但當數據量足夠大,它會出現智能的涌現。
這也是 ChatGPT 最厲害的地方,它證明了,AI 的本質很有可能就是一種極致的 over fitting。它目前已經在大語言模態下做到了,但語言是一維的,并且是結構化的,有海量的互聯網數據支撐,所以可以堆上去。
但在具身智能領域,數據的量級差距不可同日而語,數據量小是最本質的問題。
AI 科技評論:具身智能領域最匱乏的是哪一類數據?
龐江淼:主要是精準行為數據。
AI 科技評論:團隊在訓練模型時數據來源有哪些?
龐江淼:現在還是一個數據金字塔的概念,最頂層是真機數據,它最精準,但數量也最少;中間是仿真;下面是網絡視頻數據,離機器人最遠,但數量最大。純粹依賴真機數據肯定不行,因為數據不夠,且沒辦法解決采集成本高昂的問題;純粹的合成數據也不行,它沒辦法做到復雜交互場景的完全精準合成。
因此主要在于如何搭建這個金字塔,訓練出一個足夠魯棒、泛化的模型。我們每種數據都會用,關鍵在于怎么融合。我個人會比較看好 Real to Sim to Real 這套技術路線,再配上一些真實世界的強化學習。
AI 科技評論:你們會使用網絡視頻數據嗎?
龐江淼:視頻數據更多是做預訓練,但很難用于后訓練。二者的區別在于,預訓練的數據量非常大,含有更多領域的知識;但后訓練必須有非常精準的行為標簽。
AI 科技評論:Real to Sim to Real 的過程中,如何消除 Sim 和 Real 之間的 gap?
龐江淼:Sim 和 Real 之間最大的 gap 無非兩點。
一點是關節運動本身帶來的誤差,但這一點是相對可控的,因為電機是自己造的,所有的真值在機器人運動過程中都能拿到;
另一點是視覺帶來的誤差。加入視覺后就意味著需要在仿真器里做一個相機的仿真,相機仿真本身和真實世界就是有差距的,再加上機器人看到的事物的多樣性是沒有約束的,這是最大的困擾點,也是接下來需要重點研究的方向。
AI 科技評論:大模型的 scaling law 會面臨瓶頸,具身智能也會如此嗎?
龐江淼:先解決從無到有,再解決從有到優。大模型已經用互聯網數據提升到了很高水平,面對接下來的瓶頸,需要更高質量的數據做調優。但具身智能還停留在前一個階段,即怎么把數據堆上去,現在談論 scaling law 瓶頸還為時尚早。
我對 scaling law 其實還有一個思考:它并不只是一條線性的增長曲線。我們可以在很多維度找到這種數量和性能的線性關系。它的關鍵其實是一個可以讓你放心 scaling 資源投入的支點,這也是我們正在探索的。
AI 科技評論:之前元宇宙沒能做起來,也是類似的原因,比如 3D 內容不夠豐富。現在大家也會擔心具身智能會不會成為下一個元宇宙。你怎么看?
龐江淼:不會。具身智能的能力確實遠未達到落地的水平,但它和元宇宙最大的區別在于,它的行業需求是客觀且持續存在的,只要能做出來,下游有很多原本就存在的產業都在等待著。我對這個領域的感受是,絕對值不行,但動量非常大。
需求明確,只是當前技術不成熟,那么技術可以往前迭代,在接下來的周期里,技術會繼續往前跑,然后慢慢落地,就像剛剛說的沿途下蛋。