關于ZAKER 合作
      鈦媒體 12小時前

      AI 浪潮下,具身智能的崛起與數據瓶頸

      文 | 捉羊李

      具身智能在 AI 賽道領域愈發火熱,幾乎國內外所有科技大廠,都或多或少投身于這個浪潮中,數億級融資不斷。

      就在這兩日,世界機器人大會(WRC 2025)正在北京如火如荼的舉辦,其熱度不亞于幾日前的 WAIC。備受矚目的國內具身智能獨角獸們紛紛展示絕活,宇樹科技的兩名 Unitree G1 機器人上演了一場拳擊賽;銀河通用機器人輪盤人形機器人 Galbot 化身小賣部店員,為顧客取送商品;星動紀元則展示了最新發布機器人 L7 智能分揀包裹的能力。還有加速進化的 T1 機器人踢足球賽、擎朗智能的雙足服務機器人 XMAN-F1 打爆米花等等,會場共有 200 余家機器人企業大秀肌肉,展現產品的落地場景和應用能力。

      具身智能的時代將至,我們該如何理解具身智能?它又面臨著何種的瓶頸與未來?

      我們如何理解具身智能?

      我們人類在出生后還沒有理解社會語言時,無法對語言的指令做出反饋,但可以通過視覺、觸覺、聽覺等感知向外界做出回饋,并慢慢通過 " 感知 - 行動 " 逐步來學習認知。這也就是具身智能所在做的事情,具身智能通過將人工智能融入到機器人等實體產品中,賦予他們如同人類一樣感知外界和學習交互的能力,并以此作出決策,進而在不同的場景 " 隨機應變 " 地完成任務。

      在中外諸多文獻中,非具身智能(Disembodied AI)又稱互聯網智能(Internet AI)。非具身智能并不需要與外界進行物理交互,也并不需要遷移進真實世界中的實體。非具身智能往往依賴喂哺給它的數據,它更像一個 " 思想家 " 而非 " 實踐家 ",當然它也具有它的優勢,如 AlphaGo,橫掃數十位圍棋大師。

      上海交通大學教授盧策吾曾給出一個案例去解釋這兩者之間中的區別,他將非人類視角的智能稱為第三人稱智能,也就是非具身智能,通過輸入盒子樣式的符號,讓機器學習什么是盒子;而人類視角的智能,則是通過打開盒子,去體驗什么是盒子。這便是實踐性學習方法和概念性學習方法的區別。

      (圖片來源于網絡)

      從技術層面來說,我們也在從大語言模型(LLM)到圖像 - 語言模型(VLM)再到圖像 - 語言 - 動作多模態模型(VLA)不斷推進,讓機器人能處理更多信息,不局限于只是單純的實現輸入的指令,而是實現更復雜的交互,推動人形機器人實現具身智能。

      具身智能數據采集的瓶頸

      盡管具身智能行業前景光明,但目前行業發展面臨一個繞不開的難題:數據的稀缺性。其稀缺性原因有二,一是因為數據采集成本高,二是因為數據量難以形成規模。

      為什么說具身智能的多模態數據獲取成本更高?人工智能的演進與發展都依靠數據對模型以及機器人的的訓練。上文提到的非具身智能中收集并用來訓練的數據大多來源于公開的互聯網文本,可以通過互聯網用戶的瀏覽、搜索、點擊、發言等線上行為來獲取數據。而具身智能領域獲取數據就更加復雜,它涉及到機器人與真實世界的動態交互,比如抓取、搬運、行走、避障等,需要采集機器人在與環境交互時視覺、觸覺、力覺等多模態的傳感數據以及決策數據,這就決定了這類數據耗時長且生成成本更加高昂。

      并且具身智能對數據的需求還具有海量、高質量且多樣化的特點。例如,自主導航機器人需要處理海量環境數據,以增強其路徑規劃和避障能力;執行高精度任務的工業機器人需要極其精確的數據,微小的誤差都可能導致嚴重的生產質量問題;家庭服務機器人必須擁有廣泛的家庭環境數據,來提高泛化能力,以適應不同家庭的各項任務。

      具身智能的數據量難以形成規模,是因行業中存在 " 數據孤島 "。

      因為大多數具身智能機器人都需要在特定環境中收集數據,他們的數據存儲格式、元數據形式、數據標注粒度都并不相同。并且由于高昂的成本以及隱私安全考慮,公司與公司之間并不會共通數據?,F下的數據集無法共通,數據無法最大化的利用,導致行業間會有重復工作和資源浪費,形成一座座不互通的 " 數據孤島 "。數據無法流轉,無法形成一個標準體系,大大減緩了具身智能的進展。

      合成數據或者是出口

      上文中提到,具身智能對真實數據的采集、處理、標注和利用都面臨諸多挑戰。且人工智能領域的訓練數據還存在一個通用的問題,即人類生成數據的速度無法匹及到 AI 不斷增漲的需求。

      馬斯克在今年年初曾表示," 在 AI 訓練中,我們現在基本已經耗盡了人類積累的總和。"OpenAI 聯合創始人兼前首席科學家伊利亞 · 蘇茨克維爾在神經信息處理系統(NeurIPS)大會也曾直言道," 人工智能的訓練數據如同化石燃料一樣面臨著耗盡的危機 "?;ヂ摼W智能的數據尚且不足以訓練消耗,何況是更難以獲取的多模態數據呢?

      綜合原因下,目前具身智能領域大多使用的是以合成數據為主、真實數據為輔的模式。

      真實數據(Real World Data)屬于人類創建的文本、圖像和視頻,是在真實事件和場景下生成中的數據。合成數據(Synthetic Data)就是通過仿真系統或生成式 AI 技術,在虛擬環境中 " 模擬 " 出機器人與環境的交互場景。這一仿真技術叫做 Sim-to-Real,利用技術手段,將虛擬環境無限地逼近于真實場景,相當于給受訓的機器人們創造一個 " 元宇宙 "。

      以此生成的數據雖然不是直接從現實世界中采集的,但經過精心設計和技術處理,也可以具備較強的真實性和泛化能力。合成數據由于無需人工遙操機器、無需標注等特點成本相對更加低廉,使用率也更高于其他行業。據合成數據公司光輪智能的甘宇飛表述,在自動駕駛領域,合成數據的使用比例大約在 30% 至 40% 之間,而在具身智能領域,這一比例則高達 80% 至 90%。

      (圖片來源于網絡)

      合成數據是一把達摩利斯之劍。它成本低廉,還能讓機器人在萬端變換的環境中安全的測試;但合成數據畢竟依賴于模擬環境,可能會編造出看似合理但并不可能存在的場景,甚至一絲光照的差別都可能導致 AI 出現行為偏差,甚至走向 " 崩潰 "。

      綜合原因下,目前具身智能領域大多使用的是以合成數據為主、真實數據為輔的模式。并需要將兩者數據的時間空間維度對齊,將虛擬與真實更好的彌合才能高效的訓練具身智能,這也是行業間大多使用的戰略性決策。

      具身智能機器人的落地和商業化

      具身智能的載體不一定是人形機器人,但是人形機器人是更好的載體,也是追逐的風口。目前,誰家能將具身智能機器人商業化量產落地?這是各行各業都在關注的話題。

      我想,這一天的到來可能沒有那么快,行業仍處于訓練階段,量產落地可能還需要幾年時間。具身智能的概念很大,展望的前景很廣,但其訓練成本和生產生產成本過高,未來生產力必然是決定行業黑馬的重要因素。

      我們期待具身智能機器人飛入尋常百姓家這一天的到來。

      參考文獻:

      1. 為什么說具身智能是通往 AGI 值得探索的方向?上海交大教授盧策吾深度解讀

      2.《獨家對話光輪智能:合成數據如何破解 AI" 數據饑渴 "》|50x50 https://www.tmtpost.com/7582234.html

      3.《The Value of Data in Embodied Artificial Intelligence》| https://cacm.acm.org/blogcacm/the-value-of-data-in-embodied-artificial-intelligence/#six

      相關閱讀

      最新評論

      沒有更多評論了

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 国产午夜三级一区二区三| 乱中年女人伦av一区二区| 国产一区二区视频在线播放| 国产成人综合一区精品| 一区一区三区产品乱码| 天堂一区二区三区在线观看| 福利电影一区二区| 国产精品亚洲一区二区三区在线| 中文字幕一区二区精品区| 暖暖免费高清日本一区二区三区 | 中文字幕人妻AV一区二区| 国模无码一区二区三区| 亚洲性日韩精品国产一区二区| 一区二区视频传媒有限公司| 麻豆一区二区免费播放网站| 一区二区免费在线观看| 中文字幕精品无码一区二区三区 | 日本一区二区三区在线看 | 日日摸夜夜添一区| 一区视频免费观看| 中文字幕一区二区精品区 | 亚洲不卡av不卡一区二区| 亚洲国产高清在线精品一区| 精品乱人伦一区二区| 久久精品一区二区三区日韩 | 无码人妻精品一区二区三区久久 | 一区二区三区日本视频| 色偷偷一区二区无码视频| 国产a久久精品一区二区三区| 国产成人AV一区二区三区无码| 国模无码视频一区| 亚洲伦理一区二区| 亚洲AⅤ无码一区二区三区在线| 亚洲午夜电影一区二区三区 | 无码人妻少妇色欲AV一区二区| 国产一区二区三区播放| 日本一区二区在线播放| 精品国产毛片一区二区无码| 无码少妇一区二区浪潮免费| 国偷自产av一区二区三区| 日本韩国一区二区三区|