關(guān)于ZAKER 合作

      谷歌發(fā)布本地 VLA 模型,機(jī)器人界的“安卓系統(tǒng)”要來了?

      圖片來自視覺中國(guó)

      藍(lán)鯨新聞 6 月 25 日訊(記者 武靜靜)6 月 25 日,Google DeepMind 正式發(fā)布首個(gè)可完全在機(jī)器人本地部署的視覺 - 語(yǔ)言 - 動(dòng)作模型(Visual-Language-Action, VLA)—— Gemini Robotics On-Device。

      這也意味著,具身智能(Embodied AI)正在從依賴云端算力,邁入本地自主運(yùn)行的關(guān)鍵轉(zhuǎn)折點(diǎn),也為產(chǎn)業(yè)落地打開了新的可能性窗口。

      少量演示即可快速學(xué)習(xí),具有跨機(jī)器人形態(tài)泛化能力

      一直以來,具身智能的部署面臨著兩大挑戰(zhàn):一是對(duì)云計(jì)算資源的重度依賴,這限制了機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)環(huán)境下的獨(dú)立作業(yè)能力;二是模型體積龐大,難以在機(jī)器人有限的計(jì)算資源上高效運(yùn)行。

      據(jù)官方介紹,Gemini Robotics On-Device 能夠在算力受限的機(jī)器人設(shè)備上本地運(yùn)行,同時(shí)展現(xiàn)出卓越的通用性和任務(wù)泛化能力。由于該模型無需依賴數(shù)據(jù)網(wǎng)絡(luò),因此對(duì)于對(duì)延遲敏感的應(yīng)用程序具有顯著優(yōu)勢(shì)。

      更為關(guān)鍵的是,該模型在實(shí)際操作中展現(xiàn)出高水平的通用能力和穩(wěn)定性。Google DeepMind 展示的演示視頻中,機(jī)器人在無網(wǎng)絡(luò)連接狀態(tài)下完成了如 " 把一個(gè)魔方放進(jìn)包裝袋里 "" 拉開一個(gè)包包的拉鏈 " 等任務(wù),涵蓋感知、語(yǔ)義理解、空間推理和高精度執(zhí)行多個(gè)環(huán)節(jié)。

      DeepMind 研究人員表示,它具備 Gemini Robotics 的通用性和靈活性,可以立即處理各種復(fù)雜的雙手任務(wù),且只需 50-100 次演示, 它就能學(xué)習(xí)新技能。一位機(jī)器人領(lǐng)域工程師告訴記者,目前大部分機(jī)器人需要進(jìn)行成千上百次訓(xùn)練,才能完成一個(gè)任務(wù)。這意味著,谷歌的新模型極大地?cái)U(kuò)展了模型的應(yīng)用范圍和部署靈活性。

      值得注意的是,盡管模型最初針對(duì)特定機(jī)器人訓(xùn)練,但它能泛化到不同的機(jī)器人形態(tài),如雙臂機(jī)器人和人形機(jī)器人,極大地?cái)U(kuò)展了其應(yīng)用潛力。在演示視頻中可以看到,在雙臂 Franka 上,該模型可以執(zhí)行通用指令,包括處理以前未見過的物體和場(chǎng)景、完成折疊衣服等靈巧的任務(wù),或執(zhí)行需要精確度和靈巧性的工業(yè)皮帶組裝任務(wù) 。

      此外,谷歌首次開放 VLA 模型的微調(diào)功能,這意味著工程師或機(jī)器人公司可以基于自有數(shù)據(jù)對(duì)模型進(jìn)行定制訓(xùn)練,從而優(yōu)化其在特定任務(wù)、場(chǎng)景或硬件平臺(tái)上的表現(xiàn),進(jìn)一步提升應(yīng)用效率與實(shí)用價(jià)值。同時(shí),谷歌還推出了 Gemini Robotics SDK,方便開發(fā)者進(jìn)行模型評(píng)估和快速調(diào)整。從這些動(dòng)作可以看出,谷歌希望為機(jī)器人領(lǐng)域提供一個(gè)開放、通用且易于開發(fā)的平臺(tái),就像安卓系統(tǒng)為智能手機(jī)行業(yè)所做的那樣。

      具身智能正在進(jìn)入 " 端側(cè)時(shí)代 "

      " 這標(biāo)志著機(jī)器人終于可以走入真實(shí)環(huán)境了。一位具身智能領(lǐng)域?qū)<腋嬖V藍(lán)鯨科技記者,"以往受限于帶寬和算力,很多機(jī)器人 AI 只能做示范。這次谷歌的進(jìn)展,意味著通用模型可以真正運(yùn)行在硬件終端上,未來不依賴聯(lián)網(wǎng)也能做復(fù)雜操作。"

      具身智能一度被認(rèn)為是 AGI 通向現(xiàn)實(shí)世界的橋梁,而具備本地部署能力的 VLA 模型,則是這座橋梁通車的關(guān)鍵一環(huán)。前述專家告訴藍(lán)鯨科技記者,本地 VLA 模型將使得機(jī)器人更適合家庭、醫(yī)療、教育等敏感場(chǎng)景,解決數(shù)據(jù)隱私、實(shí)時(shí)反應(yīng)、安全穩(wěn)定性等核心挑戰(zhàn)。

      過去幾年,大語(yǔ)言模型的 " 端側(cè)部署 " 已成為重要趨勢(shì)之一。從最初依賴大規(guī)模云端計(jì)算資源,到如今能夠在手機(jī)、平板等邊緣設(shè)備本地運(yùn)行,模型的壓縮優(yōu)化、推理加速與硬件協(xié)同不斷取得進(jìn)展。

      同樣的演進(jìn)路徑,正逐步發(fā)生在具身智能領(lǐng)域。VLA 模型(視覺 - 語(yǔ)言 - 動(dòng)作)作為具身智能的核心架構(gòu),其本質(zhì)是讓機(jī)器人具備從多模態(tài)信息中理解任務(wù)并做出行動(dòng)的能力。此前這類模型往往需要依賴強(qiáng)大的云端資源進(jìn)行推理和決策,受制于網(wǎng)絡(luò)帶寬、算力功耗與實(shí)時(shí)性瓶頸,難以在現(xiàn)實(shí)復(fù)雜環(huán)境中高效運(yùn)行。

      谷歌此次發(fā)布的 Gemini Robotics On-Device,意味著具身智能正在進(jìn)入類似語(yǔ)言模型的 " 端側(cè)時(shí)代 "。它不僅在有限算力下實(shí)現(xiàn)了穩(wěn)定運(yùn)行,還具備良好的通用性與遷移能力,能夠支持快速學(xué)習(xí)與適配不同任務(wù)和機(jī)器人形態(tài)。此次發(fā)布,也可能引發(fā)業(yè)界連鎖反應(yīng)。隨著 AI 算力和模型架構(gòu)的持續(xù)演進(jìn)," 邊緣智能 " 正從傳統(tǒng)的物聯(lián)網(wǎng)(IoT)走向以具身智能為代表的更高級(jí)階段。

      本地 VLA 模型將成為下一個(gè)必爭(zhēng)之地。"目前各類機(jī)器人在本體結(jié)構(gòu)、自由度和傳感器配置上的差異,使得統(tǒng)一的軟件架構(gòu)難以實(shí)現(xiàn)。" 一位關(guān)注機(jī)器人領(lǐng)域的投資人表示,"一旦硬件標(biāo)準(zhǔn)趨于統(tǒng)一,正如智能手機(jī)生態(tài)中 USB 接口、鍵盤、屏幕等通用組件所形成的規(guī)范一樣,將大大推動(dòng)算法的標(biāo)準(zhǔn)化與本地部署的實(shí)現(xiàn)。" 他認(rèn)為,谷歌正在構(gòu)建的 " 機(jī)器人安卓生態(tài) " 愿景,預(yù)示著一個(gè)更加標(biāo)準(zhǔn)化、易于開發(fā)與普及的具身智能有望到來。

      不過,在實(shí)際落地中挑戰(zhàn)依舊不容小覷,機(jī)器人硬件的多樣性和復(fù)雜性依然是突出問題,市場(chǎng)上形形色色的機(jī)器人硬件意味著即使是強(qiáng)大的通用模型,也需針對(duì)每種具體硬件進(jìn)行細(xì)致的適配和調(diào)優(yōu)。此外,要在海量、多樣化的實(shí)際應(yīng)用場(chǎng)景中真正落地,數(shù)據(jù)收集和標(biāo)注的成本可能異常高昂,特別是在需要專業(yè)操作知識(shí)和設(shè)備的工業(yè)或特定服務(wù)場(chǎng)景。

      更重要的是,機(jī)器人需要在極其復(fù)雜、動(dòng)態(tài)且不可預(yù)測(cè)的真實(shí)世界環(huán)境中保持魯棒性。光照變化、物體遮擋、非結(jié)構(gòu)化雜亂環(huán)境,以及人機(jī)交互中的細(xì)微差異,都將對(duì)模型的實(shí)時(shí)感知和決策能力提出嚴(yán)苛考驗(yàn)。確保機(jī)器人在各種實(shí)際場(chǎng)景中都能保持高水平的穩(wěn)定性和安全性,是未來具身智能發(fā)展必須持續(xù)攻克的難題。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了
      藍(lán)鯨財(cái)經(jīng)

      藍(lán)鯨財(cái)經(jīng)

      藍(lán)鯨財(cái)經(jīng),專注財(cái)經(jīng)新聞報(bào)道、財(cái)經(jīng)事件解讀。

      訂閱

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 日韩人妻无码一区二区三区| 精品一区二区ww| 中文字幕精品一区二区三区视频| 在线视频一区二区三区四区| 国产一区二区三区亚洲综合| 国产精品乱码一区二区三区| 成人无码一区二区三区| 中文字幕日韩一区| 无码日本电影一区二区网站| 日本精品一区二区三区在线视频| 国产精品一区三区| 无码av免费一区二区三区| 国产福利电影一区二区三区,亚洲国模精品一区| 国产成人综合亚洲一区| 亚洲国产高清在线一区二区三区| 一区二区三区国产| 欧美日韩综合一区二区三区| 亚洲AV无码一区二三区| 看电影来5566一区.二区| 国产精品亚洲午夜一区二区三区| 波多野结衣av高清一区二区三区| 上原亚衣一区二区在线观看| 亚洲变态另类一区二区三区| 一区二区三区四区国产| 2022年亚洲午夜一区二区福利| 国产一区二区三区樱花动漫| 精品久久一区二区三区| 日韩精品一区在线| 国产成人精品一区二区三区免费| 精品久久久中文字幕一区| 国产成人精品无码一区二区三区| 精品香蕉一区二区三区| 97久久精品午夜一区二区| 亚洲AV日韩AV一区二区三曲| 中文字幕不卡一区| 国产精品一区二区AV麻豆| 在线精品国产一区二区| 东京热无码av一区二区| 成人精品一区二区激情| 亚洲国产高清在线精品一区| 精品国产香蕉伊思人在线在线亚洲一区二区 |