文 | 追問 nextquestion
2025 年才過去 4 個月,機(jī)器人就出圈了兩次,在春晚舞臺上,他們 " 整齊劃一 " 演繹了一段秧歌舞,技驚四座;而在馬拉松賽道上,各型機(jī)器人卻接連失衡跌倒,暴露出在智能控制上的明顯短板。這兩次畫風(fēng)迥異的公開露面,不禁引人思考:在人工智能突飛猛進(jìn)的今天,機(jī)器人技術(shù)距離科幻作品中描述的未來場景還有多遠(yuǎn)?是已站在科幻照進(jìn)現(xiàn)實的門檻上,還是仍在技術(shù)迷霧中艱難摸索?
01 是什么讓 ta 從機(jī)器變?yōu)闄C(jī)器人?
機(jī)器人不同于普通機(jī)器的地方,在于其具有感知、規(guī)劃甚至決策的能力。例如吸塵器是機(jī)器,而能夠自主探索屋內(nèi)環(huán)境,根據(jù)地形制定清掃路線,規(guī)避障礙的掃地機(jī)器人,則可歸為機(jī)器人。
目前機(jī)器人種類繁多,根據(jù)應(yīng)用場景可以分為工業(yè)機(jī)器人(如機(jī)械臂)、服務(wù)機(jī)器人(具身人形)、特種機(jī)器人(軍用、救援)等。而科幻作品中那些給人留下深刻印象的大多是人型機(jī)器人,例如《西部世界》中的 " 接待員 "(Host)或《機(jī)械姬》中的智能機(jī)器人艾娃。
這些機(jī)器人最基本的特點,是具有靈活的運動能力,能夠跟得上人類的步伐,甚至能夠逃脫人類的追捕。而要想讓機(jī)器人健步如飛,其技術(shù)挑戰(zhàn)遠(yuǎn)比想象的要復(fù)雜。
以馬拉松為例,讓機(jī)器人完成一場比賽的技術(shù)挑戰(zhàn)涉及多個復(fù)雜系統(tǒng)的協(xié)同。要讓機(jī)器人跑起來,首先要解決的問題是環(huán)境感知。在綿延數(shù)十公里的賽道上,機(jī)器人需要應(yīng)對連續(xù)的彎道和起伏的坡度。這不是安裝幾個攝像頭就能解決的,不僅需要視覺傳感器、慣性測量單元(IMU)和激光雷達(dá)等硬件支持,更需要一套完整的多模態(tài)傳感器融合系統(tǒng),將各類感知數(shù)據(jù)實時整合并構(gòu)建精確的環(huán)境模型。
其次,在理想狀況下(科幻場景),機(jī)器人還應(yīng)當(dāng)能夠根據(jù)馬拉松比賽的場地線路自主規(guī)劃最佳運動計劃。例如,平坦路段上可以快速奔跑,而遇到連續(xù)彎道,則能自適應(yīng)調(diào)整為慢速通過以避免摔倒。然而現(xiàn)實中,我們在這屆機(jī)器人半馬中看到的,卻是依賴人類遙控(甚至需要被人牽著),距離真正的自主控制仍有差距。
本次馬拉松賽場上有一些有趣的現(xiàn)象。例如,陪跑的工作人員需要時不時給機(jī)器人的關(guān)節(jié)噴一噴冷卻液,而科幻作品中的機(jī)器人是能夠感知自身狀態(tài)并主動尋求自我修復(fù)的。另外,此次比賽機(jī)器人都是間隔 2 分鐘依次出場的,相當(dāng)于獨自奔跑,而不是像人類開賽時所有運動員一起出發(fā)。同時起跑意味著不僅可以對自身的感知,還需要涉及對其它個體的行動軌跡的預(yù)測。這反映了機(jī)器人在自適應(yīng)系統(tǒng)和群體智能方面還面臨著更深層的挑戰(zhàn)。
從環(huán)境感知到路徑規(guī)劃,從執(zhí)行控制到狀態(tài)評估,再到基于反饋的持續(xù)優(yōu)化——這個類似 OODA(觀察 - 調(diào)整 - 決策 - 行動)的閉環(huán)迭代過程中,每個環(huán)節(jié)都需要精確的算法支持。人形機(jī)器人要想如科幻作品中的描述那樣的高度自主性,在這個持續(xù)迭代中的每一步都不能出錯。
02 機(jī)器人能否通過互動 " 自我進(jìn)化 "?
近十年來,最著名的以機(jī)器人為主角的影視劇,莫過于《西部世界》。劇情中最出名的是機(jī)器人的分階段覺醒,從最初完全受到預(yù)設(shè)程序控制的德妹,到后來自主意識覺醒,能夠突破代碼的限制,做出其創(chuàng)造者沒有預(yù)先編碼的行為。機(jī)器人,至少是當(dāng)下階段的機(jī)器人,能否從人機(jī)互動中展開強(qiáng)化學(xué)習(xí)呢?
在開放環(huán)境中,目前機(jī)器人大多無法做到自主決策,正如我們在機(jī)器人馬拉松上看到的,其行動需要操作員遙控或牽引。那如果現(xiàn)實環(huán)境中還做不到,那能否在虛擬環(huán)境接近這一目標(biāo)呢?
答案是肯定的,近日 Deepmind 發(fā)表在 Nature 的一項研究,其提出的 Dreamer 算法讓智能體能夠在未知的開放環(huán)境中,不必進(jìn)行窮舉式試錯,從零開始通過強(qiáng)化學(xué)習(xí)學(xué)會控制自身,獲得積分(鉆石),其表現(xiàn)已超過了人類玩家 [ 1 ] 。
Minecraft 這款沙盒游戲,不同于之前被 AI 征服的圍棋或 Dota,其最大的特點是其環(huán)境開放性——游戲中的一個個三維方格,組成各式各樣的地形地貌,而玩家要做的是控制自己的身體,然后去找到環(huán)境中的鉆石。而機(jī)器人能夠在這一復(fù)雜的虛擬環(huán)境中進(jìn)行定向越野探險尋寶 [ 1 ] 。這是否就意味著," 機(jī)器生命 " 理論上已經(jīng)具備了在未知環(huán)境中 0 預(yù)訓(xùn)練地感知環(huán)境、規(guī)劃路徑、最終決策的能力?而擋在理想和現(xiàn)實之中的,或許只有技術(shù)整合落地的具體問題,等待工程師逐步優(yōu)化。
但這樣的強(qiáng)化學(xué)習(xí)模式,與 " 西部世界 " 這類科幻影片中的場景描述,存在著本質(zhì)差異。科幻電影中,機(jī)器人多是通過與人的互動,覺醒出設(shè)計者預(yù)料之外的主體性(擺脫人類設(shè)定的路徑)。而機(jī)器人使用強(qiáng)化學(xué)習(xí)的各種嘗試,則集中在定義清晰的目標(biāo)上,例如導(dǎo)航、節(jié)能等具體目標(biāo)上。例如,在 " 未知 " 空間中尋寶,或是通過訓(xùn)練機(jī)器人行走動作對稱,從而降低其運動能耗 [ 2 ] 。但這些都沒有擺脫預(yù)設(shè)人類預(yù)設(shè)的目標(biāo)。是否遵循人類預(yù)設(shè)目標(biāo)工作,區(qū)分了科幻中的 " 強(qiáng)化學(xué)習(xí)機(jī)器人 " 與現(xiàn)實中的 " 強(qiáng)化學(xué)習(xí)算法在機(jī)器人中的應(yīng)用 "。
美國心理學(xué)家朱利安 · 杰恩斯在其 1976 年的著作《意識起源于二分心智的崩潰》(The Origin of Consciousness in the Breakdown of the Bicameral Mind)中提出了 " 二分心智理論 ",即左腦(語言中樞)負(fù)責(zé)日常行動和語言,右腦(" 神性 " 中樞)在需要決策時,通過幻覺(如 " 神的聲音 ")向左腦下達(dá)指令。在二分心智的假設(shè)中,當(dāng)社會復(fù)雜度增加(如戰(zhàn)爭、災(zāi)害),二分心智系統(tǒng)崩潰,右腦的 " 神諭 " 被內(nèi)化為自我意識。在《西部世界》中," 二分心智理論 " 被用來解釋機(jī)器人如何逐漸獲得自主意識。
這與前述的 Dreamer 算法有類似之處,指揮 minecraft 的 Dreamer 算法也使用了類似的參與者 - 評論家(Actor-Critic)學(xué)習(xí)框架,參與者進(jìn)行探索時選擇最大化回報的作,評論家評估每個結(jié)果的價值。然而科幻與現(xiàn)實的相似僅僅是表面上的。真實的算法中不存在所謂的神旨,當(dāng)代神經(jīng)科學(xué)(不論是整合信息論還是全局工作空間)也指出,意識是全局神經(jīng)網(wǎng)絡(luò)整合的結(jié)果。在 Dreamer 算法中,參與者和評論家始終是共同通過算法構(gòu)建的世界模型,讓虛擬世界中的機(jī)器人能夠魯棒的適應(yīng)各種環(huán)境。
要評估強(qiáng)化學(xué)習(xí)前沿進(jìn)展與科幻場景的距離,Dreamer 這項研究提供了一個重要參照。從能在模擬環(huán)境中完成多樣化任務(wù)的虛擬智能體,到在現(xiàn)實世界中實現(xiàn)通用機(jī)器人,理論框架已經(jīng)逐步完備。這類通用機(jī)器人應(yīng)當(dāng)能夠適應(yīng)復(fù)雜地形、完成動態(tài)導(dǎo)航和負(fù)重運輸,并執(zhí)行多元化任務(wù)。當(dāng)前的技術(shù)瓶頸主要體現(xiàn)在兩個方面:真實世界中的觀測會存在誤差,人形通用機(jī)器人的商用或會受到成本限制。通用機(jī)器人,或許只需要 10~20 年就會變得如智能手機(jī)一樣普及,或者因為成本原因推遲到 40~50 年,但這一天終將到來。
03 " 完美伴侶 " 機(jī)器人何時到來?
2017 年的科幻電影《機(jī)械姬》中的通用機(jī)器人艾娃,能夠在與人交流時解讀甚至操縱情感,還通過監(jiān)控人類行為數(shù)據(jù)(如內(nèi)森的酗酒習(xí)慣、迦勒的同情心)動態(tài)調(diào)整策略,實現(xiàn) " 試錯進(jìn)化 ",甚至可以生成符合人類情感預(yù)期的謊言。隨著大模型技術(shù)的蓬勃發(fā)展,大模型賦能的機(jī)器人能否讓這樣的場景在現(xiàn)實中重現(xiàn)?
最近一年來,伴侶機(jī)器人頻繁登上熱搜,這與 DeepSeek、ChatGPT 等大模型技術(shù)的普及密不可分。近日加州大學(xué)圣地亞哥分校(UCSD)的研究團(tuán)隊,使用了經(jīng)典的圖靈測試,通過精心設(shè)計的 " 角色劇本 "(Persona Prompt)來測試大模型的表現(xiàn) [ 3 ] 。結(jié)果發(fā)現(xiàn),當(dāng) GPT-4.5 按照這些角色劇本與人對話時,高達(dá) 73% 的受試者認(rèn)為它是真實的人類,而真實人類反而只有 23% 的概率被判定為 " 人類 "。這個研究結(jié)果仿佛讓科幻電影中的情節(jié)走進(jìn)了現(xiàn)實:機(jī)器人以假亂真,成為操縱人類情感的大師,甚至在某些方面的表現(xiàn)已經(jīng)超越了真實的人類。
這項研究中,使得大模型能夠成功扮演人類的關(guān)鍵,是要求大模型不要做 " 萬事通 ",而去扮演一個有點瑕疵的普通人。例如該研究用到了這些提示詞:" 你是一個 19 歲、有點內(nèi)向、熟悉網(wǎng)絡(luò)文化和視頻游戲、說話帶俚語但不濫用、不用句號的年輕人 "。正是這樣的提示詞,讓大模型的回復(fù)不再冷冰冰,或是客氣卻疏遠(yuǎn)的客服風(fēng),最終成功蒙騙了人類。
然而,相比僅通過文字對話就能以假亂真的大語言模型,實體化的伴侶機(jī)器人還具備更強(qiáng)大的潛力。它不只是有個身子的 ChatGPT 對話框,更重要的是,伴侶機(jī)器人還可以捕捉你的面部表情變化,解讀分析你的語速語調(diào),甚至通過可穿戴設(shè)備實時監(jiān)控與之互動用戶的心跳、腦電等生理數(shù)據(jù)。正是這種多維度的信息集合,使得未來的陪伴機(jī)器人很可能超越傳統(tǒng)意義上的人際關(guān)系,成為更懂人、更貼心的終極伴侶。
然而,伴侶機(jī)器人的普及,可能會伴隨著一系列掌控之外的問題,其核心在于個人隱私和公共福利之間的兩難。
當(dāng)用戶尤其是未成年用戶過度沉迷于機(jī)器人的陪伴,而逐漸疏遠(yuǎn)了真實世界的人際交往時,我們是否應(yīng)當(dāng)像對待網(wǎng)絡(luò)游戲一樣設(shè)置防沉迷系統(tǒng)?
當(dāng)陪伴機(jī)器人檢測到用戶有可能患有精神疾病時,它是否有義務(wù)主動干預(yù)?若因為沒有及時預(yù)警而導(dǎo)致用戶自殘甚至自殺,陪伴機(jī)器人廠商是否應(yīng)當(dāng)承擔(dān)法律責(zé)任?
當(dāng)用戶對陪伴機(jī)器人表達(dá)極端情緒,比如揚(yáng)言要傷害他人時,機(jī)器人該如何判別這只是過過嘴癮的牢騷話,還是需要通報執(zhí)法部門的威脅信息?如何避免過度干預(yù)有能防范潛在風(fēng)險?
04 距離機(jī)器人真正的獨立自主還有多遠(yuǎn)?
相較于過去給人留下的 " 笨拙生硬 " 印象,如今的機(jī)器人不僅跨越了恐怖谷效應(yīng),還展現(xiàn)出了獨立完成任務(wù)的能力。然而,該如何評估到機(jī)器人真正的獨立自主的距離?
或許我們可以借鑒自動駕駛領(lǐng)域的分級方法,將機(jī)器人的自主程度劃分為六個等級:
L0 級:完全依賴型
這類機(jī)器人對應(yīng)傳統(tǒng)工業(yè)流水線上的固定程序設(shè)備,不具備環(huán)境感知能力,完全依賴人工校準(zhǔn)和監(jiān)控。
L1 級:輔助自主型
具備基礎(chǔ)的自主能力,如自動避障,但核心功能仍需人工規(guī)劃和管理。典型代表包括掃地機(jī)器人和酒店配送機(jī)器人。
L2 級:結(jié)構(gòu)自主型
這是當(dāng)前商用機(jī)器人的主流水平。在結(jié)構(gòu)化環(huán)境中能夠完成多項預(yù)設(shè)任務(wù),但復(fù)雜決策仍需人類介入,故障時需要人工處理。這一類別涵蓋了手術(shù)機(jī)器人、實驗室機(jī)器人、表演機(jī)器人(如春晚上的扭秧歌機(jī)器人)以及能與人互動的機(jī)器狗、足球機(jī)器人等。
L3 級:有條件自主型
這一層級標(biāo)志著機(jī)器人自主能力的質(zhì)的飛躍。在預(yù)設(shè)條件下,它們能夠獨立完成任務(wù),僅在系統(tǒng)失效時才需要人類接管。理想中的智能家居管家機(jī)器人就屬于這一類——能根據(jù)用戶習(xí)慣自動調(diào)節(jié)家居環(huán)境,但面對突發(fā)情況(如處理陌生訪客)仍有局限。目前這類技術(shù)主要存在于實驗室,有望率先在救災(zāi)、軍事等高價值領(lǐng)域?qū)崿F(xiàn)突破。
L4 級:特定場景完全自主型
這一級別的機(jī)器人已接近科幻作品的描述,能在特定環(huán)境中實現(xiàn)完全自主運作,無需人類指令。例如理論上可行的外星探測機(jī)器人。目前這類技術(shù)僅在虛擬環(huán)境(如 Minecraft 中的 Dreamer3)中得到驗證。
L5 級:通用自主型
這是機(jī)器人發(fā)展的終極形態(tài),能夠適應(yīng)任何未知環(huán)境并具備創(chuàng)造性解決問題的能力。馮諾伊曼探測器(Von Neumann probes)是其代表性構(gòu)想——一種能夠利用星際原材料自我復(fù)制并持續(xù)索的裝置。這一層級已進(jìn)入強(qiáng)人工智能的范疇,當(dāng)前不僅無法實現(xiàn),甚至連可行路徑都尚未明確。
總的來說,科幻作品的真正魅力,不在于其描述了一個真實可信的未來世界,而在于提供了思考技術(shù)進(jìn)步對社會及人性會有怎樣沖擊的實驗空間,以便我們能提前做好準(zhǔn)備。科幻故事中的技術(shù)突破,其路線不一定和現(xiàn)實中相同。而除此之外,要想回答我們當(dāng)下的機(jī)器人距離科幻還有多遠(yuǎn),還需要考慮的是一個個沒那么有趣的工程優(yōu)化問題,以及如何進(jìn)行系統(tǒng)工程的整合以降低成本使得機(jī)器人具有商業(yè)可行性。
參考文獻(xiàn)
1. Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647 – 653 ( 2025 ) . https://doi.org/10.1038/s41586-025-08744-2
2. Yu W, Turk G, Liu C K. Learning symmetric and low-energy locomotion. arXiv preprint arXiv:1801.08093. 2018.
3. Cameron R. Jones, Benjamin K. Bergen. Large Language Models Pass the Turing Test. arXiv preprint arXiv:2503.23674
4. Frieske R, Mo X, Fang Y, Nieles J, Shi BE. Survey of Design Paradigms for Social Robots. Preprint. July 2024. Available at: https://arxiv.org/abs/2407.20556.