編輯丨陳彩嫻
" 大模型技術的演進遠未抵達終點 ",在 2025 智源大會召開之際,面對雷峰網關于 " 大模型發展現狀 " 的疑問,智源研究院院長王仲遠給出了這樣的回復。
OpenAI 仍領跑通用性能與復雜推理,但國產模型已從追隨者轉向特定領域的引領者,DeepSeek-R1 持續引領低成本推理,阿里 4 月發布的 Qwen3 登頂全球最強開源模型。OpenAI 依然在推進著探索步伐,國產模型緊追不舍。
我們必須清醒認識到,當前的 AI 技術仍處于高速迭代的深水區,大量基礎性、挑戰性的難題遠未被攻克,技術路徑與創新范式遠未定型,AGI 之路仍然道阻且長。
中國在人工智能領域的研究,既不應滿足于亦步亦趨的跟隨,更不應止步于對標 OpenAI。 早在 2018 年大模型機遇初現時便成立的北京智源人工智能研究院,作為中國大模型「悟道」的開創者,始終肩負著本土原始創新的重任。
「悟道」之名,承載了智源對通用智能技術路徑的深刻求索。
一位早期參與「悟道」研發的核心成員曾向 AI 科技評論強調,智源在浪潮初起時的 " 前瞻眼光與果斷魄力 " 是其最可貴特質,尤其是在國內大模型起步維艱之際,其毫不猶豫的經費與算力支持起到了關鍵作用。可以說,在通用人工智能的探索之路上,智源研究院以「悟道」系列大模型為起點,開啟了中國的大模型時代。
大語言模型和多模態模型的發展,進一步推動機器人從 1.0 時代邁向 2.0 時代。目前,大模型與機器本體深度耦合驅動以具身智能為核心的機器人 2.0 時代,正在加速數字世界與物理世界融合。
而在今天舉辦的第七屆 " 北京智源大會 " 上推出的「悟界」,深刻寓意著智源致力于突破數字與物理世界的藩籬,將大模型的強大認知能力真正注入并重塑現實世界。從此,大模型由數字 AGI 時代邁向了物理 AGI 時代。
「悟界」系列大模型目前包含四個模型:原生多模態世界模型 Emu3、全球首個腦科學多模態通用基礎模型見微 Brain μ、具身大腦 RoboBrain 2.0 以及全原子微觀生命模型 OpenComplex2。
從微觀生命體到具身智能體,「悟界」系列大模型試圖揭示生命機理本質規律,構建人工智能與物理世界交互基座。如果說「悟道」對通用智能的求索,那么「悟界」就是對虛實世界邊界的突破和對物理世界的深度賦能。在世界模型成為 AGI 核心路徑的當下,智源成為了新浪潮的領航員。
1
當大語言模型性能走到瓶頸
當前大語言模型的性能提升正面臨顯著瓶頸,主要源于互聯網高質量訓練數據的枯竭與同質化競爭。
隨著公開可獲取的有效文本、代碼資源被大規模消耗,模型難以獲得足夠新穎、多樣且優質的訓練素材,導致學習邊際效益銳減。
盡管模型架構優化與算力提升仍在持續,但核心知識的獲取效率已明顯下滑,性能增長曲線趨于平緩。突破這一瓶頸需依賴合成數據生成、多模態融合或小樣本學習等技術的革命性突破。
早在去年的北京智源大會上,智源就對大模型的技術路線進行了預判,這條路線將會是從大語言模型往多模態、尤其是原生多模態世界模型的方向發展。這一年來,智源朝著這條路線進行了堅定探索。
在 2025 年北京智源大會上,智源重磅介紹了原生多模態世界模型 Emu3,這是全球首個原生多模態世界模型,是多模態技術發展的重要里程碑。
跨模態交互的強大基座
Emu3 是基于下一個 token 預測范式統一多模態學習,無需擴散模型或組合式架構的復雜性,在多模態混合序列上從頭開始聯合訓練一個 Transformer 模型。
" 走向物理世界的多模態模型的技術壁壘在模型本身,因為技術路線就沒有收斂。" 王仲遠說。
當前主流方案普遍存在這樣的一種困境:當以強大的語言模型(LLM)作為基座,融合視覺、聽覺等模態進行訓練時,語言能力常出現顯著退化。這導致訓練出來的模型語言能力與其他能力此消彼長,無法統一。
雖然在某些垂直領域中,多模態的某些能力比人類更強,比如人臉識別,機器的識別能力是人的無數倍,但是人類大腦不會因為收到更多信息之后突然不會說話了。為什么會出現這種問題,以及如何解決這種問題,成為了智源在研發 Emu3 的過程中希望探索的技術原理。
傳統模型則只能處理一種類型,而該模型實現了視頻、圖像、文本三種模態的任意組合理解與生成。
Emu3 架構從根本上規避了傳統多模態模型的 " 此消彼長 " 缺陷:視覺語義不再擠占語言參數空間,而是通過符號化對齊實現知識無損融合。Emu3 驗證了 " 物理世界離散語義化 " 路線的可行性,為多模態 AGI 提供了可擴展的技術收斂框架,使語言模型的推理生成能力首次真正覆蓋物理時空維度。
這款模型支持多模態輸入、多模態輸出的端到端映射,驗證了自回歸框架在多模態領域的普適性與先進性,為跨模態交互提供了強大的技術基座。可以說,作為原生多模態統一架構,智源的 Emu3 讓大模型初步具備理解和推理世界的能力。
見微 Brain μ 和 OpenComplex 2
基于 Emu3 的底層架構,智源研究院推出了見微 Brain μ。這也是本次北京智源大會最引人注目的模型之一。
Brain μ 實現了跨任務、跨模態、跨個體的統一建模,具有創新性、通用性和廣泛的應用潛力,為神經科學和腦醫學研究提供了強大的工具。現在,智源正在與國內前沿的基礎神經科學實驗室、腦疾病研究團隊和腦機接口團隊深入合作,包括北京生命科學研究所、清華大學、北京大學、復旦大學與強腦科技 BrainCO,拓展 Brain μ 的科學與工業應用。
全原子微觀生命模型 OpenComplex2,則是實現了生物分子研究從靜態結構預測到動態構象分布建模的重大突破。
OpenComplex2 模型在生物分子動態特性預測、柔性系統及超大型復合物建模、生物分子相互作用精細化分析等關鍵任務中性能卓越,突破了靜態結構預測的瓶頸。不僅可以預測蛋白質單體結構,還可進行復合物結構建模、分子間相互作用預測等,為探索蛋白質的生物學功能提供了新的途徑。
智源研究院發布的多模態大模型是為了推動 AI 從數字世界走向物理世界,更利于解決物理需求。目前,物理世界的多模態現在還沒有完全解決,以智源為代表的全球研究機構都會在這條道路上進行不懈探索。
2
向著前沿技術路徑預研和探索
在今天的智源具身智能會客廳中,銀河通用的具身大模型機器人 Galbot 登臺展示了端到端 VLA 大模型在商業零售場景的落地應用。
看到這個場景,我們不禁想問,在具身智能發展如火如荼、多家企業紛紛加大投入,致力于推動這一前沿技術的研發與應用的現在,智源還能做什么?
答案一直就在智源的定位中——做高校做不了,企業不愿意做的事情,預研和探索前沿技術路徑。
在具身智能領域,伴隨著中國在制造業、豐富的場景、政策支持上的優勢,智源所做的跨本體具身大小腦協作框架 RoboOS 2.0 和具身大腦 RoboBrain 2.0,再次為產業發展注入新動力。
跨本體具身大小腦協作框架 RoboOS 2.0
RoboOS 1.0 發布于 2025 年 3 月 29 日,到現在為止,不到 3 個月的時間,智源就發布了它的升級版,跨本體具身大小腦協作框架。
跨本體具身大小腦協作框架 RoboOS 2.0 是全球首個基于具身智能 SaaS 平臺、支持無服務器一站式輕量化機器人本體部署的開源框架。
同時,RoboOS 2.0 也是全球首個支持 MCP 的跨本體具身大小腦協作框架,旨在構建具身智能領域的 " 應用商店 " 生態。
在該框架下,可一鍵下載并部署來自全球開發者創建的相同型號機器人本體的小腦技能,完成大小腦的無縫整合。RoboOS 2.0 實現了小腦技能的免適配注冊機制,顯著降低開發門檻,典型場景下,相關代碼量僅為傳統手動注冊方式的 1/10。
相較于 1.0,RoboOS 2.0 對端到端推理鏈路進行了系統級優化,整體性能提升達 30%,全鏈路平均響應時延低至 3ms 以下,端云通信效率提升 27 倍。在功能層面,新增了多本體時空記憶場景圖(Scene Graph)共享機制,支持動態環境下的實時感知與建模;同時引入多粒度任務監控模塊,實現任務閉環反饋,有效提升機器人任務執行的穩定性與成功率。
具身大腦 RoboBrain 2.0
智源研究院發布的具身大腦 RoboBrain 2.0 是目前全球最強的開源具身大腦大模型,它在空間推理與任務規劃等關鍵指標上展現出卓越的性能,全面超越了眾多主流大模型。
RoboBrain 2.0 的優勢在于其能夠精準地理解和推理復雜空間關系,并制定高效的任務規劃方案。例如,在機器人導航、物體操控以及多步驟任務執行等場景中,它能夠快速準確地分析環境信息,確定最優行動路徑和操作方式。
這使得機器人在各種實際應用場景中,如物流配送、家庭服務、工業生產等,能夠更加高效、智能地完成任務,極大地提升了機器人的自主性和適應性。
在任務規劃方面,RoboBrain 2.0 相比于 RoboBrain 1.0 的基于 Prompt 的多機任務規劃機制和初級空間理解能力,進一步擴展了基于多本體 - 環境動態建模的多機協同規劃能力,可實時構建包含本體定位的場景圖(Scene Graph),并自動完成跨本體的任務規劃。
實驗數據顯示,RoboBrain 2.0 的任務規劃準確率相較 RoboBrain 1.0 實現了 74% 的效果提升。
在空間智能方面,RoboBrain 2.0 在原有可操作區域(Affordance)感知與操作軌跡(Trajectory)生成能力的基礎上,實現了 17% 的性能提升。
同時,RoboBrain 2.0 增加了空間推理能力(Spatial Referring),新增了閉環反饋以及具身智能的深度思考能力。
當下的具身智能大模型面臨 " 不好用、不通用、不易用 " 的特點。" 不好用 " 是指具身大模型遠沒有到 ChatGPT 時刻;" 不通用 " 是指具身大模型只能用于一個本體或同一品牌的本體;" 不易用 " 是指大腦、小腦本體的適配難度比較高。
智源發布的 RoboOS 2.0 提升機器人多任務處理與環境適應力,RoboBrain 2.0 強化其感知理解和決策規劃。 二者都是為解決這三大問題而存在,現在已全面開源,包括框架代碼、模型權重、數據集與評測基準,以助力推動具身智能研究和產業應用的發展。
目前,智源研究院已與全球 20 多家具身智能企業建立戰略合作關系,共同打造開放繁榮、協同共生的具身智能生態體系,為全球研究者和開發者提供了一個強大的基礎平臺,促進了具身智能技術的交流與創新。
3
通往 AGI 的漫漫征程
在今天上午智源大會主論壇上,圖靈獎獲得者 Richard Sutton 在線發言," 現在世界所發生的一些進展都已經證明了我們向通用人工智能發展," 他再次強調了他所堅持的," 我們已經來到了經驗的時代。"
然而,一個共識則在于,AGI 的研發需要持續的跨學科研究與探索,預計在未來十年甚至更長時間才能看到顯著進展。
深度推理模型仍是 AI 認知與邏輯能力的基礎,例如語言理解、復雜問題拆解等場景不可或缺,強化學習在動態環境交互中展現的能力是不可替代的。
目前,AI 在特定領域的表現已經取得了顯著成就,但是通用人工智能(AGI)仍處于發展初期。AGI 的實現需要在多個方面實現重大突破。
智象未來創始人兼 CEO 梅濤在本次大會的大模型產業 CEO 論壇上說," 現在的大模型,無論是大語言模型還是視頻模型,其實都沒有產生新的智能,都是在復制這個世界。"
如何才能產生智能呢?這是一個目前無法收斂的問題。基礎模型重要,強化學習也很重要。發展需要多元技術融合,而非單一路徑主導。智源研究院拓展原生多模態,也是希望去發現是否有其他的多模態技術路徑和技術架構。
多模態的 ChatGPT 時刻仍未到來。Sand.AI CEO 曹越將目前的多模態模型發展階段比作 2018 年的 BERT,難以 Scalable 成為了最大的痛點。
我們能夠對世界真建模嗎?對于王仲遠而言,要解決這個事情,難度非常大,不僅僅是一個技術路線的突破,還是一種理念的突破。
" 人工智能再往下發展,一定要解決對于空間、時間與物理世界交互,對于宏觀世界、微觀世界的理解,這也恰恰是智源研究院做的研究方向。"
雷峰網