未來物理世界要實現 AGI,一定是通過端側智能。
面壁智能 CEO 兼聯合創始人李大海在第三屆中國 AIGC 產業大會上分享了他們的經驗認知。
他們發布了端側模型 MiniCPM 驅動的面壁小鋼炮超級助手 cpmGO,MiniCPM 也逐步開拓了手機、具身智能、AIPC、智能可穿戴設備等幾個主流落地方向。
未來他們的愿景是讓每一個設備都具備智能。至于如何實現?李大海在會上分享了背后的方法論。
為了完整體現李大海的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
中國 AIGC 產業峰會是由量子位主辦的 AI 領域前沿峰會,20 余位產業代表與會討論。線下參會觀眾超千人,線上直播觀眾 320 萬 +,累計曝光 2000 萬 +。
話題要點
DeepSeek 的成功,底層在于三個 " 密度 " 的極致:團隊密度、組織密度、高資源密度。
我們觀察到大模型 " 知識密度 " 是智能的核心指標,而高知識密度模型在端上最有價值。
大模型知識密度可以跟芯片制程做類比,我們知道芯片的制程,就是在每平方厘米下晶體管的數量,可反映出計算能力的強弱。而大模型知識密度越高,它的智能就越強。
未來物理世界實現 AGI,一定是通過端側智能。因為只有把大腦部署在設備的終端上,把大腦部署在機器人的腦子里面,它才能夠真的去做最靈敏的感知,去做最及時的決策,才能做出最完美的應對。
以下為李大海演講全文:
DeepSeek 成功最底層因素是三個 " 密度 "
朋友們,大家下午好。我今天穿的 T 恤是我們公司面壁智能的文化衫,面壁這個名字就來源于《三體》,我們公司的三體迷把公司企業文化都 " 三體化 " 了,我們員工手冊的名字就叫 " 這是面壁計劃的一部分 "。
今天很高興能夠在這里跟大家匯報面壁過去一年多的工作,自從參與創立面壁,開始在大模型這個賽道里長跑,真的非常有意思。因為才短短兩年多,我們經歷了許多的 " 非共識 ",其中很多的 " 非共識 " 變成了共識,然后又涌現出更多的非共識。整個公司的發展過程,我們不斷地在更新自己的認知,進行迭代。兩年的時間,像是過了十幾年。
第一,團隊密度。能夠在大模型領域突出重圍的公司和組織,必須有足夠高的人才密度,組建一支極客式的優秀團隊,聚焦在大模型的底層技術上,進行深入地鉆研。
第二,組織密度。組織密度講的是組織目標的一致性,我用另外一個詞叫 " 組織熵 "。當一個組織里每個人的目標都不一樣時,是熵最大的狀態,那是最不理想的狀態。最理想狀態是上下一心,所有人目標一致,這樣整個組織間協作非常高效。這是 " 足夠高的組織密度 "。
第三,高資源密度。不僅要給創新留出充足的研發預算,并且要保障團隊能夠非常長時間地聚焦于技術的鉆研,持續進行技術的積累。
維持三個密度都足夠高,才有可能在大模型的底層技術上有所突破。
DeepSeek 是在云側,踐行非常高效的大模型組織;而面壁在端側,也在開展十分令人興奮的高效故事。
我們對大模型 " 知識密度 " 的洞察
面壁團隊是從 2019 年開始 all in 大模型,2022 年 8 月份公司正式成立,而后在 2023 年 9 月份就發布了第一個千億級的 GPT-3.5 水平的模型,拿到了網信辦第二批安全備案。
到了 2023 年年底的時候,看到大模型同質化越來越嚴重,我們開始思考面壁的核心競爭力是什么,差異點是什么。
大模型高效背后的核心指標,正是知識密度,并且我們把對大模型成長規律的觀察總結為 " 密度定律 "。
我們發現,大模型知識密度每 3.3 個月翻一番。大模型知識密度可以跟芯片的制程做類比,我們知道芯片的制程,就是計算密度在每平方厘米下有多少個晶體電子管的數量,它的電路有多少,可反映出就說明了它的計算能力的強弱有多少,這個密度越高,說明制程越高。而大模型的知識密度就越高,它的智能就越強。
當我們聚焦去做高知識密度模型,并且發現落在端側具備格外的優勢。因為端側的算力是有限的,內存也是有限的,功耗也是有限的,這三個限制條件下,天生是帶著鐐銬跳舞,知識密度高,效果才會好。
未來物理世界實現 AGI,一定是通過端側智能
過去一年我們發布了九個端側模型,在今年 1 月份的時候發布了全球第一個端側全模態的模型,大概是 8B 大小的模型,這個模型能流暢運行在 iPad 上,可以實時流式的實時看,持續聽,自然說,并且 " 看聽說 " 的水平從多模態角度上達到了 GPT-4o 的水平,雖然解決復雜的邏輯問題層面上,還是跟云端模型有區別,但是在多模態能力上已經非常強。
這里給大家播放一個視頻,大家可以感受一下。
從這個簡單的例子里面看到,全模態大模型可以同時接收語音跟視覺的信號,基于語音跟視覺去感知周圍的環境,同時以聲音或者文字輸出自己的答案。而將這樣的全模態大模型部署在汽車、機器人等這樣的設備上,就可以讓汽車、機器人這樣的設備成為一個能夠同時去看、聽、說的設備。
基于我們模型的工作,在今年 3 月份的時候,發布了純端側模型驅動的面壁小鋼炮超級助手產品,首先在汽車上落地。
汽車是我們端側模型落地的理想場景,因為汽車作為超級終端 " 智能體 " 來說是一種成熟的 " 具身智能 ",我們認為在汽車上有非常好的發展空間。
第一個是端上不依賴網絡的全天候指令助手,用戶在車上所有的指令,都可以在端側智能上做到及時響應。
第二是通過艙內艙外的攝像頭、麥克風去感覺艙外環境和艙內車乘人員的指令和狀態,根據這個感知去主動關懷他們。
這是一個感知、決策、執行三位一體的模型。幾年以前智能駕駛就在提這個概念,端到端的模型給行業帶來一些新的可能性。
通過攝像頭感知艙外艙內的環境,在端側有什么特別優勢呢?
首先,汽車作為一個移動客廳,網絡情況是不可能 100% 穩定可靠的。端側方案可以不受網絡的限制,隨時隨地做到感知。
第二,如果在云端,完成艙內艙外視覺信息視頻流的感知回傳,可能推理的成本不算高,但是高清視頻流實時傳輸的帶寬成本很高,其次背后也有大量的隱私信息,因此不僅成本高,還有很多隱私暴露的風險。我們純端側能夠在隱私和成本上有很好的優勢。
這個視頻可以看到,純端側的面壁小鋼炮可以陪大家走遍天涯海角,因為它不受網絡的束縛,它是全天候的。
這個是我們從執行層面上的 GUI Agent 產品。我們既然已經有了端側模型,我們就可以通過端側去感知到屏幕上發生的行為,就能夠幫助用戶完成這些任務,完成這些任務的基礎是像用戶一樣理解這些屏幕,通過這些方式本質上就能夠像人一樣,所以能夠有很強的泛化性。同時因為是在端側,所以用戶屏幕上的信息是不會被上傳到云端,隱私絕對有保證。
我也想借這個時間跟大家同步一下我們的認知。
為什么面壁過了兩年,一直現在云端發展依然如火如荼的情況下,我們仍然非常聚焦于地做端側。因為端側是我們的信仰,我們相信未來端側是有非常廣闊的天地。同時我們也相信未來在物理世界要去實現 AGI,一定要通過端側智能。因為只有把大腦部署在設備的終端上,把大腦部署在機器人的指揮中樞,它才能夠有最靈敏的感知,去做最及時的決策,才能做出最完美的應對,這是一個非常基礎的事情。
目前我們的端側模型,已經在汽車、部分機器人的場景、手機,還有一些新的智能終端,比如說離線的翻譯機等設備上落地。
我們的愿景是要讓每一個設備都具備智能。
好的,我的分享就到這里,謝謝大家!
— 完 —
量子位 AI 主題策劃正在征集中!歡迎參與專題365 行 AI 落地方案,一千零一個 AI 應用,或與我們分享你在尋找的 AI 產品,或發現的AI 新動向。
也歡迎你加入量子位每日 AI 交流群,一起來暢聊 AI 吧~
一鍵關注 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!