" 模型迭代這么快,能力越來越強,基于大模型開發的應用會不會很快就過時,沒價值了?" 這是許多 AI 開發者內心的焦慮。在今年 4 月的 Create 2025 百度 AI 開發者大會上,李彥宏直接點出了這個行業痛點。
數據顯示,2025 年第一季度就有 55 個大模型發布更新,最多的時候一周內有 8 個模型問世。中國信通院近期發布了一項有意思的數據:全球最聰明模型的 " 第一名寶座 " 保持時間越來越短,基本上十幾天到一個月就會易主,競爭已進入白熱化階段。
但在這場看似無序的 " 軍備競賽 " 中,真正的技術價值究竟在哪里?從最近百度發布的文心 4.5 Turbo 和 X1 Turbo 中,或許我們能找到一些答案。
這兩款模型主打 " 多模態、強推理、低成本 " 的特性,其中文心 4.5 Turbo 在多項測試中與 GPT-4.1 持平、優于 GPT-4o,而 API 調用價格僅為每百萬 token 輸入 0.8 元;文心 X1 Turbo 作為深度思考模型,整體效果領先 DeepSeek R1,價格卻降低 50%。在大模型能力趨于同質化的當下,差異化的技術路徑和深度的工程優化,正在成為決定競爭格局的關鍵因素。
當前業界普遍認為,AI 若要更深入地理解和服務于現實世界,就必須跨越單一感官的局限,擁抱多模態信息。但多模態大模型要成為 " 全才 ",既要讀懂文字,也要看懂圖像,還要理解視頻中的時空信息,這并非簡單的能力疊加,背后的技術挑戰遠比想象復雜。
根據吳甜在百度 AI Day 上的相關技術解讀,文心 4.5 Turbo 在多模態建模上采用了多模態異構專家建模,簡單來說,就是為不同類型的文本、圖像、視頻數據配置不同的 " 專家 " 來處理。這種設計主要用意在于承認了不同模態計算的差異。文本是符號化的,圖像是像素化的,視頻還包含時間維度——如果用同一套處理邏輯,就像讓同一個老師用相同的方法教語文、數學和體育,效果自然大打折扣。
在視覺處理上,文心 4.5 Turbo 引入了自適應分辨率視覺編碼技術。傳統做法往往是將所有圖片統一調整到固定尺寸,但這樣會丟失很多細節信息。新的方法則更加智能,根據圖片內容的復雜程度和重要性,動態選擇最合適的分辨率進行編碼。這就像攝影師會根據拍攝對象選擇不同的鏡頭和參數,而不是一鏡到底。
謀定而后動
如果說多模態能力解決的是 " 看得懂 " 的問題,那么深度思考能力則要解決 " 想得深 " 的難題。
要讓大模型真正具備這種能力,尤其是在處理復雜問題、進行多步推理時,僅僅依賴預訓練階段學到的知識往往不夠,還需要在 " 后訓練 " 階段進行精細的打磨和能力的引導。在這一環節,強化學習(RL)已經成為提升大模型推理能力的重要趨勢,各家都在這個方向發力。但具體怎么做,其中有很多門道。百度的做法是構建一套完整的技術閉環。
在技術解讀中,吳甜用了一個很形象的比喻——人在解決復雜問題時會有不同的思維模式,有時是邊想邊做,有時是謀定而后動,有時是先做再反思調整。而現在的深度思考模型要學會的,正是這種靈活的思維方式。
技術上,這種能力的實現依靠自反饋增強技術框架。整個過程形成了一個 " 訓練 - 生成 - 反饋 - 增強 " 的閉環:模型訓練完成后生成結果,系統對結果進行評估,再根據評估反饋進一步優化模型。
傳統的評估往往過于簡化——數學題對就是對,錯就是錯。但現實中的大多數問題并非如此黑白分明。而文心模型采用了多元統一獎勵機制,從多個維度對模型輸出進行評判——不僅要看答案是否正確,還要看推理過程是否合理、表達是否有深度、是否很好地遵循了用戶指令,甚至要判斷模型是否只是在套用模板而缺乏真正的思考。
這種多維度評估,堪比校準一臺精密科學儀器,如射電望遠鏡。工程師不僅要確保其 " 指向正確 "(對應基礎準確性),還需全面優化其靈敏度(任務側重)、信噪比(質量與幻覺控制)、處理效率(邏輯連貫性)及指令執行精度(工具調用與指令遵循)等多項關鍵指標。
全棧系統能力,決定長期競爭力
再先進的算法也需要高效的執行平臺來支撐。觀察當前的 AI 競爭格局,能夠同時在模型算法、應用生態、基礎設施三個層面都具備領先優勢的廠商屈指可數。在近期結束的 I/O 大會上,谷歌展現了其整合領先模型、龐大的流量入口及自研基礎設施所帶來的圖景。這種稀缺性的全棧能力,正成為決定長期競爭力的關鍵因素。
百度作為全球范圍內少數能夠打通從模型算法、深度學習框架到基礎設施層面的 AI 技術體系的企業之一,文心大模型與飛槳深度學習框架的聯合優化,正是這種全棧能力的一種體現。
數據顯示,通過一系列底層優化,文心 4.5 Turbo 的訓練吞吐達到了文心 4.5 的 5.4 倍,推理吞吐達到了 8 倍的提升。這種性能躍升并非簡單的硬件堆疊,而是來自于算法、框架、硬件三個層面的深度協同優化。
在訓練層面,針對多模態數據的特殊性,飛槳開發了多模態統一的掩碼注意力加速技術,降低了不同模態混合計算時的開銷。用更直白的話說,就是讓 AI 在同時處理文字、圖片、視頻時減少了 " 注意力分散 " 的計算負擔,就像人在多任務處理時學會了更高效的注意力分配方式。
在推理層面,多模態流式分塊預填充機制減少了首個 token 的生成時間,還降低了顯存峰值,讓模型能夠處理更大的批次。這項技術的作用類似于餐廳的 " 預制菜 " 概念——提前準備好一些通用的半成品,用戶點單時可以更快上菜,廚房的壓力也小了,還能提高翻臺率。
技術創新最終要接受市場檢驗。在信通院的仿生大模型評測體系中,文心 4.5 Turbo 在基礎模型能力上位列國內第一梯隊。文心 X1 Turbo 在推理模型測評中獲得了業界首個 4+ 評級——在 24 個能力項中,16 個得到滿分,7 個得到 4 分,僅有 1 個得到 3 分,綜合能力表現突出。
中國大模型與國際先進水平的差距正在快速縮小,信通院的數據顯示,從 2024 年 4 月到 2025 年 2 月,全球第一名和第二名模型的差距已經微乎其微,而在中文場景下,國產模型甚至展現出了明顯優勢。
但更重要的問題是,這些測試成績能否轉化為真實場景中的應用價值?
最初,陳君航像大多數學生一樣,主要用 AI 來輔助學習——潤色作文、解答習題、制定學習計劃。但隨著對工具理解的加深,他開始嘗試更復雜的應用開發。去年暑假,他用文心一言的 API 為擔任小學老師的母親開發了一個 " 智能文案生成器 ",將原本需要三天時間完成的學生評語撰寫工作縮短到幾個小時。
這個案例的價值不僅在于功能實現,更在于它展現了 AI 技術的 " 下沉 " 能力。一個來自小城市的高中生,通過相對簡單的學習就能開發出解決實際問題的工具。
傳統的數字人往往存在 " 表情僵硬、動作單一、文案枯燥 " 的問題,用戶很容易產生審美疲勞。新一代的數字人則通過 AI 大腦實時生成包含臺詞、表情、語氣、動作的完整劇本,并能根據直播間實時情況靈活調整策略,實現了幾乎難以分辨真假的擬真體驗。
據百度方面介紹,其數字人技術已服務超過 10 萬名直播主播 ,并帶來了直播轉化效率的改善及開播門檻的降低 。著力于攻克一個行業普遍面臨的難題:如何在動輒數小時的直播場景下,持續維持數字人表現的穩定一致與高度擬真。
除了教育和直播場景,多模態大模型也開始在更多行業落地。在交通領域,高速公路的安全監控系統展現了大模型相比上一代 AI 的本質優勢。傳統的計算機視覺主要依靠圖像識別,能看但不能 " 理解 ",而大模型具備了語義理解能力,能夠將視覺信息轉化為結構化的知識。
在內容創作領域,百度文庫展現了傳統應用如何借助大模型能力在 AI 時代煥發新生機的典型案例。憑借百度在大模型領域的技術積累,百度文庫成功從傳統的文檔平臺轉型為 AI 驅動的內容生產力工具,在激烈的市場競爭中殺出重圍。其 AI 功能付費用戶已經超過 4000 萬,月活達到 9700 萬。其中,多模態 AI 筆記功能能夠將視頻內容自動轉換為圖文并茂的筆記,并支持時間戳回溯,實現了真正的 " 多模態聯動 "。
這些應用案例共同指向一個結論,技術創新的價值最終要通過解決實際問題來體現,而不僅僅是停留在參數和跑分上。
后 " 百模時代 " 的價值新坐標
在 Create 2025 大會上,李彥宏提出了一個的觀點:" 創新的本質往往就是成本下降 "。文心 4.5 Turbo 的定價策略印證了這一觀點。但成本優化的意義不僅在于提升競爭力,更在于推動整個行業的應用爆發。
當 API 調用成本降低到可以忽略的程度時,開發者才能真正放開手腳進行創新,企業才能大規模部署 AI 應用。如果說成本優化解決的是 " 用得起 " 的問題,那么系統性優勢則關乎 " 用得好 " 的體驗。
在大模型競爭進入白熱化階段后,單一技術指標的領先越來越難以構成持久的競爭優勢。百度在這方面展現出的全棧布局頗具參考價值。
從底層的飛槳框架到中層的文心大模型,再到上層的百度文庫等應用,形成了一個相對完整的技術棧。這種布局的優勢在于各層之間可以進行深度優化,而不必依賴外部廠商的技術方案,避免了因為技術棧割裂導致的性能損失。
更重要的是生態建設的反哺效應。百度披露的數據顯示,飛槳文心的開發者數量已超過 2185 萬,服務 67 萬家企業,創建模型 110 萬個。這個龐大的生態不僅為百度提供了豐富的應用場景和反饋數據,也成為技術迭代和優化的重要驅動力。
吳甜提到,大量的反饋對模型優化具有重要價值,反饋有可能是用戶和模型交互產生的,也有可能是大模型 API 調用后在各種應用場景下產生的。這些數據不能直接使用,需要通過 " 融合線上反饋的數據挖掘 " 技術進行處理,但它們為模型的持續優化提供了寶貴的素材。
這種生態反哺機制的價值在于形成了一個正向循環,更好的技術吸引更多開發者,更多應用場景產生更多反饋,又推動技術進一步優化。
回到文章開頭的問題:在模型快速迭代的時代,什么樣的技術投入和應用開發能夠具有持久價值?對于開發者而言,答案可能并不在于簡單的追逐最新潮的模型,持久價值的根基,更在于選用那些既能提供核心技術深度又具備顯著成本效益,且能高效支撐應用落地的 AI 基礎能力。
開發者真正的機會,是基于這樣的能力,著力解決真實的用戶痛點,無論是個人提效的智能工具,還是驅動產業升級的行業解決方案。當模型本身日益強大且易用,應用創新的舞臺也隨之空前廣闊,真正的壁壘將由應用的獨特價值所定義。