5 月 25 日消息,筆者獨家獲悉,基于騰訊自研大模型混元的首個端到端語音通話模型 Hunyuan-Voice,最快今年 6 月上線騰訊元寶 App,從而與豆包 AI 視頻通話功能對抗。而且,騰訊已規劃多模態和全模態路線,最快今年將推出全球首個 " 全模態模型 ",代號為混元 -O,瞄向 " 世界模型 "。
隸屬于騰訊 TEG(技術工程)事業群的騰訊混元科研人員透露,面向 AGI,混元將以語言模型為核心,探索多種模態融合,并將向深度、廣度兩方面持續推進探索。一方面,混元從大語言模型向多模態模型發展,理解和模擬物理世界;同時,混元還將瞄準更智能的推理、規劃、智能體,以及探索知識邊界,自我啟發、自我迭代、自我發現,最終與具身智能等技術結合,向環境中自主行動和學習的世界模型方向進行探索。
這是首個披露騰訊混元最新規劃的消息,在此之前,騰訊沒有對外披露過混元 -O 全模態模型技術。
后發混元大模型,馬化騰直夸 DeepSeek
隨著 2022 年底 ChatGPT 風靡全球,2023 年 2 月,騰訊混元大模型項目正式啟動,并部署 AI 大模型技術研發工作,以語言模型為基礎,逐步打造涵蓋各種模態的模型矩陣。
2023 年 9 月,騰訊在全球數字生態大會上正式發布混元大模型 ,并宣布通過騰訊云對外開放。該模型是騰訊全鏈路自研的通用大語言模型,擁有超千億參數規模,預訓練語料超 2 萬億 tokens;9 月中旬,混元大模型首批通過《生成式人工智能服務管理暫行辦法》備案。
2024 年,騰訊混元大模型加速迭代,1 月發布高性能 MoE 模型,5 月開源業界首個中文 DIT 文生圖模型,隨后發布混元多模態理解模型;9 月,混元 Turbo 發布;11 月,騰訊混元開源大語言模型 Hunyuan-large。
2023 年股東大會上,騰訊集團董事長兼 CEO 馬化騰表示,AI 是全行業甚至全世界的重點,騰訊總算能跟上第一陣列,不能算最領先,但是至少沒有太落后。
" 我們最開始以為這是互聯網十年不遇的機會,但是越想越覺得這是幾百年不遇的、類似發明電的工業革命一樣的機遇。互聯網企業都有很多的積累,都在做,我們也一樣在埋頭研發,但是并不急于早早做完,把半成品拿出來展示。" 馬化騰稱。
馬化騰強調,后面還要結合場景發展,把 AI 混元大模型應用到各個場景中," 短期內一兩年內我感覺不會有一個純原生 AI 大的應用,應該還是要結合到我們的所有產品里面效率提升等,我覺得這個是一個很大的機會。"
到了 2025 年,中國開源 AI 模型 DeepSeek 風靡全球,騰訊突然加速 AI 應用落地部署,旗下元寶、瀏覽器、微信、ima、騰訊文檔、QQ 瀏覽器、QQ 音樂等多款騰訊產品,在接入混元大模型的同時,接入 DeepSeek-R1 模型。在外界看來,這讓混元 AI 大模型處境略顯尷尬,似乎成為 " 備胎 "。
DeepSeek-R1 雖彌補了混元大模型在推理速度和響應效率上的不足,卻使得用戶更傾向于使用有 DeepSeek 加持的功能。
今年 3 月騰訊年報溝通會中,馬化騰談及 DeepSeek 時表示,深度思考模型出來后,AI 智能化比以前有大幅提升,而且 DeepSeek 出現后,開源和中國工程師在關注成本和效率方面的優勢較為明顯。AI 的智能化程度相比往年有大幅度提升,對于騰訊來說經過慎重思考,云業務和元寶都在擁抱 AI。未來應用大發展的機會已經到來,各家都在采用 AI 落地,也看到 AI Agent(智能體)的發展,背后有很多 AI 相關工具的想象空間。目前 AI 生態還在早期,各行各業都會受益于 AI 普及,相信每個行業都會擁抱這個機會。
" 我們業界和梁文鋒都有交流,很敬佩市場上出現獨立、開源的產品,我們非常尊重。"馬化騰表示。
與此同時,騰訊集團 CSIG 旗下騰訊云針對 DeepSeek 開源的 DeepEP 通信框架進行深度優化,使其在多種網絡環境下均實現顯著性能提升。相關技術方案也獲得了 DeepSeek 公開致謝,稱這是一次 "huge speedup" 代碼貢獻。
" 使用 GPU 進行大語言模型訓練。去年有一段時間,人們認為每一代大型語言模型都需要數量級更大的 GPU,但 DeepSeek 的突破性進展結束了這一時期?,F在,業界以及我們業內人士都能夠利用現有 GPU 大幅提高大型語言模型訓練的生產力,而無需像之前預期的那樣額外添加 GPU。" 騰訊此前在財報會上表示。
據界面,一位負責互聯網大廠投流的營銷供應商表示,騰訊在元寶上的投流打法復制了去年字節跳動豆包 " 大力出奇跡 " 的推廣模式,通過自家產品生態自帶的流量中心優勢(字節主要依賴抖音、今日頭條,騰訊依賴微信),再加上大規模廣告投放引流。唯一的區別是,字節跳動投流的宣傳對象主要是自家的 " 豆包 "AI 模型,騰訊則幾乎為每一條元寶廣告都貼上了 "DeepSeek" 標簽,自家混元模型反而沒有太多曝光。
不過,騰訊似乎依然不想放棄自研大模型產品。隨著全球 AI 產業全面形成 " 重資源 " 投入趨勢,騰訊希望利用 " 自研 + 開源 " 多模型策略,加速全域產品 AI 滲透。
目前混元是由騰訊 TEG(技術工程)進行主導研發,隨著姚星、蔣杰等人陸續離職,目前騰訊混元負責人是騰訊首席科學家、騰訊機器人 X 實驗室主任、視覺計算機領域專家張正友,他向騰訊集團高級執行副總裁、技術工程事業群總裁盧山匯報;而元寶、騰訊云等隸屬于 CSIG 事業群,由騰訊集團高級執行副總裁、云與智慧產業事業群總裁湯道生領導。
這兩大事業群主導騰訊 AI 業務研發和落地。
2025 年 2 月,混元深度思考推理模型 T1 預覽版上線騰訊元寶;3 月,混元 Turbos 通用模型發布;4 月,新一代旗艦混元多模態模型發布;5 月,多模態慢思考深度推理模型混元 T1-Vision 發布,端到端語音通話模型也在 5 月底發布,并將上線騰訊元寶。
目前,混元 TurboS 在權威評測平臺 Chatbot Arena 中已躋身全球前八,低于 OpenAI O3、Gemini、DeepSeek-R1 等模型,在代碼與數學等理科能力上躋身全球前十。最新一輪升級中,TurboS 在理科推理、代碼能力和競賽數學三項指標上分別提升了超 10%、24% 與 39%。
" 多模態認知系統應該怎么去構建?一個核心觀點,應該以語言模型為核心。語言的邊界可能也是世界的邊界,這個意思就是說語言跟認知可能是等價的,所以這個是從任務角度來說是這樣的。因此,我們就基于它去做了視覺模型、語音模型,同時我們也在規劃全模態模型,它都是以語言模型為核心,再進行知識推理鏈,這樣的話我們能夠利用好語言模型強大能力,同時它也是一個混合彈性的結構。" 混元團隊稱。
下一步,面向通用 AI,騰訊混元嘗試用深度、廣度兩個方面推進,最后目標是希望創造一個類似于賈維斯這樣的一個機器人,它能夠自主去在比較復雜的世界里面探索。
談到具身智能,5 月 24 日首屆國際通用人工智能大會上,張正友表示,目前機器人本體能力、機械能力和身體部分能力距離人類還差很遠,具身智能的機器人大腦和身體是不協調的,所以真正的具身智能,是要能夠身體和智能融合,并且能夠自主學習處理問題,環境變化不確定下能夠自動調整和規劃系統。因此,復雜的感知能力、執行能力、學習能力、規劃模型的集中智能等能力都需不斷提升。
張正友強調,要探索一個最佳機器人本體形態,人形機器人當然是其中一個,但雙足、人形機器人不一定是最佳的形態。
"具身智能現在正在往上發展,但到一定程度以后,不一定是寒冬,至少資本上面會有一個縮減的過程,最后會繼續往前發展。所以從我們角度來講,我們要繼續提升具身智能的能力,寒冬過后能夠有更好的發展。" 張正友稱。
7 年投入超 3900 億,騰訊要與阿里、字節激戰 AI
" 這些‘大模型六虎’正在以三倍速,走當年我們‘ AI 四小龍’(依圖、曠視、云從、商湯)2017-2019 年的老路。" 依圖科技聯合創始人林晨曦曾對筆者表示,如果 AI 創業公司想在國內 C 端產品中獲得商業化,能力和最終結果遠不及字節等互聯網大廠,后者有大量的投入、人力資源、流量與用戶規模,這是創業公司無法做到的。
如今,騰訊決定向 AI 技術領域加大研發投入。
2024 年,騰訊研發投入達 706.86 億元,過去 7 年累計投入達 3912 億元;年度資本開支更突破 767 億元,同比增長 221%,創歷史新高。其中,AI 項目發展所涉及的資本開支就達 390 億元。
劉熾平表示,騰訊計劃 2025 年進一步加大資本開支,預計會占 2025 年總收入的 " 低兩位數百分比 "。這意味著,2025 年騰訊的資本開支可能接近 1000 億元的水平。
除了騰訊,阿里、字節都在加大 AI 研發投入力度。阿里巴巴集團 CEO 吳泳銘已經宣布,未來三年,阿里將投入超過 3800 億元,用于建設云和 AI 硬件基礎設施,總額超過去十年總和。這也創下中國民營企業在云和 AI 硬件基礎設施建設領域有史以來最大規模投資紀錄。
其中,C 端方面,騰訊元寶接入 " 滿血版 "DeepSeek- R1 模型,并能讀懂圖片后,今年 2 月、3 月曾多次登上蘋果 AppStore 中國區免費榜前列,3 月 3 日晚成為下載排行榜第一名。
B 端層面,截至目前,騰訊內部超過 700 個業務場景獲得混元大模型底座支持,大概每個月接入超百個場景,已有來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶通過騰訊云調用騰訊混元大模型 API。
騰訊總裁劉熾平在此前財報會上表示," 微信搜索的查詢量和收入持續快速增長。我們整合了騰訊混元和 DeepSeek 大型語言模型能力,提升了微信搜索結果的相關性和質量。目前,騰訊自有模型支持的搜索結果已覆蓋超過 90% 的問答式搜索。"
最新財報顯示,2025 財年第一財季,騰訊實現總收入 1800 億元,同比增長 13%。其中,To B 業務(金融科技及企業服務)實現營收 549 億元。
展望未來,AI 是一個資本型、學術交叉型復雜技術,需要超強的算力、優秀的人才、高超的技術研發實力等,因此,新的 AI 大模型的 " 下半場 " 一定是巨頭之間的較量,而作為 BAT 三大中國互聯網頭部公司之一,騰訊混元將與阿里通義、字節豆包激戰 AI 智能體和商業化落地,尤其在 "AI+ 云 " 平臺層面。
清華大學計算機系副教授劉知遠表示,"AGI 新技術還在加速演進,未來發展路徑尚不明確。我們仍處于追趕階段,已經不是望塵莫及,但也只能說是望其項背。在別人已經探索出來的路上跟隨快跑是相對容易的,接下來我們要面對一團未來迷霧。"
湯道生最近表示,AI 行業還處于早期階段。大家都在跑馬圈地,嘗試著不同的商業模式。有的在追 Scaling Law,有的在打造 To C 市場新入口,有的在做產業落地,非常熱鬧。
"AI 正在跨過產業化落地的門檻,站在普及應用的全新節點上。行業由之前的模型訓練主導,發展到今天更多是應用與 Agent 驅動;我們看到,云上 DeepSeek API 調用量激增,語音交互的需求也帶動了 ASR(自動語音識別)與 TTS(文本轉語音)模型的 API 調用;模型推理的算力消耗正在高速增長,規?;评淼某杀緝灮?,成為云廠商的核心競爭力。" 湯道生說。
湯道生 5 月 21 日強調,模型深度思考的突破,推動生成式 AI 的可用性從 " 量變 " 發展到 " 質變 ",騰訊持續加大 AI 投入力度,各項業務全面擁抱 AI。同時也以大模型、智能體、知識庫和基礎設施 " 四個加速 ",打造 " 好用的 AI"。
(本文首發于鈦媒體 App,作者|林志佳)