作者 | 鄧詠儀
編輯 | 蘇建勛
騰訊大模型的戰(zhàn)略落地上正不斷提速。
"AI 持續(xù)落地,每個(gè)企業(yè)正在成為 AI 公司,每個(gè)人也將成為 AI 加持的‘超級(jí)個(gè)體’。"5 月 21 日,騰訊云 AI 產(chǎn)業(yè)應(yīng)用峰會(huì)上,騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示。
5 月 21 日,騰訊混元迎來(lái)了一次全面升級(jí),其中包括旗艦快思考模型混元 TurboS、深度思考模型混元 T1 都發(fā)布了新的迭代版本。
基于 TurboS 基座,騰訊新推出視覺深度推理模型 T1-Vision 和端到端語(yǔ)音通話模型混元 Voice。在騰訊 AI 產(chǎn)業(yè)應(yīng)用峰會(huì)上,混元圖像 2.0、混元 3D v2.5 及混元游戲視覺生成等一系列多模態(tài)模型,也同步上新。
騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示,在全球公認(rèn)的權(quán)威大語(yǔ)言模型評(píng)測(cè)平臺(tái) Chatbot Arena 上,混元 TurboS 排名已攀升至全球前八,在國(guó)內(nèi)僅次于 DeepSeek。其中,代碼、數(shù)學(xué)等理科能力,混元 TurboS 也進(jìn)入全球前十。
2025 年初,混元 TurboS 正式發(fā)布,采用大規(guī)模混合 Mamba-MoE 模型,其在效果與性能上已展現(xiàn)出顯著優(yōu)勢(shì)。而這一最新突破,則得益于預(yù)訓(xùn)練階段的 tokens 增訓(xùn),以及后訓(xùn)練階段引入長(zhǎng)短思維鏈融合技術(shù),使得 TurboS 理科推理提升超 10%,代碼能力提升 24%,競(jìng)賽數(shù)學(xué)成績(jī)大幅提升了 39%。
早在去年下半年,騰訊就大力投入了深度思考模型的路線攻關(guān)。深度思考模型混元 T1 自年初上線元寶 App 后,持續(xù)快速迭代。近期,混元 T1 也迎來(lái)新升級(jí),在多項(xiàng)核心能力上均實(shí)現(xiàn)了提升:其中,在競(jìng)賽數(shù)學(xué)上效果提升 8%;在常識(shí)問(wèn)答上提升 8%;在復(fù)雜任務(wù)的 Agent 能力提升了 13%。
目前,國(guó)內(nèi)大模型市場(chǎng)已經(jīng)呈現(xiàn)出百花齊放的特點(diǎn),各家大模型都有自己的技術(shù)特長(zhǎng)點(diǎn)。
比如,混元的多模態(tài)模型,如 3D、視頻生成等功能,在開發(fā)者圈內(nèi)就頗有口碑。
本次新發(fā)布的混元視覺深度推理模型 T1-Vision,支持多圖輸入,具備原生長(zhǎng)思維鏈。在具體產(chǎn)品呈現(xiàn)效果上,能夠?qū)崿F(xiàn) " 邊看圖邊思考 ",整體效果相比此前提升 5.3%,整體理解速度提升 50%。
另外一款語(yǔ)音模型混元 Voice,是一款端到端語(yǔ)音通話模型。模型能夠?qū)崿F(xiàn)低延遲語(yǔ)音通話,相比級(jí)聯(lián)方案,響應(yīng)速度提升超過(guò) 30%,降至 1.6 秒。擬人性和情緒應(yīng)用能力也有明顯提升,目前已在騰訊元寶 App 灰度上線。實(shí)時(shí)視頻通話 AI 體驗(yàn)也會(huì)在近期推出。
一個(gè)有意思之處是,騰訊在介紹混元 2.0 的生圖時(shí),提到了一個(gè)數(shù)字——在主觀畫面質(zhì)量和美學(xué)層面的人工測(cè)評(píng)中,混元圖像 2.0 也被認(rèn)為是 "AI 味 " 最少的模型之一。
某種程度上,這也意味著,在基礎(chǔ)模型百花齊放之后,模型輸出結(jié)果的多元性、審美等因素,已經(jīng)開始被納入評(píng)價(jià)標(biāo)準(zhǔn)之一。
知識(shí)引擎全面升級(jí)為 " 智能體開放平臺(tái) "
本次峰會(huì)的另一個(gè)發(fā)布亮點(diǎn),是騰訊的智能體戰(zhàn)略。
2025 年被稱為 Agent 智能體元年,隨著推理模型、多模態(tài)模型的爆發(fā),智能體成為今年大模型領(lǐng)域各家最關(guān)注的方向。
騰訊這次峰會(huì)的一個(gè)關(guān)鍵動(dòng)作,就是將原來(lái)的大模型知識(shí)引擎,升級(jí)為 " 騰訊云智能體開發(fā)平臺(tái) "。
據(jù)悉升級(jí)后的平臺(tái),整合騰訊云的 RAG(檢索增強(qiáng)生成)技術(shù)、全面的 Agent(智能體)能力,能夠幫助企業(yè)快速激活私域知識(shí),以及構(gòu)建專屬智能體。
為什么要在這個(gè)時(shí)候,升級(jí)一個(gè)全新的智能體平臺(tái)?
騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳運(yùn)聲表示,升級(jí)智能體平臺(tái),是因?yàn)橄M麕椭髽I(yè)真正用得起、用得好智能體,而不是停留在概念階段。
技術(shù)的發(fā)展推動(dòng)了智能體快速落地,也是重要原因。" 過(guò)去用傳統(tǒng) AI 技術(shù)實(shí)現(xiàn)這些能力的時(shí)候,其實(shí)效果并不理想。比如抽取關(guān)鍵詞、生成摘要這類任務(wù),對(duì)語(yǔ)言理解能力要求很高。" 吳運(yùn)聲表示。
但在有了大模型,特別是多模態(tài)大模型后,在語(yǔ)義理解、上下文建模、內(nèi)容切分、標(biāo)簽生成等方面都有顯著提升。最直接的影響是,大模型讓語(yǔ)義檢索、比對(duì)的準(zhǔn)確度迅速提升;多模態(tài)模型的發(fā)展,讓視覺 + 文本協(xié)同任務(wù)變得可能了。
" 如果 Agent 具備了使用瀏覽器的能力,那它的‘行為邊界’就大大拓展了,可以覆蓋很多真實(shí)場(chǎng)景。" 吳運(yùn)聲表示。
開源同樣是這次發(fā)布會(huì)的重點(diǎn)之一。
當(dāng)前,混元 3D 模型在 Hugging Face 上下載量超過(guò) 160 萬(wàn)。未來(lái),混元計(jì)劃推出多尺寸混合推理模型,從 0.5B 到 32B 的 dense 模型,以及激活 13B 的 MoE 模型,適配企業(yè)與端側(cè)不同需求。
并且,混元圖像、視頻、3D 等多模態(tài)基礎(chǔ)模型及配套插件模型也將持續(xù)開源。
目前,混元已深度融入騰訊各業(yè)務(wù)線,廣泛應(yīng)用于微信、QQ、騰訊元寶、騰訊會(huì)議、騰訊文檔等核心產(chǎn)品,提升騰訊內(nèi)部產(chǎn)品的智能化水平,并通過(guò)騰訊云向外輸出模型能力,幫助企業(yè)和開發(fā)者創(chuàng)新提效。