36氪昨天

騰訊混元上新：多模態(tài)和智能體，兩手都要抓

作者 | 鄧詠儀

編輯 | 蘇建勛

騰訊大模型的戰(zhàn)略落地上正不斷提速。

"AI 持續(xù)落地，每個(gè)企業(yè)正在成為 AI 公司，每個(gè)人也將成為 AI 加持的‘超級(jí)個(gè)體’。"5 月 21 日，騰訊云 AI 產(chǎn)業(yè)應(yīng)用峰會(huì)上，騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示。

5 月 21 日，騰訊混元迎來(lái)了一次全面升級(jí)，其中包括旗艦快思考模型混元 TurboS、深度思考模型混元 T1 都發(fā)布了新的迭代版本。

基于 TurboS 基座，騰訊新推出視覺深度推理模型 T1-Vision 和端到端語(yǔ)音通話模型混元 Voice。在騰訊 AI 產(chǎn)業(yè)應(yīng)用峰會(huì)上，混元圖像 2.0、混元 3D v2.5 及混元游戲視覺生成等一系列多模態(tài)模型，也同步上新。

湯道生來(lái)源：騰訊

騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生表示，在全球公認(rèn)的權(quán)威大語(yǔ)言模型評(píng)測(cè)平臺(tái) Chatbot Arena 上，混元 TurboS 排名已攀升至全球前八，在國(guó)內(nèi)僅次于 DeepSeek。其中，代碼、數(shù)學(xué)等理科能力，混元 TurboS 也進(jìn)入全球前十。

2025 年初，混元 TurboS 正式發(fā)布，采用大規(guī)模混合 Mamba-MoE 模型，其在效果與性能上已展現(xiàn)出顯著優(yōu)勢(shì)。而這一最新突破，則得益于預(yù)訓(xùn)練階段的 tokens 增訓(xùn)，以及后訓(xùn)練階段引入長(zhǎng)短思維鏈融合技術(shù)，使得 TurboS 理科推理提升超 10%，代碼能力提升 24%，競(jìng)賽數(shù)學(xué)成績(jī)大幅提升了 39%。

來(lái)源：騰訊

早在去年下半年，騰訊就大力投入了深度思考模型的路線攻關(guān)。深度思考模型混元 T1 自年初上線元寶 App 后，持續(xù)快速迭代。近期，混元 T1 也迎來(lái)新升級(jí)，在多項(xiàng)核心能力上均實(shí)現(xiàn)了提升：其中，在競(jìng)賽數(shù)學(xué)上效果提升 8%；在常識(shí)問(wèn)答上提升 8%；在復(fù)雜任務(wù)的 Agent 能力提升了 13%。

目前，國(guó)內(nèi)大模型市場(chǎng)已經(jīng)呈現(xiàn)出百花齊放的特點(diǎn)，各家大模型都有自己的技術(shù)特長(zhǎng)點(diǎn)。

比如，混元的多模態(tài)模型，如 3D、視頻生成等功能，在開發(fā)者圈內(nèi)就頗有口碑。

本次新發(fā)布的混元視覺深度推理模型 T1-Vision，支持多圖輸入，具備原生長(zhǎng)思維鏈。在具體產(chǎn)品呈現(xiàn)效果上，能夠?qū)崿F(xiàn) " 邊看圖邊思考 "，整體效果相比此前提升 5.3%，整體理解速度提升 50%。

另外一款語(yǔ)音模型混元 Voice，是一款端到端語(yǔ)音通話模型。模型能夠?qū)崿F(xiàn)低延遲語(yǔ)音通話，相比級(jí)聯(lián)方案，響應(yīng)速度提升超過(guò) 30%，降至 1.6 秒。擬人性和情緒應(yīng)用能力也有明顯提升，目前已在騰訊元寶 App 灰度上線。實(shí)時(shí)視頻通話 AI 體驗(yàn)也會(huì)在近期推出。

一個(gè)有意思之處是，騰訊在介紹混元 2.0 的生圖時(shí)，提到了一個(gè)數(shù)字——在主觀畫面質(zhì)量和美學(xué)層面的人工測(cè)評(píng)中，混元圖像 2.0 也被認(rèn)為是 "AI 味 " 最少的模型之一。

某種程度上，這也意味著，在基礎(chǔ)模型百花齊放之后，模型輸出結(jié)果的多元性、審美等因素，已經(jīng)開始被納入評(píng)價(jià)標(biāo)準(zhǔn)之一。

知識(shí)引擎全面升級(jí)為 " 智能體開放平臺(tái) "

本次峰會(huì)的另一個(gè)發(fā)布亮點(diǎn)，是騰訊的智能體戰(zhàn)略。

2025 年被稱為 Agent 智能體元年，隨著推理模型、多模態(tài)模型的爆發(fā)，智能體成為今年大模型領(lǐng)域各家最關(guān)注的方向。

騰訊這次峰會(huì)的一個(gè)關(guān)鍵動(dòng)作，就是將原來(lái)的大模型知識(shí)引擎，升級(jí)為 " 騰訊云智能體開發(fā)平臺(tái) "。

據(jù)悉升級(jí)后的平臺(tái)，整合騰訊云的 RAG（檢索增強(qiáng)生成）技術(shù)、全面的 Agent（智能體）能力，能夠幫助企業(yè)快速激活私域知識(shí)，以及構(gòu)建專屬智能體。

為什么要在這個(gè)時(shí)候，升級(jí)一個(gè)全新的智能體平臺(tái)？

騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳運(yùn)聲表示，升級(jí)智能體平臺(tái)，是因?yàn)橄Ｍ麕椭髽I(yè)真正用得起、用得好智能體，而不是停留在概念階段。

技術(shù)的發(fā)展推動(dòng)了智能體快速落地，也是重要原因。" 過(guò)去用傳統(tǒng) AI 技術(shù)實(shí)現(xiàn)這些能力的時(shí)候，其實(shí)效果并不理想。比如抽取關(guān)鍵詞、生成摘要這類任務(wù)，對(duì)語(yǔ)言理解能力要求很高。" 吳運(yùn)聲表示。

但在有了大模型，特別是多模態(tài)大模型后，在語(yǔ)義理解、上下文建模、內(nèi)容切分、標(biāo)簽生成等方面都有顯著提升。最直接的影響是，大模型讓語(yǔ)義檢索、比對(duì)的準(zhǔn)確度迅速提升；多模態(tài)模型的發(fā)展，讓視覺 + 文本協(xié)同任務(wù)變得可能了。

" 如果 Agent 具備了使用瀏覽器的能力，那它的‘行為邊界’就大大拓展了，可以覆蓋很多真實(shí)場(chǎng)景。" 吳運(yùn)聲表示。

開源同樣是這次發(fā)布會(huì)的重點(diǎn)之一。

當(dāng)前，混元 3D 模型在 Hugging Face 上下載量超過(guò) 160 萬(wàn)。未來(lái)，混元計(jì)劃推出多尺寸混合推理模型，從 0.5B 到 32B 的 dense 模型，以及激活 13B 的 MoE 模型，適配企業(yè)與端側(cè)不同需求。

并且，混元圖像、視頻、3D 等多模態(tài)基礎(chǔ)模型及配套插件模型也將持續(xù)開源。

目前，混元已深度融入騰訊各業(yè)務(wù)線，廣泛應(yīng)用于微信、QQ、騰訊元寶、騰訊會(huì)議、騰訊文檔等核心產(chǎn)品，提升騰訊內(nèi)部產(chǎn)品的智能化水平，并通過(guò)騰訊云向外輸出模型能力，幫助企業(yè)和開發(fā)者創(chuàng)新提效。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

金鋼科技獲數(shù)千萬(wàn)元融資，瞄準(zhǔn)機(jī)器人磁編碼器市場(chǎng)

36氪 04-15

36氪

讓創(chuàng)業(yè)更簡(jiǎn)單

覺得文章不錯(cuò)，微信掃描分享好友

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語(yǔ)陪練

我的訂閱

騰訊混元上新：多模態(tài)和智能體，兩手都要抓

宙世代

一起剪

相關(guān)閱讀

金鋼科技獲數(shù)千萬(wàn)元融資，瞄準(zhǔn)機(jī)器人磁編碼器市場(chǎng)

最新評(píng)論

36氪

熱門推薦