8 月 15 日,騰訊混元團隊推出了 3D 世界模型的 Lite 版本。相較于以往 26GB 的顯存需求,此次通過引入動態 FP8(8 位浮點格式)量化技術,將顯存需求直接降至 17GB 以下,消費級顯卡也能流暢運行。
此前,騰訊混元 3D 世界模型的 FP32 版本雖能完整保留所有細節,但顯存占用極高——其參數可能超過十億個,通常需要配備大容量 VRAM 的 GPU 來提升推理速度,因此消費級顯卡根本無法支持。
簡單來說,FP32、FP16、FP8 代表不同的「精度等級」。過去采用高精度的 FP32 技術時,雖能實現極高的精度還原,卻會占用大量顯存,還可能保留不必要的細節(例如背景的天空貼圖等其實并不需要如此精雕細琢)。
而此次動態 FP8 量化技術的核心,在于能實時監測模型運行時的數據分布,并針對不同模塊進行動態適配:大部分關鍵區域采用 FP16 精度,像上述背景貼圖等非關鍵部分則動態調整為 FP8 精度。
這一技術大幅降低了顯存占用,雖然在部分區域適當降低了精度,卻讓個人玩家也能輕松使用 3D 世界模型。
騰訊混元 3D 世界模型是行業內首個開源可編輯的世界生成模型,能根據用戶提供的圖片或文字信息,直接生成完整、可編輯且可交互的世界模型,可直接應用于游戲開發、特效制作、教育仿真等場景。
與騰訊混元模型此前的 3D 模型 AI 生成功能相比,此次推出的 3D 世界模型生成的內容更為豐富,涵蓋環境風格、室內外場景、光線渲染等多個因素。傳統 3D 場景開發耗時極長,僅一個主要建筑物場景就可能耗費數周甚至更久,而這種一鍵生成式場景所帶來的效率提升,完全超出了用戶的想象。
那么,面對如此復雜的場景開發,混元 3D 世界模型是如何快速生成 360 ° 沉浸式視覺空間的呢?
從混元世界模型 1.0 的模型架構來看,全景世界圖像生成技術作為連接文字、圖片與世界的統一代理系統,會先生成初始化世界的全景圖,從而實現 360 ° 的全覆蓋場景。
隨后,系統會將整個 3D 世界解構為不同的清晰層級,例如前景與背景、海洋與地面、地面與天空等,再基于這些層級進行 3D 世界重建,最終形成 3D 世界模型。
相較于傳統 3D 場景開發中每個細節都需精雕細琢、耗費大量時間和人力資源的情況,這種一鍵生成式場景不僅能節省大量時間,還能輸出標準化的可漫游 3D Mesh 資產,兼容 Unity、Unreal Engine 等工具。
而且,生成內容的精度已達到可直接使用的水平:前景內的注意力區域細節呈現到位,背景與前景分離度足夠,未出現界限不清晰、光影模糊等問題。
但在官網體驗混元 3D 世界模型后會發現,它無法完全還原文字中的所有要求,只能還原大致的場景需求、光影顏色以及前景區域的細節。
例如,下圖對應的文本要求中提到了機械世界、機器人等元素,但這些都未在生成的場景中呈現。系統只是提煉了與構建大體世界場景相關的詞匯,如賽博廢土風格、天空中紅色的落日等,然后分離出前景與背景 —— 將 " 廢棄的游樂場 " 解構為前景內容,紅色落日作為背景天空內容,再基于這些層級重建 3D 世界場景,也就是說,它僅還原了場景的大致需求。
此外,這種依照用戶要求生成的 3D 世界模型對普通玩家而言也極具可玩性。直接輸出 3D Mesh 資產帶來了格式的統一和學習成本的降低,當 AI 能夠完成場景解構和 3D 構建工作時,用戶的主觀能動性就成了決定生成場景的唯一變量。
騰訊此次將混元 3D 世界模型普及至消費級顯卡,目的十分明確 —— 吸引廣大開發者與創作者涌入 " 騰訊混元 3D" 生態。該模型支持從 3D 模型到 3D 世界場景的全流程內容生成,用戶由此能夠創造屬于自己的虛擬世界。
當前市面上,支持 3D 模型生成的 AI 大模型不在少數,如 Tripo AI、Meshy AI、GENIE 等。但眾多玩家扎堆爭搶 3D 化賽道,導致產品功能高度同質化,也側面反映出 " 將現實場景搬進虛擬世界 " 已成為各廠商的核心必爭功能。
在這些 AI 工具中,硅谷初創企業 VAST 于 2024 年發布的 AI 3D 基礎模型 Tripo AI,憑借獨特的產品結構脫穎而出。
與面向更廣泛用戶的騰訊混元 3D 不同,Tripo AI 的定位更偏向專業創作者:進入頁面后,用戶可直接通過文字或圖片生成 3D 模型,且可調參數相對豐富 —— 不僅支持當前主流 AI 3D 模型均具備的紋理生成功能,還能自動拆分模型部件,讓每個拆解后的部件可單獨編輯;甚至支持為模型部件綁定基礎動畫并演示,不過演示過程中偶爾會出現部件變形問題。總體而言,Tripo AI 是一款功能成熟、可適配多場景的 AI 3D 工具。
同樣在 2024 年推出的 Meshy AI(由國內團隊創建),雖然也支持通過文字、圖像直接生成 3D 模型,但它的核心優勢在于更完善的社區功能:用戶可在社區內瀏覽其他創作者的 3D 模型作品,平臺對模型的分類細化清晰,還標注了互動量、點贊數、是否支持 3D 打印等關鍵信息。這一設計讓新手用戶能直接下載現成的 3D 模型使用,同時也提升了社區的傳播度與活躍度。
而由 Luma AI 推出的 GENIE 工具,除支持文本轉 3D 模型、多格式(如 OBJ、FBX 等)導出以適配不同場景外,最大亮點是提供 API 接口 —— 用戶可通過該接口直接將視頻內容轉化為 3D 模型,形成差異化競爭力。
不難看出,上述產品均憑借自身特色在同質化競爭中突圍,騰訊混元 3D 也不例外。盡管其 3D 模型生成功能與其他工具未拉開明顯差距,但 " 高免費額度 " 是其核心優勢:在混元 AI 3D 官網,每位用戶每天可免費生成 20 次模型,次數耗盡后還能通過分享好友重新獲取。這種 " 以量換用戶 " 的推廣策略相當成功, 在 3D 世界模型 Lite 版發布前,其社區模型下載量已達 230 萬次,成為全球最受歡迎的 3D 開源模型平臺之一。
此次騰訊推出適配消費級顯卡的混元 3D 世界模型 Lite 版,無疑將吸引更多創作者加入其生態。用戶規模的增長,又將進一步推動反饋迭代與應用場景拓展:以當下熱門的 VR 眼鏡為例,混元 3D 導出的 3D 世界模型文件可直接導入使用,用戶只需擁有 VR 設備,就能隨時隨地沉浸在自己創建的虛擬場景中,實現生態與硬件的聯動;同時,AI 3D 基礎模型能讓普通用戶輕松制作高度自定義的 3D 模型,與 3D 打印機形成協同。
更重要的是,AI 3D 化近乎 " 零學習成本 " 的特性,正推動其快速滲透至各行業:在建筑規劃、室內設計、電商展示等場景中,3D 可視化內容比文字或傳統圖紙更易理解,工作人員無需復雜學習即可輸出場景內容,大幅減少重復建模的時間;這種 " 虛擬模型 + 實體行業 " 的聯動,既能提升用戶粘性,又能通過高度自定義內容讓用戶產生歸屬感 —— 種種趨勢表明,3D 模型在 2025 年勢必走向大眾化。
小雷認為,未來的 AI 3D 模型將進一步整合專業場景模型與創作風格,通過細分領域和使用場景吸引更多垂直用戶,不斷拓展生態邊界并滲透到各類生活化場景中。
而這,正是本次 3D 模型平民化浪潮的核心意義 —— 在現實與虛擬交融的當下,讓每個人都擁有構建 3D 虛擬世界的能力。
不過,網上始終有一種論調,認為隨著 3D 模型的普及,3D 建模師會面臨失業風險。對此,小雷卻并不認同。
不可否認,這類能快速生成 3D 模型的工具,必然會對行業產生沖擊。AI 模型 " 快速高效 " 的優勢,確實是人類難以企及的;但正如前文所說,當前的 AI 3D 模型尚無法實現真正的用戶個性化 —— 其生成的產物,本質上仍是基于大模型學習數據所產出的 " 復刻式內容 "。
而這類缺乏個性的內容,終究成不了優秀的作品。無論是游戲建模還是建筑設計,真正能讓人記住的,永遠是那些獨具匠心的設計:是 3D 建模師反復打磨的細節,是為適配用戶需求精心考量的巧思。因此小雷認為,以當前 AI 3D 模型的能力,想要完全取代 3D 建模師基本不可能;相反,作為能高效執行重復性指令的工具,它更適合成為建模師提升效率的 " 輔助幫手 "。
其實轉念一想,這種 "AI 輔助創作 " 的模式,早就在各個行業中滲透。但受限于內容同質化的問題,AI 往往只能停留在 " 重復的基礎構建 " 環節。
這也正是雷科技在如今 AI 寫作工具越來越便捷普及的今天,還在堅持原創的原因,小雷始終認為,真正有深度、有溫度的好文章,絕不會因為 AI 的存在而黯然失色。