文|光錐智能,作者 | 琳華,編輯|王一粟
大模型又迎來(lái)新一波的迭代周期。
近日,從 Open AI 發(fā)布 GPT-5,到國(guó)內(nèi)的昆侖萬(wàn)維、商湯、百川智能、智譜等都陸續(xù)發(fā)布了自己的新模型。其中昆侖萬(wàn)維更是一口氣開(kāi)啟了技術(shù)周,連續(xù) 5 天每天發(fā)布一個(gè)新模型,而 8 月 13 日發(fā)布的,正是其本周發(fā)布的第三款模型——多模態(tài)統(tǒng)一模型 UniPic 2.0。
UniPic 2.0 主打的是,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力,這正是今年多模態(tài)技術(shù)攻克的熱門(mén)方向——理解、生成、編輯一體化。
目前多數(shù) AI 生圖,生成之后就很難修改,經(jīng)常出現(xiàn)對(duì)二次指令理解不充分,讓圖片越改越離譜的情況。
然而我們?cè)跍y(cè)試 UniPic 2.0 的修改圖片能力時(shí),卻看到了驚喜。
最近流行的 " 基礎(chǔ)款不要搭基礎(chǔ)款,上身基礎(chǔ),下身不基礎(chǔ) " 的玩梗,我們讓 UniPic 2.0 給下身?yè)Q一個(gè)同色系但夸張的穿搭,它就把下身的褲子改成了一條紅色蓬蓬裙。
圖片幾秒生成、一句話(huà)編輯,小身材高表現(xiàn)
當(dāng)其他大模型需要花幾十秒生成一張圖片時(shí),UniPic 2.0 只用幾秒就畫(huà)了一張復(fù)雜的 " 玻璃貓 " 出來(lái)。
不同于市面上其他開(kāi)源的統(tǒng)一架構(gòu)多模態(tài)模型動(dòng)輒百億參數(shù)的大規(guī)格,UniPic 2.0 的參數(shù)規(guī)格只有 2B,這讓它響應(yīng)生成的速度比起其他模型快了一個(gè)數(shù)量級(jí)。
先從圖片生成說(shuō)起,在生成能力方面,UniPic 2.0 的統(tǒng)一架構(gòu)版本在 GenEval(測(cè)試生成圖像和文本匹配程度)取得 0.90,超過(guò)了一眾開(kāi)源模型和閉源的 GPT-4o(0.84)。可以看到,UniPic 2.0 在小模型體量下依然能保持高性能的優(yōu)勢(shì)。
為了測(cè)試 UniPic 2.0 對(duì)于文本理解和生成匹配的情況,光錐智能讓它和 Bagel 各自生成一張 " 梵高風(fēng)格的樹(shù) ",UniPic 2.0 給出了一張完美切題的圖片,而 Bagel 的圖甚至還帶著圣誕樹(shù)的特征。
圖片修改我們開(kāi)頭已經(jīng)測(cè)試過(guò),再給 UniPic 2.0 一張風(fēng)景圖,讓它把相機(jī)視角向右旋轉(zhuǎn) 40 度,給出的圖片效果相當(dāng)驚艷,甚至連陽(yáng)光在墻上映出的影子都補(bǔ)全了。
讓 UniPic 2.0 給前 OpenAI 的前首席科學(xué)家 ilya 換個(gè)純藍(lán)色底的背景圖,UniPic 2.0 用 5 秒就把人物從色彩雜亂的背景中 " 摳 " 出來(lái),換了個(gè)接近一寸照的純藍(lán)色背景。
輕量級(jí)的一體化模型架構(gòu),是怎樣煉成的?
昆侖萬(wàn)維 Skywork UniPic 2.0 的核心優(yōu)勢(shì),在于把模型同時(shí)將生成架構(gòu)壓縮在 2B 參數(shù),在極少算力設(shè)備的情況下,也能負(fù)擔(dān)起模型的運(yùn)轉(zhuǎn)。
從模型架構(gòu)上,昆侖萬(wàn)維選擇了統(tǒng)一架構(gòu)的方式,把圖片編輯、生成和理解裝在了一個(gè)模型中完成。
而長(zhǎng)期以來(lái),AI 領(lǐng)域在處理多模態(tài)任務(wù)時(shí),多采用的是 " 模塊化 " 策略:圖像理解、文本生成圖像和圖像編輯等任務(wù),往往由獨(dú)立的模型或模塊分別完成,再串聯(lián)起來(lái)。這樣分割的架構(gòu)導(dǎo)致各個(gè)模塊之間缺乏協(xié)同。
" 各自為政 " 的后果是,一個(gè)專(zhuān)注于圖像生成的模型可能無(wú)法充分利用圖像理解的信息來(lái)優(yōu)化生成質(zhì)量,而一個(gè)圖像編輯模型也可能難以在編輯過(guò)程中兼顧文本指令的語(yǔ)義。這種 " 各自為政 " 的模式,最終導(dǎo)致各個(gè)參數(shù)的測(cè)試結(jié)果分?jǐn)?shù)不高,難以形成強(qiáng)大的綜合能力。
相比之下,UniPic2.0 采用的統(tǒng)一架構(gòu),實(shí)現(xiàn)了圖像理解、生成和編輯三大任務(wù)的深度融合。這種一體化的設(shè)計(jì)使得模型能夠進(jìn)行協(xié)同訓(xùn)練,形成更強(qiáng)大的多模態(tài)處理能力。
包括智源的 OmniGen2、階躍星辰發(fā)布的多模態(tài)推理模型 Step-3,還是字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)開(kāi)源的 BAGEL 模型,都是通過(guò)原生多模態(tài)的框架或理解生成統(tǒng)一的機(jī)制,試圖提升模型生成能力的效果。
此外,在兼顧多個(gè)模塊性能優(yōu)勢(shì)的處理上,昆侖萬(wàn)維這次采用了一個(gè)創(chuàng)新的多任務(wù)強(qiáng)化學(xué)習(xí)模式—— " 漸進(jìn)式雙任務(wù)強(qiáng)化策略 "。
針對(duì)傳統(tǒng)多任務(wù)強(qiáng)化學(xué)習(xí),常陷入優(yōu)化一個(gè)任務(wù)會(huì)損害另一個(gè)任務(wù)的困境。對(duì)此,昆侖萬(wàn)維先針對(duì)編輯任務(wù)進(jìn)行專(zhuān)項(xiàng)強(qiáng)化,再在已對(duì)齊一致性編輯的基礎(chǔ)上,針對(duì)文生圖任務(wù)的指令遵循進(jìn)行專(zhuān)項(xiàng)強(qiáng)化。在這種模式下,能夠確保文生圖和圖像編輯這兩種不同任務(wù)的強(qiáng)化學(xué)習(xí)過(guò)程互不干擾,并且能夠同時(shí)得到提升。
最終,和單一架構(gòu)的模型相比,新的統(tǒng)一架構(gòu)模型顯著提升了整體性能和泛化能力,讓生成質(zhì)量與編輯精度同時(shí)提升。
UniPic 2.0 模型的生成模塊基于 2B 參數(shù)的 SD3.5-Medium 架構(gòu)進(jìn)行訓(xùn)練, 2B 的參數(shù)規(guī)模使得 UniPic 2.0 模型非常 " 輕巧 ",有望部署到各種硬件環(huán)境中,包括個(gè)人電腦、手機(jī)等端側(cè)設(shè)備,從而降低模型應(yīng)用的門(mén)檻。
UniPic 的 1.0 版本就已經(jīng)驗(yàn)證了這種可能性。昆侖萬(wàn)維表示,該模型可以在 RTX 4090 消費(fèi)級(jí)顯卡上流暢運(yùn)行。
輕量化的模型,意味著更快的推理速度和更低的計(jì)算資源消耗。不僅讓用戶(hù)可以享受到秒級(jí)響應(yīng)的生成和編輯體驗(yàn),還具備真正落地的成本和環(huán)境,成為一個(gè)真正能夠 " 跑起來(lái) " 的多模態(tài)生成模型。
追 SOTA,也要追落地
在平衡 AGI 和務(wù)實(shí)落地上,昆侖萬(wàn)維一直是想得很清楚的一家公司。
追求 SOTA 帶來(lái)的技術(shù)紅利固然有限,但在模型競(jìng)爭(zhēng)上,昆侖萬(wàn)維通過(guò)卷性?xún)r(jià)比和堅(jiān)持開(kāi)源兩條策略,昆侖萬(wàn)維在國(guó)內(nèi)巨頭林立的環(huán)境下,開(kāi)辟出了一個(gè)獨(dú)有的舒適區(qū):保持技術(shù)優(yōu)勢(shì)的同時(shí),在落地上一騎絕塵。
是不是感覺(jué)很熟悉?前兩天 OpenAI 發(fā)布的 GPT-5 也玩了一樣的策略,拿便宜 1/10 的價(jià)格,劍指海外的頂流 Anthropic。
要想做到這些,首先,技術(shù)得過(guò)硬。UniPic 2.0 做到了,它用僅 2B 的參數(shù)規(guī)模,性能卻反超了一批同樣架構(gòu)、參數(shù)卻更龐大的模型。
這樣做的好處是,2B 參數(shù)的 UniPic 2.0 在推理時(shí)所需的計(jì)算資源大幅減少,讓模型能夠以秒級(jí)速度完成圖像生成和編輯任務(wù),對(duì)于用戶(hù)來(lái)說(shuō),這個(gè)速度具有決定性的意義——很少有人愿意等 AI 跑個(gè)幾十秒甚至是幾分鐘。
更小的參數(shù),也意味著更低的訓(xùn)練和推理成本,既能讓昆侖萬(wàn)維在追求 SOTA 的路上少燒點(diǎn)錢(qián),也能讓用戶(hù)每次使用的成本更低。對(duì)于目前將重心放在應(yīng)用出海的昆侖萬(wàn)維來(lái)說(shuō),UniPic 2.0 無(wú)疑是一個(gè)更有性?xún)r(jià)比的選擇。
同時(shí),一個(gè)更早做出的決策——開(kāi)源,也支撐昆侖萬(wàn)維在 AI 大模型訓(xùn)練中跑得更快。
DeepSeek 掀起的開(kāi)源風(fēng)暴讓人們看到開(kāi)源對(duì)模型能力進(jìn)化的重要性,而早在 2022 年底,昆侖萬(wàn)維就意識(shí)到了開(kāi)源的重要性。從最早 AI 圖像、音樂(lè)、文本和編程四大開(kāi)源算法模型、百億參數(shù)的大語(yǔ)言模型 Skywork-13B 系列到各類(lèi)多模態(tài)大模型,可以說(shuō),昆侖萬(wàn)維在 AI 2.0 時(shí)代一直是堅(jiān)定的開(kāi)源選手。
開(kāi)源,不僅能讓更多好想法匯集反哺模型的訓(xùn)練,也能讓昆侖萬(wàn)維通過(guò)模型吸引開(kāi)發(fā)者和用戶(hù),建立品牌影響力。
從結(jié)果看,昆侖萬(wàn)維的這步棋走對(duì)了。
在國(guó)際知名開(kāi)源社區(qū) HuggingFace 的 7 月榜單中,和一眾大廠(chǎng)、" 五小虎 " 并列的中國(guó)公司中,就出現(xiàn)了昆侖萬(wàn)維的身影。在該榜單上,昆侖萬(wàn)維共有兩個(gè)模型躋身海外模型引用的 Top100,其中一個(gè)就是 UniPic 的 1.0 版本。
幾年追逐 AGI 的賽跑下來(lái),昆侖萬(wàn)維一直是那個(gè)嗅覺(jué)最敏銳的捕手。在大模型之戰(zhàn)越來(lái)越卷的情況下,他們正在通過(guò)集中資源的方式,追求垂類(lèi)的領(lǐng)先。
在模型領(lǐng)域上,昆侖萬(wàn)維做出了自己的取舍——比如,選擇專(zhuān)注多模態(tài)領(lǐng)域深耕。
DeepSeek 的出現(xiàn),是昆侖萬(wàn)維改變的契機(jī)之一。在采訪(fǎng)中,昆侖萬(wàn)維董事長(zhǎng)兼總經(jīng)理方漢提及,對(duì)于通用大模型,他們可能會(huì)選擇外采。但一些專(zhuān)有大模型,則要自己訓(xùn)練。
這次,昆侖萬(wàn)維持續(xù) 5 天的技術(shù)周,就是圍繞著多模態(tài)領(lǐng)域 " 秀肌肉 ",展示他們持續(xù)深耕的成果。無(wú)論是能用在數(shù)字人上的音頻驅(qū)動(dòng)人像視頻生成模型 SkyReels-A3、還是當(dāng)下大家更關(guān)注的具身智能大腦——世界模型 Matri-3D,都映射出這家公司的戰(zhàn)略考量:聚焦前沿,也不忘落地。
在大模型密集發(fā)布的 8 月,昆侖萬(wàn)維成功找到了自己的位置。放在當(dāng)下的中國(guó) AI 生態(tài)圈里,能持續(xù)在牌桌上引人駐足的公司鳳毛麟角,這是昆侖萬(wàn)維又一次靠策略勝利做到的以小博大。