關(guān)于ZAKER 合作
      鈦媒體 昨天

      昆侖萬(wàn)維 UniPic 2.0 “小鋼炮”模型炸場(chǎng),一個(gè)模型搞定理解 + 生成 + 編輯

      文|光錐智能,作者 | 琳華,編輯|王一粟

      大模型又迎來(lái)新一波的迭代周期。

      近日,從 Open AI 發(fā)布 GPT-5,到國(guó)內(nèi)的昆侖萬(wàn)維、商湯、百川智能、智譜等都陸續(xù)發(fā)布了自己的新模型。其中昆侖萬(wàn)維更是一口氣開(kāi)啟了技術(shù)周,連續(xù) 5 天每天發(fā)布一個(gè)新模型,而 8 月 13 日發(fā)布的,正是其本周發(fā)布的第三款模型——多模態(tài)統(tǒng)一模型 UniPic 2.0。

      UniPic 2.0 主打的是,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力,這正是今年多模態(tài)技術(shù)攻克的熱門(mén)方向——理解、生成、編輯一體化。

      目前多數(shù) AI 生圖,生成之后就很難修改,經(jīng)常出現(xiàn)對(duì)二次指令理解不充分,讓圖片越改越離譜的情況。

      然而我們?cè)跍y(cè)試 UniPic 2.0 的修改圖片能力時(shí),卻看到了驚喜。

      最近流行的 " 基礎(chǔ)款不要搭基礎(chǔ)款,上身基礎(chǔ),下身不基礎(chǔ) " 的玩梗,我們讓 UniPic 2.0 給下身?yè)Q一個(gè)同色系但夸張的穿搭,它就把下身的褲子改成了一條紅色蓬蓬裙。

      此模型在 7 月 30 日已經(jīng)開(kāi)源,這次上線(xiàn)的 2.0 版本,延續(xù)了之前 1.0 版本的優(yōu)勢(shì)—— " 又快又好 "。

      圖片幾秒生成、一句話(huà)編輯,小身材高表現(xiàn)

      當(dāng)其他大模型需要花幾十秒生成一張圖片時(shí),UniPic 2.0 只用幾秒就畫(huà)了一張復(fù)雜的 " 玻璃貓 " 出來(lái)。

      不同于市面上其他開(kāi)源的統(tǒng)一架構(gòu)多模態(tài)模型動(dòng)輒百億參數(shù)的大規(guī)格,UniPic 2.0 的參數(shù)規(guī)格只有 2B,這讓它響應(yīng)生成的速度比起其他模型快了一個(gè)數(shù)量級(jí)。

      雖然尺寸小,但 UniPic 2.0 在圖片生成、理解和編輯三個(gè)方面的表現(xiàn)力也依然在線(xiàn),甚至在圖片編輯部分的部分指標(biāo)分?jǐn)?shù)打敗了多個(gè)規(guī)模在 10B 以上開(kāi)源模型。

      先從圖片生成說(shuō)起,在生成能力方面,UniPic 2.0 的統(tǒng)一架構(gòu)版本在 GenEval(測(cè)試生成圖像和文本匹配程度)取得 0.90,超過(guò)了一眾開(kāi)源模型和閉源的 GPT-4o(0.84)。可以看到,UniPic 2.0 在小模型體量下依然能保持高性能的優(yōu)勢(shì)。

      為了測(cè)試 UniPic 2.0 對(duì)于文本理解和生成匹配的情況,光錐智能讓它和 Bagel 各自生成一張 " 梵高風(fēng)格的樹(shù) ",UniPic 2.0 給出了一張完美切題的圖片,而 Bagel 的圖甚至還帶著圣誕樹(shù)的特征。

      圖片編輯則是 UniPic 2.0 表現(xiàn)最亮眼的部分,在 GEdit-EN 和 Imgedit 這兩個(gè)關(guān)鍵的圖像編輯任務(wù)指標(biāo)上,UniPic2 - SD3.5M - Kontext 分別拿到 6.59 和 4.00 的成績(jī),UniPic2-Metaquery 系列模型的表現(xiàn)更好,最高拿到了 7.10 和 4.06 的分?jǐn)?shù),超越了 OmiGen2、Bagel 在內(nèi)的多個(gè)開(kāi)源模型,可以說(shuō)直接追著閉源的 GPT-4o 而去。

      在圖像補(bǔ)全、擦除、主體一致性、風(fēng)格轉(zhuǎn)換上,光錐智能給出了多組提示詞分別測(cè)評(píng)。

      圖片修改我們開(kāi)頭已經(jīng)測(cè)試過(guò),再給 UniPic 2.0 一張風(fēng)景圖,讓它把相機(jī)視角向右旋轉(zhuǎn) 40 度,給出的圖片效果相當(dāng)驚艷,甚至連陽(yáng)光在墻上映出的影子都補(bǔ)全了。

      日常比較實(shí)用的人物背景切換和圖片消除,光錐智能也給 UniPic 2.0 安排上了。這比較考驗(yàn)大模型處理主體一致性的效果。

      讓 UniPic 2.0 給前 OpenAI 的前首席科學(xué)家 ilya 換個(gè)純藍(lán)色底的背景圖,UniPic 2.0 用 5 秒就把人物從色彩雜亂的背景中 " 摳 " 出來(lái),換了個(gè)接近一寸照的純藍(lán)色背景。

      再讓大模型給純色背景的人物 P 個(gè)沙灘海岸的背景圖,UniPic 2.0 把海岸的沙灘、大海和椰子樹(shù),都安排進(jìn)了背景里。

      嫌人物擋住拍攝的風(fēng)景?我們給了 UniPic 2.0 一張被狗占據(jù)絕大部分的照片,讓它消除掉狗的部分,UniPic 2.0 生成出來(lái)的圖片,基本做到了和原生背景一致。最上方的樹(shù)林和右下角的深色部分,也都被保留在新生成的圖片中。

      風(fēng)格轉(zhuǎn)換方面,UniPic 2.0 也能對(duì)各種風(fēng)格信手拈來(lái)。我們先是讓它生成了一張賽博朋克風(fēng)格的圖片,再讓它做成吉卜力風(fēng),它也能把酷炫的機(jī)器人變成宮崎駿筆下的主角 ~

      最重要的是,一個(gè) 2B 大小的模型,理論上已經(jīng)可以在人們的手機(jī)和電腦上運(yùn)行起來(lái),這意味著一個(gè)可用、好用的高質(zhì)量生成模型,距離真實(shí)落地已經(jīng)越來(lái)越近。

      輕量級(jí)的一體化模型架構(gòu),是怎樣煉成的?

      昆侖萬(wàn)維 Skywork UniPic 2.0 的核心優(yōu)勢(shì),在于把模型同時(shí)將生成架構(gòu)壓縮在 2B 參數(shù),在極少算力設(shè)備的情況下,也能負(fù)擔(dān)起模型的運(yùn)轉(zhuǎn)。

      從模型架構(gòu)上,昆侖萬(wàn)維選擇了統(tǒng)一架構(gòu)的方式,把圖片編輯、生成和理解裝在了一個(gè)模型中完成。

      而長(zhǎng)期以來(lái),AI 領(lǐng)域在處理多模態(tài)任務(wù)時(shí),多采用的是 " 模塊化 " 策略:圖像理解、文本生成圖像和圖像編輯等任務(wù),往往由獨(dú)立的模型或模塊分別完成,再串聯(lián)起來(lái)。這樣分割的架構(gòu)導(dǎo)致各個(gè)模塊之間缺乏協(xié)同。

      " 各自為政 " 的后果是,一個(gè)專(zhuān)注于圖像生成的模型可能無(wú)法充分利用圖像理解的信息來(lái)優(yōu)化生成質(zhì)量,而一個(gè)圖像編輯模型也可能難以在編輯過(guò)程中兼顧文本指令的語(yǔ)義。這種 " 各自為政 " 的模式,最終導(dǎo)致各個(gè)參數(shù)的測(cè)試結(jié)果分?jǐn)?shù)不高,難以形成強(qiáng)大的綜合能力。

      相比之下,UniPic2.0 采用的統(tǒng)一架構(gòu),實(shí)現(xiàn)了圖像理解、生成和編輯三大任務(wù)的深度融合。這種一體化的設(shè)計(jì)使得模型能夠進(jìn)行協(xié)同訓(xùn)練,形成更強(qiáng)大的多模態(tài)處理能力。

      事實(shí)上,無(wú)論是堅(jiān)持做原生多模態(tài),還是做理解生成一體化,都是今年業(yè)內(nèi)在探索多模態(tài)大模型的前沿方向:盡管在圖像生成領(lǐng)域,許多公司出于商業(yè)化考慮仍堅(jiān)持單一架構(gòu),但學(xué)界和堅(jiān)持基礎(chǔ)模型研究的廠(chǎng)商在近一年來(lái)都在積極探索理解統(tǒng)一生成和原生多模態(tài)方面的技術(shù)。

      包括智源的 OmniGen2、階躍星辰發(fā)布的多模態(tài)推理模型 Step-3,還是字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)開(kāi)源的 BAGEL 模型,都是通過(guò)原生多模態(tài)的框架或理解生成統(tǒng)一的機(jī)制,試圖提升模型生成能力的效果。

      此外,在兼顧多個(gè)模塊性能優(yōu)勢(shì)的處理上,昆侖萬(wàn)維這次采用了一個(gè)創(chuàng)新的多任務(wù)強(qiáng)化學(xué)習(xí)模式—— " 漸進(jìn)式雙任務(wù)強(qiáng)化策略 "。

      針對(duì)傳統(tǒng)多任務(wù)強(qiáng)化學(xué)習(xí),常陷入優(yōu)化一個(gè)任務(wù)會(huì)損害另一個(gè)任務(wù)的困境。對(duì)此,昆侖萬(wàn)維先針對(duì)編輯任務(wù)進(jìn)行專(zhuān)項(xiàng)強(qiáng)化,再在已對(duì)齊一致性編輯的基礎(chǔ)上,針對(duì)文生圖任務(wù)的指令遵循進(jìn)行專(zhuān)項(xiàng)強(qiáng)化。在這種模式下,能夠確保文生圖和圖像編輯這兩種不同任務(wù)的強(qiáng)化學(xué)習(xí)過(guò)程互不干擾,并且能夠同時(shí)得到提升。

      最終,和單一架構(gòu)的模型相比,新的統(tǒng)一架構(gòu)模型顯著提升了整體性能和泛化能力,讓生成質(zhì)量與編輯精度同時(shí)提升。

      UniPic 2.0 模型的生成模塊基于 2B 參數(shù)的 SD3.5-Medium 架構(gòu)進(jìn)行訓(xùn)練, 2B 的參數(shù)規(guī)模使得 UniPic 2.0 模型非常 " 輕巧 ",有望部署到各種硬件環(huán)境中,包括個(gè)人電腦、手機(jī)等端側(cè)設(shè)備,從而降低模型應(yīng)用的門(mén)檻。

      UniPic 的 1.0 版本就已經(jīng)驗(yàn)證了這種可能性。昆侖萬(wàn)維表示,該模型可以在 RTX 4090 消費(fèi)級(jí)顯卡上流暢運(yùn)行。

      輕量化的模型,意味著更快的推理速度和更低的計(jì)算資源消耗。不僅讓用戶(hù)可以享受到秒級(jí)響應(yīng)的生成和編輯體驗(yàn),還具備真正落地的成本和環(huán)境,成為一個(gè)真正能夠 " 跑起來(lái) " 的多模態(tài)生成模型。

      追 SOTA,也要追落地

      在平衡 AGI 和務(wù)實(shí)落地上,昆侖萬(wàn)維一直是想得很清楚的一家公司。

      追求 SOTA 帶來(lái)的技術(shù)紅利固然有限,但在模型競(jìng)爭(zhēng)上,昆侖萬(wàn)維通過(guò)卷性?xún)r(jià)比和堅(jiān)持開(kāi)源兩條策略,昆侖萬(wàn)維在國(guó)內(nèi)巨頭林立的環(huán)境下,開(kāi)辟出了一個(gè)獨(dú)有的舒適區(qū):保持技術(shù)優(yōu)勢(shì)的同時(shí),在落地上一騎絕塵。

      是不是感覺(jué)很熟悉?前兩天 OpenAI 發(fā)布的 GPT-5 也玩了一樣的策略,拿便宜 1/10 的價(jià)格,劍指海外的頂流 Anthropic。

      要想做到這些,首先,技術(shù)得過(guò)硬。UniPic 2.0 做到了,它用僅 2B 的參數(shù)規(guī)模,性能卻反超了一批同樣架構(gòu)、參數(shù)卻更龐大的模型。

      這樣做的好處是,2B 參數(shù)的 UniPic 2.0 在推理時(shí)所需的計(jì)算資源大幅減少,讓模型能夠以秒級(jí)速度完成圖像生成和編輯任務(wù),對(duì)于用戶(hù)來(lái)說(shuō),這個(gè)速度具有決定性的意義——很少有人愿意等 AI 跑個(gè)幾十秒甚至是幾分鐘。

      更小的參數(shù),也意味著更低的訓(xùn)練和推理成本,既能讓昆侖萬(wàn)維在追求 SOTA 的路上少燒點(diǎn)錢(qián),也能讓用戶(hù)每次使用的成本更低。對(duì)于目前將重心放在應(yīng)用出海的昆侖萬(wàn)維來(lái)說(shuō),UniPic 2.0 無(wú)疑是一個(gè)更有性?xún)r(jià)比的選擇。

      同時(shí),一個(gè)更早做出的決策——開(kāi)源,也支撐昆侖萬(wàn)維在 AI 大模型訓(xùn)練中跑得更快。

      DeepSeek 掀起的開(kāi)源風(fēng)暴讓人們看到開(kāi)源對(duì)模型能力進(jìn)化的重要性,而早在 2022 年底,昆侖萬(wàn)維就意識(shí)到了開(kāi)源的重要性。從最早 AI 圖像、音樂(lè)、文本和編程四大開(kāi)源算法模型、百億參數(shù)的大語(yǔ)言模型 Skywork-13B 系列到各類(lèi)多模態(tài)大模型,可以說(shuō),昆侖萬(wàn)維在 AI 2.0 時(shí)代一直是堅(jiān)定的開(kāi)源選手。

      開(kāi)源,不僅能讓更多好想法匯集反哺模型的訓(xùn)練,也能讓昆侖萬(wàn)維通過(guò)模型吸引開(kāi)發(fā)者和用戶(hù),建立品牌影響力。

      從結(jié)果看,昆侖萬(wàn)維的這步棋走對(duì)了。

      在國(guó)際知名開(kāi)源社區(qū) HuggingFace 的 7 月榜單中,和一眾大廠(chǎng)、" 五小虎 " 并列的中國(guó)公司中,就出現(xiàn)了昆侖萬(wàn)維的身影。在該榜單上,昆侖萬(wàn)維共有兩個(gè)模型躋身海外模型引用的 Top100,其中一個(gè)就是 UniPic 的 1.0 版本。

      通過(guò)堅(jiān)持開(kāi)源和追逐 SOTA 并行,昆侖萬(wàn)維避免了與大廠(chǎng)在資源上的硬碰硬,而是通過(guò)技術(shù)創(chuàng)新和生態(tài)建設(shè),找到了自己的生態(tài)位。

      幾年追逐 AGI 的賽跑下來(lái),昆侖萬(wàn)維一直是那個(gè)嗅覺(jué)最敏銳的捕手。在大模型之戰(zhàn)越來(lái)越卷的情況下,他們正在通過(guò)集中資源的方式,追求垂類(lèi)的領(lǐng)先。

      在模型領(lǐng)域上,昆侖萬(wàn)維做出了自己的取舍——比如,選擇專(zhuān)注多模態(tài)領(lǐng)域深耕。

      DeepSeek 的出現(xiàn),是昆侖萬(wàn)維改變的契機(jī)之一。在采訪(fǎng)中,昆侖萬(wàn)維董事長(zhǎng)兼總經(jīng)理方漢提及,對(duì)于通用大模型,他們可能會(huì)選擇外采。但一些專(zhuān)有大模型,則要自己訓(xùn)練。

      這次,昆侖萬(wàn)維持續(xù) 5 天的技術(shù)周,就是圍繞著多模態(tài)領(lǐng)域 " 秀肌肉 ",展示他們持續(xù)深耕的成果。無(wú)論是能用在數(shù)字人上的音頻驅(qū)動(dòng)人像視頻生成模型 SkyReels-A3、還是當(dāng)下大家更關(guān)注的具身智能大腦——世界模型 Matri-3D,都映射出這家公司的戰(zhàn)略考量:聚焦前沿,也不忘落地。

      在大模型密集發(fā)布的 8 月,昆侖萬(wàn)維成功找到了自己的位置。放在當(dāng)下的中國(guó) AI 生態(tài)圈里,能持續(xù)在牌桌上引人駐足的公司鳳毛麟角,這是昆侖萬(wàn)維又一次靠策略勝利做到的以小博大。

      相關(guān)標(biāo)簽
      ai

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了

      覺(jué)得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門(mén)推薦

      查看更多內(nèi)容
      主站蜘蛛池模板: 天堂不卡一区二区视频在线观看| 美女福利视频一区二区| 久久精品无码一区二区app| 日本视频一区二区三区| 亚洲AV无码一区二区三区人| 亚洲毛片不卡av在线播放一区| 国产在线一区二区视频| 乱精品一区字幕二区| 中文字幕无码一区二区三区本日 | 国产精品成人99一区无码| 国产精品毛片一区二区三区| 精品久久久久中文字幕一区| 免费视频精品一区二区| 日韩精品一区二区三区不卡| 国产激情一区二区三区 | 无码精品人妻一区| 国产av一区二区精品久久凹凸 | 一区二区视频传媒有限公司| 亚洲高清成人一区二区三区| 久久综合九九亚洲一区| 鲁丝片一区二区三区免费| 国产成人久久一区二区不卡三区 | 国产伦精品一区二区三区女| 亚洲日本一区二区三区| 日韩内射美女人妻一区二区三区| 在线观看日本亚洲一区| 国产精品亚洲一区二区麻豆 | 国产萌白酱在线一区二区| 亚洲av成人一区二区三区在线观看 | 久久精品亚洲一区二区| 国产AV一区二区三区无码野战| 国产乱码一区二区三区四| 国产一区二区三区在线| 亚洲高清成人一区二区三区| 国产在线aaa片一区二区99| 亚洲一区二区三区高清| 无码国产精品一区二区免费式影视| 无码日韩精品一区二区人妻| 亚洲一区二区三区免费视频| 亚洲一本一道一区二区三区| 日韩在线视频不卡一区二区三区 |