AI 視頻生成賽道已經(jīng)肉眼可見地 " 卷 " 出天際了。大廠背書的產(chǎn)品更新迭代的速度快到簡(jiǎn)直讓人眼花繚亂。
作為 " 老鐵廠 " 快手的可靈 AI 最大的對(duì)手,谷歌的 AI 視頻生成產(chǎn)品 Veo2 本身就已經(jīng)非常能打了,又在前段時(shí)間的 I/O 大會(huì)上再次正式上線 Veo3 版本。這才沒過(guò)幾天,可靈 2.1 版本也緊跟著推出。要知道,在短短一個(gè)月之前,快手才剛剛推出它們上一個(gè)大版本。
這回更新后的可靈 2.1 提供了結(jié)構(gòu)化的產(chǎn)品選項(xiàng)。我們實(shí)測(cè)下來(lái),標(biāo)準(zhǔn)版本以幾乎相同的成本完全替代了可靈 1.6,而高品質(zhì)版本更是能與網(wǎng)友頻頻喊 " 效果炸裂 " 的可靈 2.0 大師版不相上下。
作為目前少數(shù)能正面硬剛谷歌的頂級(jí)玩家,可靈自誕生起就自帶光環(huán)。可以說(shuō),這回性價(jià)比提升后的可靈 AI,正在展現(xiàn)給我們一場(chǎng)頂級(jí)玩家間的貼身肉搏。
" 直面 AI" 在可靈上也特意充值了一大筆靈感值,用 9 個(gè)一手測(cè)試帶你看一看可靈 2.1 都在哪些方面有了提升,又有哪些不足。
01
可靈 2.1 價(jià)格更親民,性能全面超越舊版
在實(shí)際評(píng)測(cè)可靈 2.1 前,我們先看看在可靈的價(jià)格體系下,每一條視頻生成的價(jià)格有多高:可靈大師版的一條 5 秒視頻價(jià)格就是 10 元,10 秒視頻一條就是 20 元。
對(duì)于用戶來(lái)講,每一條視頻的成本并不低,所以性價(jià)比的需求更為強(qiáng)烈。
我們整理了下可靈 AI 更新后各個(gè)版本的用戶價(jià)格,目前可靈 2.1 提供三種模式:
1. 標(biāo)準(zhǔn)模式
2. 高品質(zhì)模式
3. 大師模式
現(xiàn)在的可靈 AI 已經(jīng)有了結(jié)構(gòu)化的產(chǎn)品價(jià)格體系:
可靈 2.1 標(biāo)準(zhǔn)模式的 5 秒和 10 視頻生成所需的價(jià)格幾乎與可靈 1.6 的高品質(zhì)模式相當(dāng)。
在可靈 2.1 高品質(zhì)模式下生成的綜合視頻效果在一定程度上能夠與可靈 2.0 大師版相媲美。
可靈 2.1 大師版的定價(jià)與舊版本一致。
可以說(shuō),2.1 版本下的結(jié)構(gòu)化產(chǎn)品價(jià)格已經(jīng)為用戶提供了豐富的選擇。如果從性價(jià)比的角度上來(lái)看,它已經(jīng)能夠完全取代舊版本了。
下面,我們通過(guò)一系列實(shí)測(cè)來(lái)看看可靈 2.1 的各模式與舊版本的表現(xiàn)對(duì)比。
(1)可靈 2.1 人物動(dòng)態(tài)效果極佳,一致性很強(qiáng):
目前可靈 2.1 的標(biāo)準(zhǔn)模式和高品質(zhì)模式無(wú)法文生視頻,大師模式則沒有此限制。
我們先來(lái)看看 2.1 高品質(zhì)模式與前幾個(gè) " 滿血版本 " 的對(duì)比。
在實(shí)際測(cè)試中,我們發(fā)現(xiàn)可靈 2.1 在人物動(dòng)態(tài)效果上的表現(xiàn)極佳,領(lǐng)先了舊版本一定的差距,整體畫面都保留了原圖的高一致性。
比如,我們先用一張背后頂著光輪的女子坐姿彈琴的 AI 圖片玩了下。這張附帶人物并具有大量光效的圖片很適合用來(lái)測(cè)試可靈 AI 各個(gè)版本的人物動(dòng)態(tài)效果:
提示詞:
光環(huán)旋轉(zhuǎn),光屑散落,風(fēng)吹動(dòng)沙子、頭發(fā)和衣物,女子在彈動(dòng)樂(lè)器,鏡頭拉遠(yuǎn)。
可靈 1.6 高品質(zhì):
可靈 1.6 高品質(zhì)模式下的整體效果其實(shí)已經(jīng)非常好了,畫面真實(shí),光屑的粒子效果明顯。但是有個(gè)很突出的缺陷:可靈 1.6 的語(yǔ)義響應(yīng)能力是真的不高,女子身后的光環(huán)不僅沒有旋轉(zhuǎn),沙子的舞動(dòng)效果也沒有。
可靈 2.0 大師版:
可靈 2.0 大師模式相比 1.6 有了很明顯的提升,比如光輪外環(huán)的旋轉(zhuǎn)和風(fēng)吹沙子的表現(xiàn)都更生動(dòng)自然。但是,細(xì)致入微的我發(fā)現(xiàn):視頻里雖然風(fēng)在吹動(dòng)沙子,拂過(guò)衣物時(shí),衣角卻沒有變化:
可靈 2.1 高品質(zhì):
可靈 2.1 高品質(zhì)模式在人物效果上的表現(xiàn),確實(shí)令我有些驚訝。光輪快速旋轉(zhuǎn)的同時(shí),光屑的粒子效果一致性很高,女子左右角的衣服也跟著舞動(dòng),畫面幾乎不存在像素扭曲、不自然邊緣等明顯的生成瑕疵:
可靈 2.1 在處理復(fù)雜光影和細(xì)微動(dòng)作時(shí)的穩(wěn)定性比較高,很少出現(xiàn)變形或失真的問(wèn)題。
(2)多人物場(chǎng)景下,可靈 2.1 幾乎拉開了代差:
當(dāng)視頻生成畫面里涉及多個(gè)人物時(shí),可靈 2.1 就與之前的版本拉開了十分明顯的差距。
比如,我給了它一段提示詞:
在一座云霧繚繞的高山之巔,兩名武俠高手展開激烈對(duì)決。一人身穿白色長(zhǎng)袍,手持長(zhǎng)劍,劍光如虹;另一人身著黑色斗篷,使用雙刀,招式迅猛。背景是連綿的青翠山脈,山巔的巨石被劍氣劈裂,碎石飛濺。鏡頭快速切換,展現(xiàn)近身格斗的細(xì)節(jié),隨后拉遠(yuǎn),俯瞰云海中的戰(zhàn)斗場(chǎng)景。畫面風(fēng)格:寫實(shí)、武俠電影風(fēng)、動(dòng)態(tài)運(yùn)鏡
很明顯,可靈 1.6 高品質(zhì)模式下,涉及多個(gè)人物和景色時(shí),在人物細(xì)節(jié)、動(dòng)作協(xié)調(diào)、場(chǎng)景融合以及動(dòng)態(tài)運(yùn)鏡上的表現(xiàn)就顯得非常差了。畫面的 AI 感很重,兩位俠客的刀劍都出現(xiàn)了劇烈的形變。
可靈 2.0 大師:
相比于 1.6 高品質(zhì)模式,2.0 大師的視覺效果好了一點(diǎn),但好的不多。當(dāng)攝像機(jī)鏡頭拉開后,人物的形變還是非常明顯,看起來(lái)完全不像在真的打架。武打動(dòng)作雖然有一定連貫性,但招式之間的銜接不夠自然:
可靈 2.1 大師:
可靈 2.1 大師的進(jìn)步很明顯,人物形象鮮明,細(xì)節(jié)豐富,臉部表情真實(shí)生動(dòng),武器未出現(xiàn)形變。但是,戰(zhàn)斗真實(shí)感仍然說(shuō)不上太高,對(duì)決的動(dòng)態(tài)與節(jié)奏感還是有些不足:
(3)非人物場(chǎng)景下,各種模式間的差距并不明顯:
可靈 2.1 在多人物場(chǎng)景下的表現(xiàn)確實(shí)很好,尤其是在動(dòng)作協(xié)調(diào)、表情細(xì)節(jié)和群體交互的真實(shí)感上,相較 2.0 和 1.6 有很大的提升。但是,在非人物場(chǎng)景中,可靈 2.1 與前代模型的差異并不那么明顯,尤其是在光效處理、環(huán)境動(dòng)態(tài)和畫面穩(wěn)定性的表現(xiàn)上。
比如,下面這張?jiān)谀藓玳W爍的摩天大樓間的飛行器的場(chǎng)景:
從高空俯瞰這座城市,飛行器在霓虹閃爍的摩天大樓中快速穿梭,鏡頭跟隨
可靈 1.6 高品質(zhì)模式下,畫面的視覺效果和一致性都比較好,但是有一點(diǎn):畫面里并沒有出現(xiàn)飛行器快速穿梭,鏡頭跟隨的場(chǎng)景:
可靈 2.0 大師版翻車了,幾架飛行器在霓虹閃爍的摩天大樓中直接融合成了一塊:
可靈 2.1 標(biāo)準(zhǔn):
可靈 2.1 標(biāo)準(zhǔn)模式下的表現(xiàn)比較好,與提示詞的一致性很高,畫面中完全出現(xiàn)了提示詞中的各種要素。但是,單從視覺色彩上來(lái)看,2.1 標(biāo)準(zhǔn)模式并沒有與 1.6 高品質(zhì)有太大差距:
可靈 2.1 高品質(zhì)的視覺呈現(xiàn)感覺并沒有與標(biāo)準(zhǔn)模式以及 1.6 有太大區(qū)別,反而攝像機(jī)跟隨顯起來(lái)比較怪:
02
可靈 vs Veo2/3
谷歌的 Veo2 在 AI 視頻生成賽道里一直都是可靈 AI 系列的最大對(duì)手之一。自從 Veo2 推出以來(lái),由于畫面細(xì)節(jié)、動(dòng)態(tài)流暢性和內(nèi)容創(chuàng)意方面表現(xiàn)非常突出,谷歌在這一領(lǐng)域成了頂級(jí)玩家。這回上線的 Veo3 的真實(shí)性又上了一個(gè)大臺(tái)階。
下面我們就用一系列實(shí)測(cè)案例,來(lái)看看可靈 2.1 的大師版與 Veo2/3 間的差距有沒有被彌補(bǔ)上,或者說(shuō)彌補(bǔ)上多少了。
(1)動(dòng)漫少女滑冰
X 平臺(tái)的一位博主 ShidarezakuraSa 實(shí)際測(cè)試了 Veo2/3 兩個(gè)版本下動(dòng)漫少女滑冰的視頻效果,我們也同樣用可靈 2.1 大師跑了下測(cè)試。
Veo2:
Veo2 的視覺效果還是不錯(cuò)的,整體畫面一致性比較高,沒有出現(xiàn)崩壞的現(xiàn)象。但是,動(dòng)漫少女的身體并沒有呈現(xiàn)出任何物理效果的變化;鏡頭的移動(dòng)跟隨也非常一般:
Veo3:
Veo3 相對(duì)于舊版本的升級(jí)非常大,動(dòng)作捕捉、物理模擬和動(dòng)態(tài)視角的變化都非常棒,真實(shí)度上升了不止一個(gè) Level:
可靈 2.1 大師呈現(xiàn)的效果相比于 Veo3 還是有一定差距的,畫面出現(xiàn)了很多形變。同時(shí),我也注意到動(dòng)漫少女身上的物理模擬效果非常真實(shí),可靈 2.1 在人物運(yùn)動(dòng)狀態(tài)方面的塑造上確實(shí)非常強(qiáng):
(2)比格犬與人類下棋
另有一位博主 drjmetz 用一段提示詞測(cè)試了下 Veo2/3 的視覺效果:
一只比格犬幼犬在公園的游戲中與人類下棋
在這個(gè)場(chǎng)景下,可靈 2.1 的表現(xiàn)我覺得甚至要比 Veo3 還要強(qiáng)。
Veo2 模型下,狗狗的皮毛紋理并不清晰,有非常重的 AI 感。畫面中的兩位角色在觸碰國(guó)際象棋棋子時(shí)的動(dòng)態(tài)模擬也比較差:
Veo3 的表現(xiàn)就提升了非常多,人物臉部的真實(shí)感很強(qiáng)。同樣地,棋子在被接觸時(shí)仍然會(huì)發(fā)生形變,這就是目前 AI 視頻生成模型還無(wú)法解決的難題:
可靈 2.1 大師模式下的狗狗的皮毛真實(shí)感很高,在處理復(fù)雜紋理時(shí)表現(xiàn)優(yōu)異,在細(xì)節(jié)渲染和光影處理上更接近真實(shí)。但是,2.1 并沒有展現(xiàn)下棋的過(guò)程,避開了復(fù)雜的物理模擬,這也體現(xiàn)了 2.1 在語(yǔ)義響應(yīng)上仍有上升空間:
(3)一只長(zhǎng)頸鹿在紐約騎自行車
在動(dòng)態(tài)視覺效果方面,可靈 2.1 與 Veo3 的差距還是比較明顯的。比如下面這個(gè)「一只長(zhǎng)頸鹿在紐約騎電動(dòng)自行車」的 case。
X 博主 nmatares 提供了 Veo3 模型的測(cè)試結(jié)果,我們也同樣用可靈 2.1 大師跑了一遍。
一只長(zhǎng)頸鹿在紐約瘋狂騎電動(dòng)車,畫面充滿動(dòng)感,鏡頭快速切換,展現(xiàn)長(zhǎng)頸鹿靈巧地避開行人和車輛
Veo3 下,畫面主體的運(yùn)用效果一致性比較高,整體效果非常流暢,動(dòng)態(tài)效果上展現(xiàn)了極高的水準(zhǔn)。在畫面主體的運(yùn)動(dòng)表現(xiàn)上,Veo3 對(duì)長(zhǎng)頸鹿騎行姿態(tài)的刻畫很自然,動(dòng)感氛圍也比較匹配:
相比之下,同樣的提示詞在可靈 2.1 大師版下的表現(xiàn)則顯得差了一些。在動(dòng)態(tài)效果的處理上,可靈 2.1 的畫面流暢度明顯不足,長(zhǎng)頸鹿的騎行動(dòng)作顯得有些怪異,街邊人物的形變很大:
帶大家欣賞可靈 2.1 高品質(zhì)模式下更多的 Case
我們還用剩下的靈感值多跑了幾個(gè)能很直觀展現(xiàn)可靈 2.1 高品質(zhì)的視頻 case,讓大家看個(gè)夠。
(1)童話風(fēng)格女孩
在一個(gè)童話風(fēng)格的小鎮(zhèn),鵝卵石街道上掛滿彩燈,居民穿著中世紀(jì)風(fēng)格的華麗服裝,參加盛大的節(jié)日慶典。孩子們手持氣球,圍著噴泉嬉戲;樂(lè)隊(duì)演奏歡快的弦樂(lè),煙花在夜空中綻放。鏡頭從小鎮(zhèn)廣場(chǎng)的熱鬧場(chǎng)景推進(jìn),聚焦于一位小女孩點(diǎn)亮漂浮燈籠,燈籠緩緩升空,與星空融為一體。畫面風(fēng)格:溫馨、夢(mèng)幻、色彩豐富,動(dòng)畫電影風(fēng)格。
(2)魔法師
在一片古老的魔法森林中,參天巨樹上纏繞著發(fā)光的藤蔓,地面覆蓋著熒光蘑菇。精靈祭司站在石制祭壇前,手持水晶法杖,召喚出漂浮的藍(lán)色魔法符文。周圍的空氣中閃爍著微光粒子,遠(yuǎn)處的獨(dú)角獸在溪流邊飲水。鏡頭環(huán)繞祭壇,展現(xiàn)儀式的高潮:一束光柱從天而降,點(diǎn)亮整個(gè)森林。畫面風(fēng)格:夢(mèng)幻、溫暖色調(diào)、輕霧彌漫,電影感,流暢運(yùn)鏡。
(3)機(jī)械生物
在一片紅色沙漠的外星球上,巨大的機(jī)械生物在沙丘間緩慢移動(dòng),它們的身體由金屬和有機(jī)物混合構(gòu)成,散發(fā)著幽幽藍(lán)光。天空布滿雙月,遠(yuǎn)處的火山噴發(fā)出紫色煙霧。一支探險(xiǎn)隊(duì)駕駛懸浮越野車靠近,揚(yáng)起漫天沙塵。鏡頭從地面視角逐漸拉高,展現(xiàn)機(jī)械生物的全貌和壯麗的異星地貌。畫面風(fēng)格:科幻、荒涼、超現(xiàn)實(shí),史詩(shī)感。
03
本土誕生的卷王
綜合測(cè)試下來(lái),我們發(fā)現(xiàn)可靈 2.1 在動(dòng)態(tài)人物的一致性方面的提升非常大,尤其是多人物場(chǎng)景下的真實(shí)細(xì)節(jié)還原。可以說(shuō),可靈 2.1 已經(jīng)能夠憑借性價(jià)比徹底替換掉前代版本。但是,在極復(fù)雜場(chǎng)景、動(dòng)態(tài)運(yùn)鏡、物理模擬等方面,可靈 2.1 距離谷歌的 Veo3 仍有一段追趕空間。
從 " 老鐵廠 " 快手如此密集的迭代節(jié)奏不難看出,AI 視頻生成的進(jìn)化已進(jìn)入白熱化階段。同時(shí),可靈的商業(yè)化之路,已經(jīng)被市場(chǎng)實(shí)實(shí)在在地驗(yàn)證了:從 2024 年 6 月發(fā)布以來(lái),可靈 AI 已經(jīng)快速迭代了 20 多個(gè)版本,全球用戶規(guī)模超過(guò) 2000 萬(wàn)。今年 1 季度,可靈 AI 實(shí)現(xiàn)營(yíng)業(yè)收入超過(guò) 1.5 億元。
我們已經(jīng)看到了包括可靈 2.0、2.1 等各個(gè)版本的誕生,快手作為可靈的母公司,正全面擁抱 AI 技術(shù),用 AI 當(dāng)作全新的商業(yè)引擎。
可靈這款產(chǎn)品從誕生之日起,到走通商業(yè)化只用了短短半年時(shí)間。現(xiàn)在,可靈產(chǎn)品迭代速度明顯加快,結(jié)構(gòu)化的產(chǎn)品選項(xiàng)不斷清晰。我們可以預(yù)見的是," 老鐵廠 " 和極大規(guī)模的用戶群體加持下的可靈 AI,將會(huì)是谷歌 Veo 3 最強(qiáng)勁且最不能忽視的本土對(duì)手之一。