關于ZAKER 合作
      智東西 3小時前

      貓咪也能“ 123 上鏈接”!超強數字人模型 SkyReels-A3 來了,人人皆可零幀起手玩轉直播帶貨

      智東西

      作者 | 李水青

      編輯 | 漠影

      智東西 8 月 11 日報道,昆侖萬維 SkyWork AI 技術發布周今日正式啟動。在持續 5 天的活動中,昆侖萬維將每天發布一款新模型,音頻驅動視頻生成數字人模型 SkyReels-A3 作為 " 第一彈 " 率先亮相,后續還將發布世界模型、生圖一體化模型、智能體(Agent)模型及 AI 音樂創作模型。

      當下市面上的數字人層出不窮,但因機械感、AI 味兒重等問題廣受詬病。SkyReels-A3 直擊數字人行業痛點,生成的視頻 " 真人感 " 肉眼可見,幾乎看不出來 AI 痕跡,支持多種精細動作及運鏡方式,而且生成時長 " 感人 ",超 60 秒保持完全順暢一致。

      比如,下面這個視頻,你能看出完全是我們用 SkyReels-A3 在幾分鐘之內一次生成的嗎?

      基于 SkyReels-A3 生成的小貓帶貨視頻(源自:智東西)

      在昆侖萬維公布的初步人工測試中,Skyreels-A3 對于面部和主體的穩定性、口型同步、動作自然性等方面都取得了最好的效果,堪稱 " 五邊形戰士 " ——這些能力滿足時下熱門的數字人直播的業務需求,人人 0 門檻自創數字人開直播的時代真的來臨了!

      在定量評估中,Skyreels-A3 在不同的音頻驅動場景的大多數指標上,超越了先進的開源模型 omniavatar 和閉源模型 omnihuman 等方法,達到該賽道多項測評的 SOTA(行業最佳)的水準。

      當下,SkyReels-A3 已經面向所有人開放可用,智東西第一時間進行了實測。

      在試用體驗后,智東西的真實感受是:這款模型堪稱 " 魔法 " 級別,準確和自然度、畫質及動感、時長都讓人眼前一亮。而且,從輸入所需的圖片、文案、音頻到最終生成的視頻,智東西基本都采用昆侖萬維的大模型及 Skywork Super Agent 來生成,從而體驗到了 " 從 0 到 1" 的創作快感。

      不得不說,今天的生成式 AI 已經是 Next Level 了。

      一、不止于 " 對嘴型 ",表情動作達 " 真人級 "

      昆侖萬維的團隊觀察到,當下音頻驅動的人像視頻生成技術已經顯著進步,但在自然的環境互動、長時間高質量生成以及執行精準復雜指令等方面,仍難以勝任。

      為此,其最新模型 SkyReels-A3 針對這些問題進行了優化。

      用戶輸入一張照片、一條音頻以及一句提示詞,SkyReels-A3 就能輸出如以下視頻中的真人級的直播賣貨視頻。視頻中,金發碧眼的女主播在講解手中的防曬霜,防曬霜自然地晃動,背后艷陽高照、泳池水光波動,真實感很強。

      基于 SkyReels-A3 生成的主播賣貨視頻(源自:昆侖萬維)

      實測效果如何?智東西從多語種口型同步、手部動作自然度、表情動作與場景貼合度、動態運鏡控制、長視頻穩定性、多風格多主體等方面,對 SkyReels-A3 的視頻生成效果進行了實際體驗。

      如果我不說,相信大多數人看到下面的視頻后都會驚訝:這些視頻都是 AI 生成的?沒錯,從文案、角色、聲音到最終視頻,都是 AI。

      實測 1:多語種口型同步。智東西輸入了中文、中文方言粵語、英文 3 種語言的音頻片段(各 30 秒),以及三張不同肖像圖,生成了三個數字人視頻,合而為一呈現。可以看到,視頻中的人物的表情穩定,不同語種發音的嘴部運動自然連貫,口型與語音精準匹配。

      基于 SkyReels-A3 生成的女性宣言視頻(源自:智東西)

      實測 2:手部動作自然度。開篇智東西展示了生成的貓咪賣貨視頻,現在當我把輸入的照片換成 AI 生成的人物肖像,只見視頻生成也十分聲臉貼合。更重要的是,手指生成正常且動作流暢,沒有出現 " 六個手指 " 這樣的恐怖谷效應以及重影現象。

      基于 SkyReels-A3 生成的男子帶貨視頻(源自:智東西)

      此前 7 月,多家媒體報道,從 Grok4 到 OpenAI o3 等頂尖 AI 都數不清六根手指,引發人們關注。SkyReels-A3 則在本次實測生成的多個視頻中都避開了這個 bug。這種能力對廣告主播等業務場景非常重要,因為他們經常需要手部和物品交互來達成商品成交。

      實測 3:表情動作與場景貼合度。首先是一個演講場景的案例,當我輸入一個演講場景的圖片和對應音頻,SkyReels-A3 似乎理解了這一場景的設定,生成視頻中的女孩自信地進行演講,并時不時向左下角看稿子,符合場景設定。

      基于 SkyReels-A3 生成的演講場景視頻(源自:智東西)

      下面這一視頻設定的場景為演唱會 MV,可以看到生成視頻中小姐姐專注演唱,狀態 " 女團 " 活力十足,作為虛擬偶像立馬出道也不為過。而這一視頻生成僅僅花了 1 分鐘不到,加上照片和歌曲生成前后也不到 10 分鐘。

      基于 SkyReels-A3 生成的 MV 場景視頻(源自:智東西)

      實測 4:動態運鏡控制體驗。首先看一個昆侖萬維的官方 Demo,鏡頭呈現了下降的動態運作,讓曠野中的男士逐漸逼近,展現出磅礴的大片感。

      基于 SkyReels-A3 生成的下降鏡頭視頻截取 gif 片段(源自:昆侖萬維)

      智東西對案例難度進行了升級,輸入一張帶有兩個人的照片,并輸入了一小段音樂音頻,以及 "push in,女孩看向前方唱歌,男孩開心地看向女孩 " 文字指令,SkyReels-A3 為我生成了一段采用了運鏡技巧的視頻。

      基于 SkyReels-A3 生成的拉近鏡頭視頻(源自:智東西)

      從視頻效果來看,鏡頭的推進比較平滑,視角變化符合指令。不過,兩個人的嘴型隱約看到都在跟著動,與只要求女孩唱歌的提示指令略有出入。

      據悉,昆侖萬維研發團隊目前預設了 8 種常見的運鏡參數,包含 : 固定鏡頭(static ) 、推鏡 (push in)、拉鏡 (push out)、左搖(pan left)、右搖(pan right)、抬升(crane up)、下降(crane down)和手持鏡頭(swing),用戶可以根據需要選擇相應運鏡,并且每個運鏡的強度可 0 – 100% 連續調節。

      實測 5:長視頻穩定性效果。下面這是一段圍繞 "《悉達多》與內卷還是躺平 " 主題生成的長視頻,時長接近 1 分鐘,畫面沒有出現崩壞、閃爍或人物變形,動作、表情也比較連貫。

      基于 SkyReels-A3 生成的長視頻鏡頭視頻(源自:智東西)

      當前市面上的模型主要專注于生成 3-5 秒的短視頻,但這對于廣告、直播帶貨等實際應用場景還不夠,1 分鐘以上長視頻穩定生成解決了市場的需求痛點。雖然 SkyReels-A3 視頻生成長度仍然有限,但已經超出大多競品,通過多段視頻組合的方式,可以在保證時長的同時實現更精準控制。

      實測 6:多風格多主體效果。為了體驗不同風格生成,下面這是智東西用 SkyReels-A3 生成的一段 3D 卡通動漫視頻,畫面中的小松鼠聲情并茂地在講述它的經歷,活潑而富有童真,這或許在兒童教育場景有可觀的商用價值。

      基于 SkyReels-A3 生成的多風格主體視頻(源自:智東西)

      基于上述體驗和案例鑒賞,我們認為音頻驅動數字人可想象的落地場景大大擴展了,包括虛擬偶像、虛擬人直播、線上教師、面試官數字人、游戲助手等,SkyReels-A3 生成的數字人都將能夠勝任。

      在體驗的過程中,最令我震撼的還是從文案、音頻、圖案到視頻的全鏈條 AI 生成。每一步都只需要一個頭腦中的點子以及鼠標鍵盤簡單操作,到最后一步視頻生成 " 集大成 ",或許只要幾分鐘,而且免費。這不禁讓人贊嘆:內容生產者的 " 創造力爆發 " 時代真的要來了。

      二、橫掃開閉源 SOTA,人工測評 " 五邊形戰士 "

      魔法般的生成效果背后,是昆侖萬維 AI 視頻大模型技術的又一次迭代。

      目前,Skyreels-A3 的性能通過廣泛的實驗進行了驗證,包括現有最先進模型(開源和閉源)的定量和定性比較,多項指標實現了 SOTA(行業表現最佳)。

      據悉,在定量評估中,Skyreels-A3 在不同的音頻驅動場景的大多數指標上,超越了先進的開源模型 omniavatar 和閉源模型 omnihuman 等方法。

      Skyreels-A3 定量測評情況

      其尤其是在唇形同步(sync-c)方面表現出卓越的性能。同時,研發團隊引入了 step 蒸餾,采用了更少的步數 (40 步減少為 4 步),效果幾乎沒有損失。

      在人工測試中,Skyreels-A3 對于面部和主體的穩定性,動作自然性都取得了最好的效果,同時在口型同步和人臉取得最好比較接近的結果,可以說是一個 " 五邊形戰士 "。

      Skyreels-A3 人工測試情況

      右圖則是對于 retalking 進行了評測,結果顯示音畫同步和視頻質量都有明顯的優勢。

      在定性分析中,Skyreels-A3 模型在不同的應用場景中與 OmniHuman、OmniAvatar、HunyuanAvatar 等主流模型對比,都取得了不錯的生成效果。

      據悉,Skyreels-A3 生成的視頻,視覺偽影(手部和動作扭曲)比較少,整體視覺質量更高,畫面更加自然。同時,對于半身復雜交互場景表現也更加優秀。

      三、基于 DiT 視頻擴散模型,破解累計誤差痛點

      當前數字人生成技術尚未達到市場要求的精準度。 以直播帶貨為例,大量數字人主播在講解口紅時,口型難精準匹配,拿起口紅時手部動作僵硬或 " 穿模 ",運鏡呆板使得展示效果大打折扣,也難以長時間不卡頓跳幀 ……

      市場迫切需要更精準的 AI 視頻生成能力——能實現跨場景精準口型同步、穩定長時輸出、更自然的交互生成和增強藝術化的運鏡控制。 昆侖萬維的 Skyreels-A3 正是瞄準這些核心痛點。

      自 2024 年起昆侖萬維就推出 AI 視頻模型 SkyReels,而后瞄準電商直播等典型落地方向迭代模型。其本次推出的 Skyreels-A3 模型基于 DiT(Diffusion Transformer)視頻擴散架構,架構能有效建模長時序依賴關系,擅長處理時間很長、前后關聯緊密的視頻內容,讓生成的視頻前后畫面連貫、有邏輯;

      同時 Skyreels-A3 引入 3D 變分自編碼器(3D-VAE)進行隱空間表征學習,在此空間內完成生成任務。這相當于把視頻壓縮成一個更小、更精煉的 " 核心版本 ",就像把一部電影壓縮成一個很小的精華文件;然后在這個壓縮后的 " 核心空間 " 里進行主要的視頻生成工作,從而顯著降低擴散模型計算復雜度,同時確保關鍵視覺特征的完整性。

      Skyreels-A3 模型采用 DiT 架構

      如何生成高一致性的長視頻?傳統的延展方法由于生成誤差的累計,容易造成畫面逐漸崩壞。這就如同 " 走鋼絲 ":依賴逐幀生成時,每一幀的微小誤差持續累積,導致畫面從細節失真逐步演變為全面崩壞——就像反復復印的圖紙,最終模糊成一團墨跡。

      昆侖萬維研發團隊采用全新的對齊訓練策略來進行視頻延展。通過歷史幀提供連續信息和參考圖提供畫面一致信息,如同架起一座穩固的橋梁支柱,來減少誤差累計,從而消除畫面崩壞,持續地生成連續且畫面不崩壞的分鐘級別的長視頻。

      Skyreels-A3 基于插幀模型來進行視頻延展

      在手與物品的交互方面,研發團隊針對手部動作自然度和清晰度,構造了針對線上直播等場景的數據,并采用了不同 seed 和訓練過程 checkpoints 來生成大量候選,從而讓手上動作更自然和符合物理規律。

      此外值得一提的是,為了讓鏡頭語言更加靈動,研發團隊構造了一種基于 ControlNet 結構的鏡頭控制模塊,通過精細化鏡頭參數的輸入,實現幀級別精準運鏡控制。

      具體來說,這就好比給數字人所在場景做一個 "3D 深度掃描 ",鏡頭控制模塊提取參考圖的深度信息,配合相機參數,渲染目標運鏡軌跡的參考視頻。而后 AI 就能生成運鏡示范視頻當模板,讓數字人視頻逐幀復刻電影級絲滑的運鏡效果。

      結語:AI 視頻生成走向精細化競賽,加速產業落地步伐

      當下,AI 視頻生成正深入表情與物理交互的微觀戰場,昆侖萬維 SkyReels-A3 以唇動毫米級同步、符合動力學的肢體交互、長視頻零崩壞等優勢突破精準卡位,推動視頻生成大模型迅速走向產業化。

      昆侖萬維在 AI 生成視頻領域的積累由來已久。早在 2024 年其就開始布局,而后相繼開源中國首個面向 AI 短劇創作的視頻生成模型 SkyReels-V1,以及全球首個無限時長視頻生成模型 SkyReels-V2。

      此次推出的 Skyreels-A3 則聚焦數字人賽道,展現了 " 技術到生產力 " 的強大穿透力,有助于視頻生成模型應用到直播、電商、教育、廣告等多個領域。

      作為昆侖萬維技術周首發成果,SkyReels-A3 不僅為數字人領域立標,更預告著 AI 視頻生成將引爆內容產業效能革命,才剛剛開始。昆侖萬維技術周還有更多更新,我們將持續關注。

      相關標簽

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 国产精品日韩一区二区三区| 中文乱码字幕高清一区二区| 日韩av片无码一区二区不卡电影 | 精品国产鲁一鲁一区二区| 日韩av片无码一区二区不卡电影| 一区二区三区四区无限乱码 | 精品无码AV一区二区三区不卡| 精品3d动漫视频一区在线观看| 男女久久久国产一区二区三区| 久久精品中文字幕一区| 色屁屁一区二区三区视频国产| 男插女高潮一区二区| 精品人无码一区二区三区| 夜夜嗨AV一区二区三区| 国产精品无码不卡一区二区三区| 国产91精品一区| 无码人妻av一区二区三区蜜臀 | 国产一区三区三区| 一区二区三区四区精品| 一本色道久久综合一区| 精彩视频一区二区| 精彩视频一区二区三区| 麻豆精品一区二区综合av| 精品一区狼人国产在线| 日本韩国一区二区三区| 国产成人一区二区三区免费视频| 久久精品无码一区二区三区免费 | 91一区二区三区四区五区| 久久青草精品一区二区三区| 国语精品一区二区三区| 日本不卡在线一区二区三区视频| 国偷自产一区二区免费视频| 久久久久久人妻一区精品| 亚洲AV日韩AV天堂一区二区三区 | 无码人妻精一区二区三区| 日本在线电影一区二区三区| 天码av无码一区二区三区四区| 亚洲一区二区视频在线观看| 伊人色综合一区二区三区| 奇米精品视频一区二区三区| 国产精品无码亚洲一区二区三区|