作者|Li Yuan
編輯| 鄭玄
筆者最近的 guilty pleasure,是沉迷于刷《甄嬛傳》的二創和解析視頻。
刷著刷著,就發現了一個有趣的現象:現在用《甄嬛傳》的原聲直接給產品打廣告,已經成了一門新顯學。前一秒祺貴人還在說「臣妾要告發熹貴妃私通」,后一秒可能就在用同樣的聲線推薦某款咖啡。而且,和早年的 AI 視頻不一樣,現在祺貴人的嘴型都已經可以對準地相當自然了。
不過,雖然在一兩句臺詞上已經以假亂真了,只要超出一兩句的范疇,「娘娘帶貨」基本上還是翻車的。
現有技術生成的視頻,一旦拉長時間,各種問題就暴露無遺:人物的動作和手部常常僵硬扭曲,與商品或環境的交互極不自然;畫面質量會隨著時間推移出現視覺偽影甚至「崩壞」;鏡頭語言更是死板單一,無法滿足專業場景需求。
用這種技術生成一兩句帶貨視頻插在一個長視頻里,是獵奇的亮點,但真要讓「安陵容」完整地唱一支 MV,或者讓「皇后娘娘」做一場半小時的直播帶貨,觀眾很快就會因為這些揮之不去的瑕疵而感到疲勞,就算是《甄嬛傳》這樣的頂級 IP 也拉不住。
不過,AI 的進展,當然是很快的。你永遠可以相信 AI 的發展速度。
8 月 11 日,昆侖萬維就正式發布其在 AI 視頻生成領域的最新力作—— SkyReels-A3 模型,似乎就是為了精準解決上述所有問題而來。
據悉,昆侖萬維 Skywork AI 技術發布周正式啟動,8 月 11 日至 8 月 15 日,每天將發布一款新模型,連續五天發布覆蓋多模態 AI 核心場景的前沿模型。
SkyReels-A3 模型專門對手部動作交互、運鏡控制和美感表達進行了增強,瞄準的是包括口播導購 帶貨、MV/ 演講等 情景。
當前 SkyReels-A3 模型已上線,歡迎登錄 SkyReels 官網體驗,登錄后在左側導航欄中選擇 Talking Avatar 工具。
01
直播介紹商品可用,
和物體交互十分自然
在 SkyReels-A3 模型生成的視頻中,筆者注意到一個很大的特點是,生成的數字人可以和物體進行自然的交互。
比如在這個桌游帶貨的場景中:
SkyReels-A3 直接針對手部動作的自然度和清晰度,構造了針對線上直播等場景的數據,并采用了不同 seed 和訓練過程 ckpts 來生成大量候選。通過 reward model 來挑選 top-1 最好最差的結果,采用直接偏好學習來進一步優化模型的生成結果。
除了帶貨,同樣的能力,也會讓模型在其他方面表現更突出。
比如在下面的 mv 場景中,SkyReels-A3 模型生成的數字人歌星很自然地就握起了話筒,真實感一下子就提升了。
目前可以看到的有些數字人模型,雖然已經能夠做好嘴形對齊,但是稍微經過一點時間,就會感覺到只有嘴巴在動,很假。而 SkyReels-A3 已經做到了不錯的效果。
02
有美感、無限長的長視頻正在解鎖
除了能與物體進行自然的交互,要讓數字人視頻真正擺脫「玩具感」,邁向「生產力」,還必須攻克兩大難題:如何讓視頻在拉長時間后依然保持穩定,以及如何打破固定機位的呆板視角。
而這,也正是為什么現在《甄嬛傳》的 AI 二創仍然通常只能在一兩句臺詞的長度內,維持極高的真實感——時間再長,就容易「露餡」。
SkyReels-A3 在此也進行了一些優化。
傳統 AI 視頻生成,最大的痛點在于誤差累積。模型就像一個記性不太好的學生,一句接一句地往下說,說到后面就忘了前面,導致畫面出現肉眼可見的劣化、扭曲,也就是常說的「崩壞」。
而 SkyReels-A3 選擇采用了一種聰明的插幀方法。簡單來說,它不再是傻傻地根據前一幀猜下一幀,而是能預先錨定一個未來的、清晰的「關鍵幀」,再高質量地補全中間的視頻片段。這種機制確保了即使視頻長達一分鐘,人物的面部和畫面也能保持高度的一致性。
這帶來了什么直接的好處?簡單來說,就是徹底打開了視頻時長的枷鎖。 從技術上講,這種架構甚至支持無限長的視頻生成,雖然在實際產品部署中可能會限制單次上傳的音頻文件大小,但 生成一段單鏡頭、分鐘級別的視頻已經毫無壓力。
如果說長時穩定解決了「能不能看」的問題,那么豐富的鏡頭語言則決定了視頻「好不好看」。
以往的數字人視頻多是「大頭貼」式的固定視角,非常乏味。SkyReels-A3 則內置了一個基于 ControlNet 的鏡頭控制模塊 ,直接賦予了創作者「導演」的權力。根據其技術文檔,模型預設了推鏡 ( push in ) 、拉鏡 ( push out ) 、左搖 ( pan left ) 、右搖 ( pan right ) 等 8 種常見的專業運鏡,且每種運鏡的強度都可以從 0 到 100 連續調節。
雖然生成完全的長視頻,數字人技術目前仍然不能完全以假亂真。但筆者在看完在 SkyReels-A3 時長和運鏡上取得的突破后,已經看到了未來的潛力。
一個穩定、可控、具備鏡頭感的長視頻數字人,已經足以叩開許多過去難以想象的應用場景的大門。短期內,上半身自然的長視頻數字人,似乎可以被用在 mv 等場景中。未來,則更不可限量。
03
昆侖萬維技術周重磅推出,
SkyReels-A3 首日亮相
昆侖萬維此次還公布了 SkyReels-A3 的技術指標。使用了基準 A-Bench 上(涵蓋日常對話,唱歌和口播等不同場景),測評了多個維度:Sync-C 和 Sync-D 用于精確測量生成視頻中唇部動作與音頻的同步程度。IQA 和 ASE 則是通過專門訓練的 MLLM 來評估視頻畫面的質量和藝術性。ID similarity 則是通過 cosine 相似度,計算生成視頻和參考圖 / 視頻的人臉相似度。
實際上,SkyReels-A3 這樣一個在多個維度上都帶來驚喜的模型,僅僅是昆侖萬維本周技術發布會的「開胃菜」。它背后所展現的,是昆侖萬維作為中國 AI 領域第一梯隊的深厚積累與全棧能力。
回望過去,昆侖萬維的 AI 戰略始終呈現出「開源貢獻」與「產品落地」雙線并進的鮮明特色,這使其不僅成為勤勉的「基礎設施建設者」,更是銳意進取的「頂尖產品經理」。
一方面,作為「基礎設施建設者」,昆侖萬維以持續的頂尖開源模型,為行業「修路搭橋」,彰顯其技術硬實力。
過去數月,昆侖萬維密集開源了多個在行業內取得 SOTA(State-of-the-Art)成就的大模型:
早在 2025 年 2 月,其開源的中國首個面向 AI 短劇創作的視頻生成模型 SkyReels-V1,便已在 Hugging Face 總排行榜上連續多日穩居前十。今年 4 月,更是發布了全球首個使用擴散強迫框架的無限時長電影生成模型 SkyReels-V2,不斷突破技術邊界。
除此之外,在多模態領域,其不僅推出了成功將強文本推理能力遷移至視覺模態的思維鏈推理模型「Skywork-R1V」系列,還發布了集圖片生成、理解和編輯于一體的化模型「Skywork UniPic」,以 1.5B 的輕量級規模性能逼近同類大參數模型。
針對專業領域的挑戰,昆侖萬維也毫不示弱,其數學代碼推理模型「Skywork-OR1」在同等參數規模下實現了業界領先的推理性能。而軟件工程自主代碼智能體基座模型「Skywork-SWE」也是在開源 32B 模型規模下實現了業界最強的倉庫級代碼修復能力。不僅如此,昆侖萬維還前瞻性地布局了空間智能領域,推出了工業界首個開源的 10B+ 空間智能大模型「Matrix-Game」。
另一方面,作為「頂尖產品經理」,昆侖萬維毫不掩飾其商業雄心,親自下場打磨直面用戶痛點的驚艷產品,將最前沿的技術迅速轉化為生產力。
集成了視頻大模型與 3D 大模型的 AI 短劇平臺 SkyReels,搭載了最新的 SkyReels-A3 模型,讓創作者能夠「一鍵成劇」,輕松制作高質量 AI 視頻。
當第一天的發布就已經為 AI 數字人視頻的種種頑疾提供了如此有說服力的解法,我們不禁對未來充滿期待:在接下來的四天里,昆侖萬維還會拿出怎樣的殺手锏?
這場從 8 月 11 日持續到 15 日的技術發布周,或許正是昆侖萬維在向外界宣告——其 AI 全棧能力已然成熟,并且準備好在牌桌上亮出更多底牌。對于整個行業和所有 AI 關注者而言,好戲,才剛剛開始。
* 頭圖來源:昆侖萬維
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO