作者:周源 / 華爾街見聞
在生成式 AI 技術從實驗室走向產業應用的過程中,視頻生成因其技術復雜度高、場景需求多元,始終是行業攻堅的重點領域。
百度商業研發團隊在 7 月 2 日推出的視頻生成 MuseSteamer 模型及 " 繪想 " 平臺,瞄準了搜索、廣告和推薦場景中原生化內容生產的實際痛點,試圖通過技術適配性優化,探索 AIGC 視頻落地的可行路徑,宣告了百度開始進軍 AI(人工智能)視頻生成領域。
值得一提的是,2024 年,Sora 爆火引發生成式視頻大模型熱潮,百度創始人、董事長兼 CEO 李彥宏在一場內部講話中稱,Sora 這種視頻生成模型的投入周期太長,10 年、20 年都可能拿不到業務收益,無論多火爆,百度都不去做。
百度技術團隊不惜 " 打臉 " 李彥宏,很可能是解決了視頻生成的核心挑戰——如何讓視覺元素與聲音信息在時間軸上形成自然協同;另外,7 月 2 日有消息稱,李彥宏在 2024 年那場閉門會議上還提了一嘴:基于多模態需求,可以做一個相對特定的視頻生成場景。
MuseSteamer 正是一個相對特定的視頻生成模型,從這個角度看,也確實算不上打臉老板。
這個模型的技術設計,解決了聚焦于中文語境下的多模態語義對齊問題。
與英文相比,中文的語義模糊性、語境依賴性更強,一句 " 這個產品很給力 ",既可能需要畫面呈現產品性能測試,也可能需要通過人物表情傳遞贊嘆情緒,對應的音效設計更是千差萬別。
為解決這問題,MuseSteamer 底層數據處理采用了 " 場景顆粒度拆解 " 方案:將億級中文視頻數據按 " 生活服務、電商展示、知識科普 " 等 23 個搜廣推高頻場景分類,每個場景下再細分 " 動作 - 情緒 - 效果 " 三級標簽。
比如在電商場景中," 服裝展示 " 被拆解為 " 靜態懸垂(動作)- 無情緒(情緒)- 布料質感(效果)" 等子標簽,使模型能精準理解 " 這件裙子垂感很好 " 等描述對應的音畫表現形式。
這樣的場景化訓練思路,直接體現在生成效果上。
在測試中,針對 " 講解手機拍照功能 " 指令,模型能自動匹配 " 鏡頭推拉(畫面)+ 按鍵音效(聲音)+ 平緩解說(人聲)" 組合,而同類英文模型往往出現 " 畫面快速切換卻搭配慢速解說 " 的錯位情況。
百度做出的此類優化雖不涉及顛覆性技術創新,卻切中了中文商業內容生產的實際需求。
百度商業體系商業研發總經理劉林表示,在數字內容創作領域,視頻時長與畫質的突破通常意味著創作自由度的質變。
MuseSteamer 可支持電影級審美 10 秒長視頻的生成,1080P 的高清晰度,為視頻創作提供了更大的表現空間。
劉林表示,傳統 AIGC 視頻創作實踐中,一般先生成視頻,再做配音和添加音效。這種割裂的創作環節不僅消耗大量時間,更會削弱作品的完整藝術表達。
MuseSteamer 創新性支持一體化生成帶有音效和人物臺詞的視頻。就視頻長度而言,MuseSteamer 可生成 5 秒和 10 秒兩個版本,均能達到 1080p 清晰度。
百度此次同步發布 MuseSteamer 模型的家族版本,包括 Turbo、Lite 和 Pro,以及各版本對應的有聲版,分別面向不同的創作需求和成本考量。
" 繪想 " 平臺的版本矩陣,本質是對不同用戶成本結構的差異化回應。
Turbo 版的免費公測策略,瞄準的是中小商家試錯成本敏感的特點:淘寶店主在嘗試生成產品視頻時,最擔心的是 " 花了錢卻不符合平臺算法推薦偏好 ",免費模式使其可快速測試不同畫面風格與轉化率的關聯。
Pro 版的付費設計則對應專業機構的時間成本痛點;全系列有聲版對 " 邊際成本 的控制。
傳統廣告制作中,每增加一種方言配音,需額外支付配音演員酬勞,而有聲版通過中文語音合成技術的遷移應用,支持粵語、川語等 8 種方言的即時生成,使區域化營銷內容的邊際制作成本大幅降低。
作為最早布局大模型的國內科技企業的一份子,百度競逐視頻生成賽道,與字節跳動和快手等對手相比,屬實 " 后(luo)發(hou)"。
快手旗下的可靈 AI 在今年 5 月宣布,推出全新 2.1 系列模型,高品質模式(1080p)下生成 5 秒視頻僅需不到 60s。
快手官網信息顯示,可靈 AI 在推出 10 個月之后(即今年 3 月)的年化收入運行率(Annualized Revenue Run Rate)突破 1 億美元,今年 4 月和 5 月的月度付費金額均超過 1 億元人民幣。
除了在 2024 年宣布領投清華系視頻大模型公司生數科技之外,百度在生成式視頻領域沒有更多動作;到今年 3 月,百度發布文心大模型 4.5 和 4.5 Turbo,實現文本、圖像和視頻混合訓練。
與對手相比,在國內 AIGC 視頻賽道,百度看上去是取道差異化競爭路徑:做 " 特定場景生成視頻 ",而非全場景模式。
與專注泛娛樂內容的同類產品相比," 繪想 " 的核心優勢在于與搜索、廣告等商業場景的深度綁定。
比如繪想生成的視頻可直接成為百度信息流廣告系統的一個功能模塊,自動匹配用戶搜索關鍵詞做動態優化;純工具類產品難以復制 " 創作 - 分發 - 反饋 " 的閉環能力。
此等場景協同也體現在數據積累層面。
百度廣告平臺的億級條用戶互動數據(比如視頻第幾秒用戶點擊了購買按鈕),反向成為 MuseSteamer 的優化依據,使模型能學習到 " 促銷信息在視頻第 8-10 秒出現時轉化率最高 " 之類的商業規律,這種數據壁壘比單純的模型參數更具競爭力。
果然百度的追求還是收益,當然商業價值考量是商業公司的立足之本。
隨著技術的不斷迭代,AIGC 視頻工具的競爭焦點,從 " 能不能生成 " 轉向 " 生成的內容能不能用 "。
百度此次推出的產品,未必在技術參數上如何領先,但通過對商業場景需求的精準捕捉,為行業提供了一種技術落地的可行范式。
故而百度 " 繪想 " 的價值不在于顛覆內容生產,而在于用技術填補傳統流程中的效率洼地。應當說,這是一條務實的推進路徑,畢竟商業化能力才是技術能否快速發展的主要推動力。