【太平洋科技快訊】5 月 21 日,在 2025 年的 I/O 開發者大會上,谷歌發布了其最新一代視頻生成模型 Veo3,該模型的核心功能在于其強大的音效和對話生成能力。它不僅能夠生成逼真的視頻畫面,還能根據場景添加相應的背景音效,例如鳥鳴聲、街頭交通噪音、人物對話等,使得生成的視頻更加生動、真實,極具沉浸感。
此外,Veo3 在物理模擬和口型同步方面也表現出色。它能精準地模擬真實世界的動態變化,并確保生成的人物對話與其唇形變化完美匹配,進一步提升視聽體驗的真實度。
據悉,Veo3 采用了先進的自然語言處理 ( NLP ) 和語音合成技術,實現了視頻和音頻的同步生成。這一突破性技術極大地提高了創作效率,用戶只需提供文本或圖像提示,即可快速生成完整的音視頻內容。
Veo3 的應用場景十分廣泛。在影視制作領域,它可以用于快速生成預告片、場景片段,甚至可以輔助創作完整的影視作品。在虛擬現實領域,Veo3 可用于創建虛擬角色、互動場景或沉浸式體驗。此外,Veo3 的多人和多人唇形同步功能,為數字人技術的發展帶來了新的可能性,有助于推動虛擬人類與真實人類之間的交互。
目前,Veo3 僅對美國地區的 Gemini Ultra 用戶和 Vertex AI 的企業用戶開放,并且部分功能 ( 如 Flow ) 目前僅支持英文提示詞,這限制了非英語用戶的體驗。而隨著技術的進一步發展,Veo3 有望擴展到更多地區和語言,為全球用戶提供更廣泛的支持。