欧美专区在线,国产在线视频网址,91国内精品视频

Genie 3 是有史以來最先進的世界模型之一。

僅通過文本，它能夠實時生成完全互動、高度一致的世界。

它不僅是 DeepMind 積累的結晶，還是通向 AGI 和具身智能體的關鍵一步。

但 Genie 3 是如何構建的？未來的世界模型又是什么樣？

剛剛，谷歌 DeepMind 的研究科學家 Jack Parker-Holder 和研究總監(jiān) Shlomi Fruchter，在 a16z 的訪談中，分享了他們的觀點。

谷歌 DeepMind 的研究科學家 Jack Parker-Holder 和研究總監(jiān) Shlomi Fruchter

這次對話提供了對 Genie 3 的第一手洞察。

主持人 Justine Moore 發(fā)推表示：「Genie 3 在網絡上引發(fā)熱潮」。

主持人 Justine Moore 發(fā)文

他總結了深入探討的要點：

Genie3 是由兩個 DeepMind 項目（Veo 2 和 Genie 2）合作完成的成果。

實時、互動的世界模型有很多潛在應用。

但應用并不是推動研究的主要動力——它們是從用戶使用模型的過程中自然涌現(xiàn)出來的。

Genie 3 可以保留最長達一分鐘的空間記憶。

物理規(guī)律是模型的「自然產物」，并會隨著訓練數(shù)據(jù)的規(guī)模和深度而不斷提升。

目前還沒有一個「終極模型」能夠同時具備 Veo 3 和 Genie 3 的所有能力。

Genie 3：AI 新魔法

如果說 LLM 的原生圖像編輯功能，「動動嘴 PS」是「言出法隨」，那 Genie 3 這次的新特性叫什么？

只需輸入文本提示，Genie 3 即可生成動態(tài)世界。用戶可以實時進行探索，每秒高達 24 幀，分辨率為 720p。

十多年來，谷歌 DeepMind 一直致力于模擬環(huán)境的研究。

Genie 3 是他們最新最強的「世界模型」，是通向通用人工智能（AGI）的關鍵一步，因為它能讓 AI 智能體在無限豐富的模擬環(huán)境中進行訓練。

去年，他們推出了首批基礎世界模型 Genie 1 和 Genie 2，它們能為智能體生成全新的環(huán)境。此外，他們還通過 Veo 2 和 Veo 3 等視頻生成模型，不斷提升對直觀物理的理解能力。

這些模型在世界模擬的不同能力上都取得了進展。Genie 3 是谷歌首個支持實時交互的世界模型，同時提升了一致性和真實感。

Genie 3 在多個方面實現(xiàn)突破

在生成視頻時長、世界一致性、內容的多樣性、特殊記憶等多個方面，Genie 3 都實現(xiàn)了突破。

它甚至可以讓個人創(chuàng)造自己的游戲世界、訓練強化學習的智能體、機器人研究等。

所有這些應用基本上都源于一個核心能力：只用幾句話就能生成一個完整的世界。

最關鍵的新特性是：特殊記憶。

比如：一個角色拿著刷子在墻上刷漆，然后他移動到墻的另一邊去刷，接著又回到原來的位置，結果之前刷的痕跡還在。

特殊記憶（special memory）是 DeepMind 團隊有意設計的目標，但最終的效果好得出乎意料。

即便是參與 Genie 3 的內部成員，第一次看到上面刷墻的示例時也不敢相信，需要再三觀看、逐幀檢查，才確定這真的是模型生成的。

Genie 3 的一致性非常高：建筑物左側的樹木在整個交互過程中始終保持一致，即使它們時而進入視野時而消失

其實，Genie 2 就已經具備了一些「記憶能力」。但當時，整個 AI 界太多令人激動的模型發(fā)布，比如 Veo 2 模型幾天后也發(fā)布了。而且，當時谷歌主打的賣點是「可以生成新的世界」，所以記憶能力就沒被強調出來。

到了 Genie 3，在「記憶」上，谷歌 DeepMind 下了更大的決心，明確地把「增強記憶能力」作為核心目標之一。

當時設定的目標是：

超過一分鐘的記憶、

支持「實時生成」、

還能提升「分辨率」。

其實，這幾個目標本身是互相矛盾的，但谷歌無所畏懼。

說實話，直到項目快結束時，在看到最終樣本的那一刻，他們依然感到震撼。這種成果即使是預期中的，真的實現(xiàn)的時候還是非常令人興奮。畢竟，研究項目永遠不會有百分百的確定性。

在設計上，他們還有一個明確的方向，就是不采用「顯式表示法」。市面上已有一些方法，比如用 NeRF 或 Gaussian Splatting 等技術，通過構建明確的 3D 世界結構，來達到一致性。這些方法很好，在某些應用上效果不錯。

但他們堅持讓模型「逐幀生成」，這種方式對模型的泛化能力、適應多樣世界的能力更有幫助。

智能涌現(xiàn)，驚喜不斷

就像其他生成式模型一樣，隨著 Scaling，效果確實會提升，這已經不是什么秘密了。

盡管不如語言模型在推理能力上的涌現(xiàn)表現(xiàn)，Genie 3 依然涌現(xiàn)出一些令人驚訝的行為。比如說，如果一個角色靠近一扇門，模型可能就會「推測」角色應該打開門；這類符合人類直覺的行為，模型現(xiàn)在能在一定程度上表現(xiàn)出來了。

還有就是對語言的理解在不斷變好，生成的內容也越來越真實，視覺效果更自然。

從 Genie 2 到 Genie 3 的提升非常明顯，特別是在「模擬現(xiàn)實世界能力」上有巨大飛躍。

比如物理效果的表現(xiàn)——像水的模擬、光照的變化，都非常驚艷。

現(xiàn)在已經到了一個地步，哪怕是非專業(yè)人士，看了之后也會覺得是真實拍攝的視頻。

這太驚人了。而在 Genie 2 時代，模型雖然大致能表現(xiàn)出物體該有的行為，但你還是一眼能看出「這是 AI 生成的，不是真的」。

現(xiàn)在的視頻真假難辨，進步真的很大了。

在「地形多樣性」問題：比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳，這些動作和物理反饋應該是不一樣的。

谷歌團隊發(fā)現(xiàn)這些行為很多都是規(guī)模和數(shù)據(jù)廣度所帶來的「涌現(xiàn)能力」。

換句話說，他們并沒有為這些行為做專門的訓練或設計，而是模型自己「學」出來的。它通過足夠豐富的訓練數(shù)據(jù)，掌握了這個「世界」的通用常識。大多數(shù)時候，它表現(xiàn)非常不錯。

比如下面的例子：

在滑雪時，角色在下坡時速度會變快，而試圖上坡時就會變慢，甚至爬不上去；

下水后，角色一般會開始游泳或濺起水花；

靠近水坑時，模型通常也會讓角色穿上雨靴。

這些行為都非常自然，和人類對真實世界的理解非常一致，而這些都是模型自己學會的，真的讓人覺得像魔法一樣。

這里還有一個有趣的權衡：既能保持世界的「物理一致性」，同時也能忠實地執(zhí)行用戶的提示詞。

對視頻模型來說，「低概率事件」本來很難，但 Genie 3 依然能有不錯的表現(xiàn)。

這正是它的魅力所在：

即便是一些現(xiàn)實中不太可能發(fā)生的場景，Genie 3 也能讓你如臨其境，而不是僅僅生成一個和你身邊環(huán)境一樣的無聊視頻。

在「指令跟隨 / 文本對齊」，Genie 3 也得到了提升，這主要得益于 DeepMind 內部不同項目（特別是 Veo 項目）的經驗遷移和知識共享。這種跨團隊協(xié)作是 DeepMind 的優(yōu)勢。

世界模型是讓智能體走向現(xiàn)實世界最快的路徑。Genie 3 朝著這個目標邁出了一大步。

那 Genie 4、Genie 5 的新特性有哪些設想？

未來的關鍵，真實感和交互性

但總的來說，Genie 3 團隊最關注的始終是一件事：讓模型本身變得盡可能強大，讓它能產生更廣泛的影響，然后把創(chuàng)造應用的機會交給其他團隊。

他們表示最終會開放 Genie 3 模型。

未來確實讓人特別興奮，但也必須承認，世界模型距離真正「準確模擬現(xiàn)實世界」還有很大差距。

比如，把一個人放進生成的世界里，讓他隨心所欲地做任何事情，我們還遠遠做不到。

還有很多工作要做，才能讓虛擬世界的真實感和自由度接近現(xiàn)實。

應用還有很多，關鍵在于能否準確模擬世界，并把人放進其中。也許還能從「第三視角」觀察自己，或者與虛擬智能體互動。

他們還透露真實感和交互性是未來的關鍵。

現(xiàn)在機器人領域最大的瓶頸之一就是數(shù)據(jù)：能收集到的數(shù)據(jù)非常有限。

而 Genie 3 能生成幾乎無限的場景，這樣一來機器人就能在虛擬世界里學習，而不再局限于現(xiàn)實中能采集到的視頻。這個想法真的很令人興奮。

最后一個問題：人類是不是生活在某種模擬中？

這個問題被問過很多次，得到了「哲學化」的回答：如果真是模擬，那它運行在完全不同的硬件之上

如果人類真的生活在一個模擬世界里，那它絕對不是運行在現(xiàn)在的硬件上的。因為我們的世界是連續(xù)的，而不是數(shù)字化的。

所有的感知都是連續(xù)的信號。

也許，在量子層面會有一些「硬件限制」，但至少和我們現(xiàn)在的計算機完全不同。

或許未來量子計算機，才是運行我們這個模擬世界的真正平臺。

本文來自微信公眾號" 新智元 "，作者：新智元，36 氪經授權發(fā)布。

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

谷歌內部揭秘 Genie 3：Sora 后最強 AI 爆款，開啟世界模型新時代

宙世代

一起剪

相關閱讀

產業(yè)資本領投，時駕科技完成億元A輪融資，將建設50萬套空懸產能

最新評論

36氪

熱門推薦

熱門訂閱換一批

星河商業(yè)觀察

硅基星芒

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

谷歌內部揭秘 Genie 3：Sora 后最強 AI 爆款，開啟世界模型新時代

宙世代

一起剪

相關閱讀

產業(yè)資本領投，時駕科技完成億元A輪融資，將建設50萬套空懸產能

最新評論

36氪

熱門推薦

熱門訂閱 換一批

星河商業(yè)觀察

硅基星芒

熱門訂閱換一批