關于ZAKER 合作
      36氪 12小時前

      谷歌內部揭秘 Genie 3:Sora 后最強 AI 爆款,開啟世界模型新時代

      Genie 3 是有史以來最先進的世界模型之一。

      僅通過文本,它能夠實時生成完全互動、高度一致的世界。

      它不僅是 DeepMind 積累的結晶,還是通向 AGI 和具身智能體的關鍵一步。

      但 Genie 3 是如何構建的?未來的世界模型又是什么樣?

      剛剛,谷歌 DeepMind 的研究科學家 Jack Parker-Holder 和研究總監(jiān) Shlomi Fruchter,在 a16z 的訪談中,分享了他們的觀點。

      谷歌 DeepMind 的研究科學家 Jack Parker-Holder 和研究總監(jiān) Shlomi Fruchter

      這次對話提供了對 Genie 3 的第一手洞察。

      主持人 Justine Moore 發(fā)推表示:「Genie 3 在網絡上引發(fā)熱潮」。

      主持人 Justine Moore 發(fā)文

      他總結了深入探討的要點:

      Genie3 是由兩個 DeepMind 項目(Veo 2 和 Genie 2)合作完成的成果。

      實時、互動的世界模型有很多潛在應用

      但應用并不是推動研究的主要動力——它們是從用戶使用模型的過程中自然涌現(xiàn)出來的。

      Genie 3 可以保留最長達一分鐘的空間記憶。

      物理規(guī)律是模型的「自然產物」,并會隨著訓練數(shù)據(jù)的規(guī)模和深度而不斷提升。

      目前還沒有一個「終極模型」能夠同時具備 Veo 3 和 Genie 3 的所有能力。

      Genie 3:AI 新魔法

      如果說 LLM 的原生圖像編輯功能,「動動嘴 PS」是「言出法隨」,那 Genie 3 這次的新特性叫什么?

      只需輸入文本提示,Genie 3 即可生成動態(tài)世界。用戶可以實時進行探索,每秒高達 24 幀,分辨率為 720p。

      十多年來,谷歌 DeepMind 一直致力于模擬環(huán)境的研究。

      Genie 3 是他們最新最強的「世界模型」,是通向通用人工智能(AGI)的關鍵一步,因為它能讓 AI 智能體在無限豐富的模擬環(huán)境中進行訓練。

      去年,他們推出了首批基礎世界模型 Genie 1 和 Genie 2,它們能為智能體生成全新的環(huán)境。此外,他們還通過 Veo 2 和 Veo 3 等視頻生成模型,不斷提升對直觀物理的理解能力。

      這些模型在世界模擬的不同能力上都取得了進展。Genie 3 是谷歌首個支持實時交互的世界模型,同時提升了一致性和真實感。

      Genie 3 在多個方面實現(xiàn)突破

      在生成視頻時長、世界一致性、內容的多樣性、特殊記憶等多個方面,Genie 3 都實現(xiàn)了突破。

      它甚至可以讓個人創(chuàng)造自己的游戲世界、訓練強化學習的智能體、機器人研究等。

      所有這些應用基本上都源于一個核心能力:只用幾句話就能生成一個完整的世界。

      最關鍵的新特性是:特殊記憶。

      比如:一個角色拿著刷子在墻上刷漆,然后他移動到墻的另一邊去刷,接著又回到原來的位置,結果之前刷的痕跡還在。

      特殊記憶(special memory)是 DeepMind 團隊有意設計的目標,但最終的效果好得出乎意料。

      即便是參與 Genie 3 的內部成員,第一次看到上面刷墻的示例時也不敢相信,需要再三觀看、逐幀檢查,才確定這真的是模型生成的。

      Genie 3 的一致性非常高:建筑物左側的樹木在整個交互過程中始終保持一致,即使它們時而進入視野時而消失

      其實,Genie 2 就已經具備了一些「記憶能力」。但當時,整個 AI 界太多令人激動的模型發(fā)布,比如 Veo 2 模型幾天后也發(fā)布了。而且,當時谷歌主打的賣點是「可以生成新的世界」,所以記憶能力就沒被強調出來。

      到了 Genie 3,在「記憶」上,谷歌 DeepMind 下了更大的決心,明確地把「增強記憶能力」作為核心目標之一。

      當時設定的目標是:

      超過一分鐘的記憶、

      支持「實時生成」、

      還能提升「分辨率」。

      其實,這幾個目標本身是互相矛盾的,但谷歌無所畏懼。

      說實話,直到項目快結束時,在看到最終樣本的那一刻,他們依然感到震撼。這種成果即使是預期中的,真的實現(xiàn)的時候還是非常令人興奮。畢竟,研究項目永遠不會有百分百的確定性。

      在設計上,他們還有一個明確的方向,就是不采用「顯式表示法」。市面上已有一些方法,比如用 NeRF 或 Gaussian Splatting 等技術,通過構建明確的 3D 世界結構,來達到一致性。這些方法很好,在某些應用上效果不錯。

      但他們堅持讓模型「逐幀生成」,這種方式對模型的泛化能力、適應多樣世界的能力更有幫助。

      智能涌現(xiàn),驚喜不斷

      就像其他生成式模型一樣,隨著 Scaling,效果確實會提升,這已經不是什么秘密了。

      盡管不如語言模型在推理能力上的涌現(xiàn)表現(xiàn),Genie 3 依然涌現(xiàn)出一些令人驚訝的行為。比如說,如果一個角色靠近一扇門,模型可能就會「推測」角色應該打開門;這類符合人類直覺的行為,模型現(xiàn)在能在一定程度上表現(xiàn)出來了。

      還有就是對語言的理解在不斷變好,生成的內容也越來越真實,視覺效果更自然。

      從 Genie 2 到 Genie 3 的提升非常明顯,特別是在「模擬現(xiàn)實世界能力」上有巨大飛躍。

      比如物理效果的表現(xiàn)——像水的模擬、光照的變化,都非常驚艷。

      現(xiàn)在已經到了一個地步,哪怕是非專業(yè)人士,看了之后也會覺得是真實拍攝的視頻。

      這太驚人了。而在 Genie 2 時代,模型雖然大致能表現(xiàn)出物體該有的行為,但你還是一眼能看出「這是 AI 生成的,不是真的」。

      現(xiàn)在的視頻真假難辨,進步真的很大了。

      在「地形多樣性」問題:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,這些動作和物理反饋應該是不一樣的。

      谷歌團隊發(fā)現(xiàn)這些行為很多都是規(guī)模和數(shù)據(jù)廣度所帶來的「涌現(xiàn)能力」。

      換句話說,他們并沒有為這些行為做專門的訓練或設計,而是模型自己「學」出來的。它通過足夠豐富的訓練數(shù)據(jù),掌握了這個「世界」的通用常識。大多數(shù)時候,它表現(xiàn)非常不錯。

      比如下面的例子:

      在滑雪時,角色在下坡時速度會變快,而試圖上坡時就會變慢,甚至爬不上去;

      下水后,角色一般會開始游泳或濺起水花;

      靠近水坑時,模型通常也會讓角色穿上雨靴。

      這些行為都非常自然,和人類對真實世界的理解非常一致,而這些都是模型自己學會的,真的讓人覺得像魔法一樣。

      這里還有一個有趣的權衡:既能保持世界的「物理一致性」,同時也能忠實地執(zhí)行用戶的提示詞。

      對視頻模型來說,「低概率事件」本來很難,但 Genie 3 依然能有不錯的表現(xiàn)。

      這正是它的魅力所在:

      即便是一些現(xiàn)實中不太可能發(fā)生的場景,Genie 3 也能讓你如臨其境,而不是僅僅生成一個和你身邊環(huán)境一樣的無聊視頻。

      在「指令跟隨 / 文本對齊」,Genie 3 也得到了提升,這主要得益于 DeepMind 內部不同項目(特別是 Veo 項目)的經驗遷移和知識共享。這種跨團隊協(xié)作是 DeepMind 的優(yōu)勢

      世界模型是讓智能體走向現(xiàn)實世界最快的路徑。Genie 3 朝著這個目標邁出了一大步。

      那 Genie 4、Genie 5 的新特性有哪些設想?

      未來的關鍵,真實感和交互性

      但總的來說,Genie 3 團隊最關注的始終是一件事:讓模型本身變得盡可能強大,讓它能產生更廣泛的影響,然后把創(chuàng)造應用的機會交給其他團隊。

      他們表示最終會開放 Genie 3 模型。

      未來確實讓人特別興奮,但也必須承認,世界模型距離真正「準確模擬現(xiàn)實世界」還有很大差距。

      比如,把一個人放進生成的世界里,讓他隨心所欲地做任何事情,我們還遠遠做不到。

      還有很多工作要做,才能讓虛擬世界的真實感和自由度接近現(xiàn)實。

      應用還有很多,關鍵在于能否準確模擬世界,并把人放進其中。也許還能從「第三視角」觀察自己,或者與虛擬智能體互動。

      他們還透露真實感交互性是未來的關鍵。

      現(xiàn)在機器人領域最大的瓶頸之一就是數(shù)據(jù):能收集到的數(shù)據(jù)非常有限。

      而 Genie 3 能生成幾乎無限的場景,這樣一來機器人就能在虛擬世界里學習,而不再局限于現(xiàn)實中能采集到的視頻。這個想法真的很令人興奮。

      最后一個問題:人類是不是生活在某種模擬中?

      這個問題被問過很多次,得到了「哲學化」的回答:如果真是模擬,那它運行在完全不同的硬件之上

      如果人類真的生活在一個模擬世界里,那它絕對不是運行在現(xiàn)在的硬件上的。因為我們的世界是連續(xù)的,而不是數(shù)字化的。

      所有的感知都是連續(xù)的信號。

      也許,在量子層面會有一些「硬件限制」,但至少和我們現(xiàn)在的計算機完全不同。

      或許未來量子計算機,才是運行我們這個模擬世界的真正平臺。

      本文來自微信公眾號" 新智元 ",作者:新智元,36 氪經授權發(fā)布。

      相關標簽
      36氪

      36氪

      讓創(chuàng)業(yè)更簡單

      訂閱

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 国精产品一区一区三区有限公司| 日韩毛片基地一区二区三区| 国产成人免费一区二区三区| 午夜一区二区在线观看| 国产成人一区二区三区电影网站 | 国产精品视频分类一区| 国产精品99精品一区二区三区 | 一区二区和激情视频| 日韩国产一区二区| 亚洲一区影音先锋色资源| 无码毛片一区二区三区中文字幕| 亚洲高清美女一区二区三区| 中文字幕一区二区日产乱码| 一区二区三区视频免费| 国产大秀视频一区二区三区| 国产精品美女一区二区三区| 中文字幕人妻AV一区二区| 熟女少妇丰满一区二区| 无码AV动漫精品一区二区免费| 无码夜色一区二区三区| 2020天堂中文字幕一区在线观| 亚洲AV综合色一区二区三区| 国产亚洲综合精品一区二区三区| 69福利视频一区二区| 亚洲国产精品一区二区第一页免 | 中文字幕一区二区精品区| 一区二区三区免费在线观看| 亚洲AV无码一区二区三区在线观看| 日韩亚洲AV无码一区二区不卡| 色噜噜狠狠一区二区三区果冻| 精品无码日韩一区二区三区不卡 | 国产一区二区三区乱码网站| 国产免费一区二区三区| 亚洲av无码片区一区二区三区 | 国产激情精品一区二区三区| 亚洲国产综合无码一区二区二三区| 精品香蕉一区二区三区| 国产免费一区二区三区| 国产一区二区三区视频在线观看 | 东京热无码av一区二区| 免费视频一区二区|