誰(shuí)也沒(méi)想到,Google I/O 現(xiàn)場(chǎng)的最高潮來(lái)自 " 復(fù)活 " 的 Google Glass 有些翻車了的實(shí)時(shí) demo。
是的,它回到了飽和式發(fā)布的節(jié)奏。當(dāng)天 Google 一口氣發(fā)布了至少十多個(gè) AI 相關(guān)的更新,而其中大多數(shù)和 Gemini 有關(guān)。
簡(jiǎn)單說(shuō),Google 主要做了四件事:展示 Gemini 在多模態(tài)上的遙遙領(lǐng)先;給 Gemini AI 助手做全方位的更新;讓 Gemini 徹底接管搜索,并讓全家桶變成通用 Agent;以及令人興奮的 AI+AR 眼鏡。
這些發(fā)布個(gè)個(gè)重要,但因?yàn)?AI 模型層面本身的進(jìn)展在過(guò)去幾年已經(jīng)吊足了大家胃口,以及 Google 在此次大會(huì)之前已經(jīng)發(fā)布了 Gemini 最新的大迭代,現(xiàn)場(chǎng)似乎顯得平靜。
Google Glass is so back
當(dāng)天的 Google I/O 一共只有三四個(gè) Live demo,而最后出場(chǎng)的 Android XR 眼鏡,是最讓人興奮的一個(gè)。
在喧囂的 I/O 后臺(tái),演示者 Nishta 戴上了這款看起來(lái)與普通眼鏡無(wú)異的 Android XR 眼鏡,為觀眾帶來(lái)第一視角的體驗(yàn)。
她先是對(duì)著鏡子喝了一口咖啡,通過(guò)語(yǔ)音指令發(fā)送短信、設(shè)置手機(jī)靜音,詢問(wèn)眼鏡里內(nèi)置的 Gemini,她看到的墻壁上的樂(lè)隊(duì)與這個(gè)劇場(chǎng)的關(guān)系,而這一切的答案和互動(dòng),都通過(guò)眼鏡上實(shí)時(shí)懸浮顯示,呈現(xiàn)在她眼前。
是的,這一切都是為了展示眼鏡里 Gemini 視覺(jué)記憶能力:當(dāng)來(lái)到主舞臺(tái)后,Nishta 隨口問(wèn)起之前喝過(guò)的咖啡,Gemini 竟然憑借杯子上模糊的印記,準(zhǔn)確報(bào)出了咖啡店的名字 "Blooms Giving"。接著咖啡店的圖片、3D 步行導(dǎo)航地圖、給朋友發(fā)送的咖啡邀約,都通過(guò)很有 Google 特色的懸浮交互完成。
(插入視頻)
最后他們甚至做了一個(gè)實(shí)時(shí)的 " 有風(fēng)險(xiǎn)出錯(cuò) " 的演示—— Nishta 和臺(tái)上的 Shahram 分別用印地語(yǔ)和波斯語(yǔ)進(jìn)行對(duì)話,而兩人鏡片上實(shí)時(shí)滾動(dòng)出英文的字幕。而在展示中,這部分的確卡頓了,但即便最終有些翻車,現(xiàn)場(chǎng)卻依然一片掌聲和歡呼。因?yàn)檫@基本就是接下來(lái)所有人期待的 AI 發(fā)展方向。
當(dāng) Gemini 的一切能力都可以跟現(xiàn)實(shí)世界,物理環(huán)境交互,并且通過(guò)視覺(jué)和語(yǔ)音的端到端的方式可以擁有記憶、執(zhí)行和行動(dòng)能力后,將解鎖太多可能。
據(jù) Google 介紹,Android XR 智能眼鏡將搭載 Gemini Live AI 助手,通過(guò)鏡頭、麥克風(fēng)和可選的內(nèi)置顯示器,實(shí)現(xiàn)語(yǔ)音互動(dòng)、拍照、地圖導(dǎo)航、實(shí)時(shí)翻譯等功能,不用掏出手機(jī)就能完成任務(wù)。設(shè)備將與手機(jī)聯(lián)動(dòng),支持全天佩戴,外觀方面也將與 Gentle Monster、Warby Parker 等時(shí)尚品牌合作打造。目前沒(méi)有公布價(jià)格和上市時(shí)間,但谷歌確認(rèn)今年會(huì)開(kāi)放平臺(tái),供開(kāi)發(fā)者為 XR 生態(tài)構(gòu)建應(yīng)用。
值得注意的是,谷歌在 XR 硬件上似乎也越來(lái)越依賴三星。谷歌 XR 副總裁 Shahram Izadi 在官方博客中提到,他們正與三星深化合作,不僅做頭顯,還將一起推進(jìn)智能眼鏡。而在 I/O 大會(huì)上,谷歌還宣布首款搭載 Android XR 的智能眼鏡將由 Xreal 打造,項(xiàng)目代號(hào)為 Project Aura。
Gemini 接管 Google 的一切
在眼鏡點(diǎn)燃現(xiàn)場(chǎng)之前,Google I/O 更像是 Google 一個(gè)密集的 AI 軍火展示。
今年坐在 Google IO 的圓形劇場(chǎng)里,你能非常直觀感受到一年時(shí)間對(duì)于今天的 AI 來(lái)說(shuō),能發(fā)生多少事情。
當(dāng) Google CEO Sundar Pichai 站上當(dāng)天的舞臺(tái),Google 面前已經(jīng)沒(méi)有了 OpenAI 的偷襲攪局,Llama 被 DeepSeek 徹底打亂陣腳,微軟的 Build 仍讓人擔(dān)心它和 OpenAI 的關(guān)系,而 Gemini 自己的多模態(tài)能力則在一年的不停突破后站穩(wěn)了領(lǐng)先,天天被念叨的搜索業(yè)務(wù)沒(méi)有被 Perplexity 們沖垮,廣告基本盤更是在最近財(cái)報(bào)里仍在超預(yù)期增長(zhǎng),歸因也是 " 因?yàn)?AI"。
" 通常,在 I/O 大會(huì)召開(kāi)前的幾周,我們不會(huì)透露太多信息,因?yàn)榭倳?huì)把最重磅的模型留到大會(huì)上發(fā)布。"Pichai 說(shuō)。" 然而在 Gemini 時(shí)代不同了 。現(xiàn)在,我們很可能在 IO 前就發(fā)布了最智能的模型,或者提前一周公布像 AlphaEvolve 這樣的突破 。我們的目標(biāo)是盡快將最出色的模型和產(chǎn)品交付到大家手中 。我們速度前所未有的快 。"
在 Pichai 的開(kāi)場(chǎng)分享里,是一連串體現(xiàn)速度的數(shù)字。
Gemini 應(yīng)用月活躍用戶超過(guò) 4 億;Gemini 應(yīng)用中 2.5 Pro 使用量增長(zhǎng)了 45%;產(chǎn)品和 API 每月處理的 token 數(shù)從去年同期的 9.7 萬(wàn)億增長(zhǎng)到超過(guò) 480 萬(wàn)億,增長(zhǎng)了 50 倍;超過(guò) 700 萬(wàn)開(kāi)發(fā)者正在利用 Gemini 進(jìn)行構(gòu)建,是去年同期的 5 倍;Vertex AI 上 Gemini 使用量增長(zhǎng)了 40 倍。
而模型上,Pichai 甚至直接喊出 Google 已經(jīng)遙遙領(lǐng)先。
自第一代 Gemini Pro 模型發(fā)布以來(lái),它的 Elo 分?jǐn)?shù)提升了 300 多分。(衡量大模型能力的 ELO 是一種通過(guò)模型之間兩兩匿名對(duì)比(類似下棋)的結(jié)果,來(lái)計(jì)算和更新各個(gè)模型相對(duì)實(shí)力排名的方法);第七代 TPU Ironwood 比上一代性能提升了 10 倍。每個(gè) pod 提供 42.5 exaflops 的計(jì)算能力。
AI 的滲透也帶來(lái) Google 產(chǎn)品的增長(zhǎng)。
Search 中的 AI 概覽已覆蓋超過(guò) 15 億用戶。 目前已在 200 個(gè)國(guó)家和地區(qū)推出;在美國(guó)和印度等最大市場(chǎng),推動(dòng)顯示它們的查詢類型增長(zhǎng)超過(guò) 10%;AI mode 早期測(cè)試者提出的查詢長(zhǎng)度是傳統(tǒng)搜索的 2 到 3 倍。
去年,Pichai 就已經(jīng)開(kāi)始形容 Google 的員工已經(jīng)是 "geminier",而今年的 I/O 當(dāng)天正是 Gemini(雙子座)季節(jié)的第一天,他開(kāi)玩笑形容在 Google 內(nèi)部來(lái)說(shuō),每天都是 Gemini 季節(jié)。
甚至在他的演講保留環(huán)節(jié) " 統(tǒng)計(jì) AI 出現(xiàn)次數(shù) " 的環(huán)節(jié),Gemini 正式超過(guò)了 AI 成為他說(shuō)的最多的單詞。
而 Demis Hassabis 顯然就是讓這一切發(fā)生的那個(gè)人,當(dāng)他出場(chǎng),后面的 AI 生成的圖像甚至都是一只山羊—— GOAT(greatest of all time)。
而這位新晉諾獎(jiǎng)得主也更加直白了,他表示他的最終目標(biāo)是做出一個(gè)世界模型,而 Gemini 現(xiàn)在無(wú)比接近這個(gè)愿景。
Google 公布了一系列 Gemini 2.5 系列的升級(jí):其中輕量級(jí)的 Gemini 2.5 Flash 以速度快、成本低廣受開(kāi)發(fā)者歡迎,如今全新版本在推理、多模態(tài)理解、編程能力和長(zhǎng)文本處理等多個(gè)方面全面升級(jí),性能在 LMArena 榜單上僅次于旗艦版 2.5 Pro。作為輕量級(jí)模型,它在內(nèi)部測(cè)試中還能節(jié)省 20 – 30% 的 token 使用量。
而對(duì)于更強(qiáng)的 2.5 Pro,谷歌也帶來(lái)了一個(gè)全新的 " 深度思考模式 "(Deep Think),專門用來(lái)處理數(shù)學(xué)、編程這類復(fù)雜問(wèn)題。它融合了最新的 AI 推理研究成果,包括并行思維技術(shù),能在面對(duì)復(fù)雜問(wèn)題時(shí)更像人一樣 " 多角度思考 ",給出更周到、更靠譜的答案。目前只開(kāi)放給少數(shù)用戶測(cè)試。Gemini2.5 Pro 還通過(guò)集成 LearnLM,強(qiáng)化了在學(xué)習(xí)和教育場(chǎng)景的應(yīng)用能力 。
此外,一個(gè)比較新的功能是,谷歌正在為 Gemini 2.5 Pro 和 2.5 Flash 增添更自然對(duì)話體驗(yàn)的原生音頻輸出能力,而 Gemini 多模態(tài)可能接入的最新視頻生成模型 Veo 3,在視頻質(zhì)量上繼續(xù)突破,且首次具備了原生音頻生成能力,用戶可以一句話生成匹配音效、背景環(huán)境聲乃至角色對(duì)話的視頻內(nèi)容,并在文本理解、物理效果模擬和口型同步方面表現(xiàn)優(yōu)異 。
而在榜單方面,Gemini 2.5 Pro 和 Gemini 2.5 Flash Preview 版本分別占據(jù)了大模型競(jìng)技場(chǎng)評(píng)測(cè)榜單的前兩名。
對(duì)于 Google 來(lái)說(shuō),Gemini 的模型能力 + 以 Gemini app 為核心的全能的單一 AI 通用助手 +Gemini" 接管 " 的 Google 全家桶,就是它此刻的 AI 戰(zhàn)略。
Hassabis 也對(duì) Gemini App 提出了自己的終極想法:" 我最終極的目標(biāo)是讓 Gemini 成為一個(gè)全能的助手。"
而通往這個(gè)目標(biāo)路上,最近的一個(gè)突破,是之前還只是展示階段的 AI Agent 項(xiàng)目 Project Astra 開(kāi)始正式進(jìn)入現(xiàn)實(shí)世界。
Project Astra 以 Gemini Live 的新身份開(kāi)始進(jìn)入 Gemini App。在現(xiàn)場(chǎng),他展示了一個(gè)修理自行車的案例:
用戶呼喚出 Gemini,讓她幫忙上網(wǎng)找到 Huffy 山地車的用戶手冊(cè),并根據(jù)指令翻到剎車相關(guān)的特定頁(yè)面;接著從 YouTube 上篩選出修復(fù)滑絲螺絲的教學(xué)視頻,直接播放給你看。更厲害的是,Gemini Live 甚至能翻閱你過(guò)去的郵件,從你和自行車店的聊天記錄里找出那個(gè)讓人頭疼的六角螺母的準(zhǔn)確尺寸,并在墻上工具箱里高亮出對(duì)應(yīng)的型號(hào)。
當(dāng)發(fā)現(xiàn)還需要一個(gè)備用張力螺絲時(shí),Gemini Live 迅速遵照指令,給最近的自行車店打電話問(wèn)有沒(méi)有貨。
演示中還有一個(gè)重要細(xì)節(jié),當(dāng)用戶的一位朋友閃現(xiàn)在門口,喊他去吃午飯時(shí),Gemini 自動(dòng)停止了說(shuō)話,而等對(duì)方離開(kāi)后,在用戶提醒下,繼續(xù)無(wú)縫銜接地匯報(bào)了自行車店的回電內(nèi)容。
(插入修車視頻)
這些技術(shù)的最終趨勢(shì),是讓 Gemini 變得更加主動(dòng)。
在硅星人參加的一個(gè)小型溝通會(huì)上,Hassabis 提到他對(duì) AI 助手必須更加主動(dòng)的看法。
" 如果你看看今天的工具,我會(huì)說(shuō)它們大多是被動(dòng)反應(yīng)式的。也就是說(shuō),你通過(guò)查詢或問(wèn)題來(lái)輸入,然后它做出回應(yīng)。所以是你把所有的信息都投入到系統(tǒng)中。我們希望下一代和我們的 AI 助手能夠做到的是,讓它們具有預(yù)測(cè)性,能夠提前提供幫助。例如,如果你要進(jìn)行長(zhǎng)途飛行,它可能會(huì)為你推薦一本適合在飛機(jī)上閱讀的好書(shū)?;蛘?,如果你有某種健身目標(biāo),它可能會(huì)主動(dòng)提醒你今天要去跑步,或者建議你做一些與你長(zhǎng)期目標(biāo)相關(guān)的事情。所以我們認(rèn)為,當(dāng)這些主動(dòng)型系統(tǒng)和代理系統(tǒng)能夠預(yù)測(cè)你想要做什么時(shí),它們的感覺(jué)會(huì)非常不同。"
Gemini app 當(dāng)天也宣布了大量更新。
包括 Gemini live 功能的全面開(kāi)放,它能更加實(shí)時(shí),而且此前的小范圍測(cè)試數(shù)據(jù)已經(jīng)顯示,人們比用打字會(huì)有 5 倍長(zhǎng)的交互時(shí)間。同時(shí),隨著 Project Astra 變成成熟產(chǎn)品,攝像頭實(shí)時(shí)互動(dòng)和屏幕讀取的能力也在 Gemini 里免費(fèi)開(kāi)放。
Gemini 里的 Deep Research 模式接下來(lái)允許以用戶自己上傳資料,之后更是可以在 Google 全家桶里打通使用你的各種數(shù)據(jù)庫(kù)。此外 Canvas 更新了更強(qiáng)的編程模式,最新的圖像模型 Imagen 4 也接入 Gemini。
而除了 Gemini 自己的 app 上的更多功能,Google 能讓 Hassabis 實(shí)現(xiàn) " 統(tǒng)一的主動(dòng) Agent" 這個(gè)想法,更關(guān)鍵因?yàn)?Google 有它積攢了多年的強(qiáng)大的搜索 + 全家桶。而且,Hassabis 已經(jīng)為自己贏得了用 Gemini 更深入 " 接管 " 這些全家桶的權(quán)力。
" 我們認(rèn)為智能體(agents)是結(jié)合了高級(jí) AI 模型智能和工具訪問(wèn)權(quán)限的系統(tǒng),因此它們可以在您的控制下代表您執(zhí)行操作 。"Pichai 說(shuō)。Google 引入了一種名為 " 教學(xué)與重復(fù) " 的方法,即只需向它展示一次任務(wù),它就能學(xué)習(xí)未來(lái)類似任務(wù)的計(jì)劃 。
"Agent mode 可以同時(shí)完成多達(dá)十種不同的任務(wù)。這些智能體可以幫助您查找信息、進(jìn)行預(yù)訂、購(gòu)買商品、做研究等等——所有這些都可以同時(shí)進(jìn)行。"Hassabis 說(shuō)。" 而且我們還會(huì)把它推廣到更多產(chǎn)品,首先從瀏覽器開(kāi)始。"
當(dāng)天 Google 宣布,Chrome 將接入 Gemini 并擁有類似諸多通用 Agent 產(chǎn)品展示的功能,它能直接在你的瀏覽器頁(yè)面中開(kāi)始工作,幫你自動(dòng)完成你指定的目標(biāo)任務(wù)。
Google 通過(guò) API 提供 Agent Mode 的能力,同時(shí)有它建立的開(kāi)放的 Agent2Agent 協(xié)議,能讓智能體之間相互通信,當(dāng)天 Google 還宣布,它的 Gemini API 和 SDK 將兼容目前最流行的 Agent 與工具之間的協(xié)議 MCP 。
一切都集齊了。那些基于 Google 的 API 做出來(lái)的 AI 瀏覽器、需要不停調(diào)用瀏覽器的通用 Agent 產(chǎn)品們,可能要想想自己如何和 Google 的親兒子 Chrome 這樣的產(chǎn)品競(jìng)爭(zhēng)了。
而 Google 接下來(lái)的計(jì)劃是,它的全家桶都會(huì)在擁有了 Computer use 和 Astra 這樣的 Agent 能力后的 Gemini 加持下,瞬間變成一個(gè)通用 Agent。
在 Google 的理解,Agent 可能根本就不是一個(gè)單獨(dú)產(chǎn)品,而是任何 AI 產(chǎn)品的基礎(chǔ)功能。
Google 在 OpenAI 最初的沖擊中,一度讓人感覺(jué)英雄遲暮,而外界關(guān)注它能否轉(zhuǎn)身成功的關(guān)鍵之一就是它是否能對(duì)自己躺著賺錢的基礎(chǔ)——搜索業(yè)務(wù)動(dòng)刀。
而現(xiàn)在看來(lái),它的動(dòng)作還是很快的。
" 僅僅是一年時(shí)間,人們用搜索的方式已經(jīng)深刻地改變了。"Google 搜索負(fù)責(zé)人 Elizabeth Reid 說(shuō)。" 人們開(kāi)始問(wèn)更長(zhǎng)的問(wèn)題。因此我們把 Gemini 和搜索對(duì)世界信息的理解合并到一起。"
當(dāng)天全美的 Google 用戶會(huì)看到 Google 多年來(lái)又一次大的改變,在首頁(yè)的第一個(gè) tab 的位置,變成了 AI Mode。相比于小規(guī)模試驗(yàn)性質(zhì)的 AI Overview,這是又一個(gè)大的自我革新的動(dòng)作。
AI Mode 的一個(gè)最大變化,其實(shí)是 Gemini 的 AI 能力和 Google 搜索的技術(shù)的更深入的融合,Google 稱在底層技術(shù)上,它使用查詢扇出 ( query fan-out ) 技術(shù),它會(huì)將問(wèn)題分解為子主題,并同時(shí)替用戶自動(dòng)發(fā)出多個(gè)查詢。這使得 AI Mode 能夠比傳統(tǒng)的 Google 搜索更深入地探索網(wǎng)絡(luò),幫助用戶發(fā)現(xiàn)網(wǎng)絡(luò)上更多的內(nèi)容,找到更好的答案。此外,deep search 模式也加入到 AI Mode 的選項(xiàng)里,可以在搜索里也制作深度的報(bào)告。
" 這就是 Google 搜索的未來(lái)。從信息到智能。"Elizabeth Reid 說(shuō)。
Gemini 對(duì)搜索核心業(yè)務(wù)的 " 接管 ",也讓 Google 此前一直想做但有所停滯的一些業(yè)務(wù)可以有新的做法。比如電商。
Google shopping 基本也是建立在搜索入口流量之上的業(yè)務(wù),此前也不溫不火,而此次基于 Gemini 的改造,它有了一個(gè)全新的交互。
在 I/O 現(xiàn)場(chǎng),Shopping 得到了少有的 live demo 機(jī)會(huì)。Google 展示了一個(gè)虛擬試衣(Virtual Try-on)功能。現(xiàn)場(chǎng)掀起了一陣小高潮。
挑中款式和尺碼后,還可以設(shè)置期望價(jià)格,讓 Chrome 的 AI Agent 去盯著價(jià)格,當(dāng)?shù)蛢r(jià)出現(xiàn)后,agent 自動(dòng)下單,把支付界面推送給你由你最后操作支付。
Google 把所有最重要的入口位置都給了 Gemini,當(dāng)然也希望它能激活 Google 已有的各種業(yè)務(wù)。
Flow 和一堆彩蛋
Gemini 系列模型在多模態(tài)上的瘋狂進(jìn)展,最直接惠及的就是創(chuàng)作者。
Google 此次也更新了圖像模型 Imagen 4,和視頻模型 Veo 3。
Imagen 4 作為 Google 最先進(jìn)的文生圖模型,不僅圖像質(zhì)量大幅提升,在文字和排版的準(zhǔn)確性與創(chuàng)意性上也令人驚艷。例如讓它設(shè)計(jì)一張以 Chrome 小恐龍為主角的音樂(lè)節(jié)海報(bào),Imagen 4 不僅準(zhǔn)確無(wú)誤地把文字 " 印 " 了上去,還巧妙地將恐龍骨骼元素融入字體設(shè)計(jì),堪稱神來(lái)之筆。
視頻生成模型 Veo 3 則更進(jìn)一步,懂物理規(guī)律、生成電影級(jí)的視頻畫(huà)面之外,還能同步創(chuàng)作出自然語(yǔ)音對(duì)話和逼真的環(huán)境音效 。在制作一位飽經(jīng)滄桑的男子獨(dú)自在波濤洶涌的大海上航行的視頻時(shí),Veo 3 除了完美渲染海浪動(dòng)態(tài)、人物面部細(xì)微的情感變化,還為他配上了一段富有磁性的內(nèi)心獨(dú)白,意境十足。另一段森林中老貓頭鷹和小獾的對(duì)話視頻,更是活靈活現(xiàn)。
(視頻案例)
這些能力讓 Google 特意單獨(dú)又推出了一個(gè) app —— Flow。它可以讓普通人也能輕松創(chuàng)作出專業(yè)級(jí)視頻 。
它的操作追求盡可能簡(jiǎn)單,用戶可以上傳自己的圖片,或用 Flow 內(nèi)置的 Imagen 模型,通過(guò)文字描述直接生成新元素 。然后像導(dǎo)演一樣只需動(dòng)口,用簡(jiǎn)單的提示詞就能組裝這些生成的圖像片段,詳細(xì)描述鏡頭和攝像機(jī)指令(如推拉搖移)后, Flow 會(huì)像個(gè)經(jīng)驗(yàn)豐富的副導(dǎo)演,迅速搞定一切,并在 " 場(chǎng)景構(gòu)建器 " 中呈現(xiàn),供你隨時(shí)調(diào)整 。用戶也可以通過(guò)點(diǎn)擊 "+" 號(hào),告訴 Flow 新劇情,不停的制作下去。如果某個(gè)鏡頭不盡如人意,F(xiàn)low 也提供了傳統(tǒng)編輯工具,讓你輕松修剪。最后還能導(dǎo)出到主流編輯軟件做更多處理。
(flow 的視頻)
當(dāng)然,這些背后是燃燒的 token。
Google 也在 Flow 的展示后,公布了新的套餐定價(jià)。
它將原本的 AI Premium 訂閱正式更名為 " 谷歌 AI Pro",并推出了全新的高端版 " 谷歌 AI Ultra",月費(fèi)高達(dá) 249.99 美元。Pro 版月費(fèi)仍為 19.99 美元。
Ultra 版,可以看作是谷歌 AI 的 " 全家桶 VIP 套餐 ":除了擁有 Pro 的全部功能外,還提供 30TB 云端存儲(chǔ)、YouTube Premium,以及 Veo 3)、NotebookLM 最強(qiáng)模型版本和 Gemini 的增強(qiáng)體驗(yàn)。同時(shí)用戶還可搶先體驗(yàn) Deep Think 模式、實(shí)驗(yàn)版 Agent Mode,以及基于 Project Mariner 的智能體功能。Ultra 今日起在美國(guó)開(kāi)放訂閱,并將很快拓展至更多國(guó)家。
一個(gè)有意思的一帶而過(guò)的彩蛋,是 Gemini 的 Diffusion 模型,它不是用在圖片上,而是用在文本生成上。這讓它的生成速度快的驚人。在現(xiàn)場(chǎng)的展示上,輸入完成后,它幾乎是瞬間完成了輸出。
" 傳統(tǒng)的自回歸語(yǔ)言模型一次生成一個(gè)詞或者 token。這種序列化的過(guò)程可能會(huì)很慢,并且會(huì)限制輸出的質(zhì)量和連貫性。擴(kuò)散模型的工作方式則不同。它們并非直接預(yù)測(cè)文本,而是通過(guò)逐步優(yōu)化噪聲來(lái)學(xué)習(xí)生成輸出。這意味著它們可以非常快速地對(duì)一個(gè)解決方案進(jìn)行迭代,并在生成過(guò)程中糾正錯(cuò)誤。這使得它們?cè)诰庉嫷热蝿?wù)中表現(xiàn)出色,包括在數(shù)學(xué)和代碼相關(guān)的場(chǎng)景下。" Gemini 團(tuán)隊(duì)介紹。
而除了速度,這種嘗試也在暗示著 Gemini 在模態(tài)融合之外,對(duì)模態(tài)生成和多模態(tài)推理融合的潛在的發(fā)力方向。
你現(xiàn)在可以在網(wǎng)站上加入 waitlist 來(lái)試用這個(gè)模型。