The following article is from 差評(píng)前沿部 Author 世超
今天凌晨,一年一度的 Google I/O 大會(huì)在加州山景城盛大開幕了。谷歌憋了好幾周的大招,終于舍得一口氣放出來,直接來了一波信息轟炸。
差評(píng)也派出前線小記者,世超不僅看了大會(huì),還近距離接觸了一把谷歌 CEO Sundar Pichai。
首先迎面向我們走來的是語言模型大軍。
作為谷歌的頭牌之一,自三月發(fā)布以來,Gemini 2.5 Pro 的表現(xiàn)一直表現(xiàn)非常出色,在 WebDev Arena 和 LMArena 排行榜處于全球領(lǐng)先的地位。
雖然具體的技術(shù)細(xì)節(jié)沒有公布,但從他們放出的這張圖可以看出,能深度思考的 Gemini 2.5 Pro 在數(shù)學(xué)、編程、多模態(tài)推理方面的效果都十分驚人,甚至在數(shù)學(xué)上碾壓了 OpenAI 的 o3。
他們通過更新 Live API 推出了原生音頻輸出功能,不僅能夠輸出人味十足的聲音,還能捕捉對(duì)話的情緒,自動(dòng)調(diào)整語氣。
在 Gemini 的加持下,Live AI 不僅說話的聲音像人,說話的內(nèi)容、方式也像人。
具體效果大家可以看下面的視頻:
不知道各位差友感覺如何,世超聽到第十秒的惡魔低語,雞皮疙瘩都起來了。
除此之外,谷歌還優(yōu)化了側(cè)重效率的主力模型 Gemini 2.5 Flash,推出了 AI agent —— Project Mariner。
值得注意的是,除了常規(guī)的模型更新,他們還推出了 Gemini Diffusion,不使用 Transformer 架構(gòu),表現(xiàn)可以和 Gemini 2.0 Flash-Lite 相當(dāng),但速度是它的五倍。
這次谷歌用擴(kuò)散模型對(duì)大模型的底層架構(gòu)發(fā)起挑戰(zhàn),如果未來 Gemini Diffusion 在表現(xiàn)上還有上升的空間,這可能是一次顛覆性的革新。
大模型說完,再看看多模態(tài)生成這邊,花樣就更多了。
Imagen 4、Veo 3、Lyria 2 接連推出,圖片、視頻、音頻生成,谷歌全都要。
視頻方面,Veo 3 不僅在 Veo 2 的基礎(chǔ)上質(zhì)量升級(jí),還是首款帶音頻的視頻模型,不僅自帶對(duì)話,如果需要,也可以來點(diǎn)背景音樂。
結(jié)合生成的提示詞來看官方的案例,Veo 3 對(duì)場(chǎng)景氛圍、對(duì)話語氣和人物動(dòng)作表情的理解都很出色,生成的視頻非常自然。
不得不說,Lyria 2 生成的這段秘魯風(fēng)格的舞曲,鼓點(diǎn)、電吉他、貝斯相輔相成,節(jié)奏明快,旋律流暢,絲毫沒有 AI 痕跡。
目前,Imagen 4 和 Lyria 2 已經(jīng)在谷歌的 Vertex AI 平臺(tái)上線,Veo 3 可以加入 waitlist,感興趣的差友可以去體驗(yàn)一下。
如果說咱上面看過的都屬于零部件,而下面要說的,是谷歌怎么把這些零件組合起來,融入產(chǎn)品,把 AI 產(chǎn)品賦能體現(xiàn)得淋漓盡致。
首當(dāng)其沖的,就是谷歌在搜索業(yè)務(wù)上推出的 AI mode。
自 2022 年 ChatGPT 問世,大模型對(duì)谷歌的核心搜索業(yè)務(wù)來了一輪狂風(fēng)巨浪的沖擊。
打不過就加入,谷歌這回直接把 Gemini 嵌進(jìn)傳統(tǒng)搜索,利用大模型的多模態(tài)和推理能力,把用戶想要的整理好,直接喂到嘴里。
谷歌表示,加入了 AI 概覽以后,用戶對(duì)搜索的內(nèi)容滿意度更高,使用頻率上升了 10%,這是十年來搜索領(lǐng)域最成功的探索之一。
看來傳統(tǒng)搜索加點(diǎn) AI,還是能挽回用戶的心的。
除了搜索,谷歌還把多模態(tài)生成技術(shù)揉一揉,用 Veo + Imagen + Gemini 搓出了一個(gè)電影制作工具 Flow。
從官方案例來看,F(xiàn)low 的畫面表現(xiàn)力確實(shí)很優(yōu)秀。難道失業(yè)的風(fēng)也要吹到導(dǎo)演了嗎。。。
不止軟件更新,摸得著的數(shù)碼電子產(chǎn)品也是有的。
谷歌把老項(xiàng)目裸眼 3D Starline 全面升級(jí)為 Google Beam,使用六個(gè)攝像頭從不同角度捕捉畫面,再利用 AI 算法把視頻流整合,投射在 3D 顯示屏中。
這項(xiàng)新功能可以讓不同國(guó)家的人使用母語通話,即使對(duì)方聽不懂你在說啥,他們也能聽到實(shí)時(shí)生成的翻譯。
還有一個(gè)意想不到的產(chǎn)品在這次大會(huì)穢土轉(zhuǎn)生了,那就是谷歌 2023 年已經(jīng)宣判死刑的 Google Glass。
這回谷歌終于放棄之前那套自己搞硬件的想法,而是只干自己擅長(zhǎng)的活兒 —— 系統(tǒng),然后跟咱們國(guó)內(nèi)的 Xreal 合作,推出了基于 Android XR 平臺(tái)的最新眼鏡產(chǎn)品:Project Aura。
Project Aura 支持 AI 的實(shí)時(shí)翻譯,還能進(jìn)行發(fā)短信操作,識(shí)別攝像頭看到的東西做搜索和問答,并且具備記憶能力。
有了谷歌的入場(chǎng),接下來的智能眼鏡領(lǐng)域應(yīng)該會(huì)有好戲看了。
盤了這么多,其實(shí)這次 Google I/O 的內(nèi)容還遠(yuǎn)遠(yuǎn)沒有說完,他們還是太全面了。
除了上面已經(jīng)提到的,還有編程智能體 Jules、 和 Shopping Graph 結(jié)合的一鍵 AI 試衣、Firebase 升級(jí)、SynthID 數(shù)字水印、可以在手機(jī)上跑的大模型 Gemma 3n、辦公可用的 NotebookLM 等等等等。
背靠?jī)?yōu)秀的人才和龐大的資金,谷歌什么都要做,還要做得好。
他們?cè)缇蛿[脫了當(dāng)年被大模型降維打擊的被動(dòng)局面,轉(zhuǎn)守為攻,可以從容地等待別人去探索市場(chǎng)、試錯(cuò),時(shí)機(jī)成熟后再快速入場(chǎng),找到自己的節(jié)奏。
AI 競(jìng)賽還在如火如荼地進(jìn)行,而這次大會(huì),秀的可能不只是當(dāng)下的技術(shù)。想要保住龍頭的地位,更重要的 , 還有谷歌 AI 領(lǐng)域的廣闊布局和長(zhǎng)遠(yuǎn)思考。
撰文:莫莫莫甜甜