馬斯克憋了快半年,終于把 Grok 4 端上了臺(tái)面。
這一次,他的口氣依舊不小。早在發(fā)布會(huì)前就放出狠話,聲稱 Grok 4 要「重寫人類知識(shí)庫(kù)」。等到了發(fā)布會(huì)上,馬斯克再次強(qiáng)調(diào) Grok 4 是目前世界上最聰明的 AI。
當(dāng)然,馬斯克夸自家產(chǎn)品這事兒,大家早就見(jiàn)怪不怪,但正如網(wǎng)友所調(diào)侃的那樣,你可以嘲笑 xAI 員工在辦公室?guī)づ窭锼X(jué)或者周末工作到凌晨 4:20,但也得承認(rèn),他們的確是當(dāng)下發(fā)展速度最快的 AI 實(shí)驗(yàn)室之一。
至于 Grok 4 能不能配得上「最聰明 AI」的稱號(hào),還得看后續(xù)的實(shí)際體驗(yàn)。不過(guò),有一點(diǎn)是跑不了的——它已經(jīng)成了市面上最貴的 AI,年訂閱價(jià)格最高可達(dá)到 3000 美元,定價(jià)策略可謂是相當(dāng)不講武德。
世界上最聰明的 AI?世界上最貴的 AI!
Grok 的訓(xùn)練路徑分為兩個(gè)核心階段:預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)。從 Grok 2 到 Grok 3,主要依賴預(yù)訓(xùn)練方式;而從 Grok 3 升級(jí)到 Grok 4,則大幅引入了以推理能力為核心的強(qiáng)化學(xué)習(xí)訓(xùn)練。
馬斯克說(shuō)得輕描淡寫,但訓(xùn)練的動(dòng)靜卻不小。
相比 Grok 2,Grok 4 的訓(xùn)練計(jì)算量提升了整整兩個(gè)數(shù)量級(jí),相當(dāng)于增長(zhǎng)了 100 倍——而且還在持續(xù)擴(kuò)張。
他甚至語(yǔ)言,今年底 Grok 可能就能發(fā)明新技術(shù),明年幾乎可以確定將具備發(fā)現(xiàn)新物理規(guī)律的能力。
當(dāng)然,讓 AI 接入現(xiàn)實(shí)世界,才是真正的關(guān)鍵。
他表示,Grok 與人形機(jī)器人 Optimus 的結(jié)合,將形成一個(gè)閉環(huán)推理系統(tǒng)——提出假設(shè)、驗(yàn)證假設(shè)、探索現(xiàn)實(shí)。這將開(kāi)啟一個(gè)智能大爆炸的時(shí)代,是人類歷史上最令人激動(dòng)的節(jié)點(diǎn)。
前者比較好理解,而后者則支持多個(gè)智能體并行思考,在推理過(guò)程中橫向比對(duì)、縱向協(xié)同,調(diào)用更大規(guī)模的計(jì)算資源以完成更復(fù)雜、更精密的任務(wù)。
在現(xiàn)場(chǎng)演示中,Grok 4 Heavy 展示了多個(gè)場(chǎng)景能力。
比方說(shuō),讓 Grok 4 Heavy 去預(yù)測(cè)今年 MLB 世界大賽(World Series)的冠軍概率,它通過(guò)信息檢索、數(shù)據(jù)建模、概率計(jì)算,評(píng)估洛杉磯道奇隊(duì)的奪冠概率為 21.6%,并在 4.5 分鐘內(nèi)完整輸出預(yù)測(cè)過(guò)程。
除了推理和搜索,Grok 還能生成內(nèi)容時(shí)間軸。
比如,根據(jù) X 平臺(tái)上的公開(kāi)發(fā)帖,它能梳理出多個(gè) AI 模型的基準(zhǔn)測(cè)試成績(jī)、廠商更新節(jié)奏以及社區(qū)反應(yīng)。用戶可以一目了然地看到 OpenAI 的分?jǐn)?shù)表現(xiàn)、Gemini 的更新迭代,甚至是模型之間的微妙競(jìng)爭(zhēng)態(tài)勢(shì)。
目前,Grok 最大的短板依然集中在多模態(tài)理解能力,尤其是在圖像理解和生成方面,能力仍有待加強(qiáng)。好消息是,下一階段的基礎(chǔ)模型訓(xùn)練已經(jīng)在路上,預(yù)計(jì)幾周內(nèi)完成。
演示過(guò)程中,在測(cè)試「兩個(gè)黑洞相撞過(guò)程」的可視化任務(wù)時(shí),Grok 采用了簡(jiǎn)化的計(jì)算方式——使用后牛頓近似(Post-Newtonian approximation)替代完整的廣義相對(duì)論框架。
就紙面參數(shù)而言,Grok 4 也交出了亮眼答卷。
Humanity ’ s Last Exam(人類最后的考試,簡(jiǎn)稱:HLE,)覆蓋了數(shù)學(xué)、物理、計(jì)算機(jī)、醫(yī)學(xué)、人文社科等超過(guò) 100 個(gè)學(xué)科,共 2500 道閉卷題,測(cè)試難度極高,能夠真實(shí)反映模型在通用知識(shí)和復(fù)雜推理上的綜合表現(xiàn)。
而在使用工具的情況下,Grok 4 Heavy 的得分達(dá)到 44.4%,遠(yuǎn)高于使用工具后 Gemini 2.5 Pro 的 26.9%。從整體趨勢(shì)來(lái)看,Grok 4 在擴(kuò)展訓(xùn)練資源的同時(shí),通過(guò)引入工具使用和鏈?zhǔn)剿季S,不僅提升了復(fù)雜任務(wù)的處理能力,也逐步縮小了模型智能與通用認(rèn)知之間的差距。
另外,知名分析機(jī)構(gòu) Artificial Analysis 通過(guò)對(duì)多款主流大模型在 7 個(gè)推理相關(guān)基準(zhǔn)(MMLU-Pro、GPQA Diamond、Humanity ’ s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的綜合表現(xiàn)進(jìn)行評(píng)估。
數(shù)據(jù)顯示,Grok 4 位列第一,得分為 73,是目前推理能力綜合得分最高的模型。緊隨其后的則是 o3-pro(估算值)71 分。
馬斯克也強(qiáng)調(diào):
「未來(lái) Grok 將幾乎在所有考試中答對(duì)每一個(gè)問(wèn)題。而當(dāng)它答不出某個(gè)問(wèn)題時(shí),它會(huì)指出題目的錯(cuò)誤之處,或者指出問(wèn)題含糊不清的地方,并給出不同情境下可能的答案。到那時(shí),傳統(tǒng)考試將失去意義。AI 唯一的檢驗(yàn)標(biāo)準(zhǔn)將是現(xiàn)實(shí)世界:它是否能發(fā)明有用的技術(shù),是否能推動(dòng)科學(xué)的突破。所以 HLE 這類測(cè)試題庫(kù)必須盡快更新,因?yàn)橐援?dāng)前的 AI 進(jìn)展速度,它們很快就會(huì)過(guò)時(shí)?!?/p>
截至發(fā)稿前,Grok 4 和 Grok 4 Heavy 目前均已陸續(xù)上線。
除了更強(qiáng)的推理能力,更聰明,Grok 4 這次也在「更像人」這件事上,邁出了一大步。
跟我們熟悉的語(yǔ)音助手不同,xAI 全新語(yǔ)音助手「Eve」不只是能答話,它能表達(dá)情緒、有語(yǔ)調(diào)變化,甚至還能現(xiàn)場(chǎng)「唱歌」。
現(xiàn)場(chǎng)還安排了一段和 ChatGPT Voice 的對(duì)比演示,兩者輪流復(fù)述數(shù)字。ChatGPT 時(shí)不時(shí)「搶答」,有點(diǎn)像沒(méi)聽(tīng)清就硬接話的同學(xué)。而 Grok 的表現(xiàn)更流暢、更貼近人類說(shuō)話習(xí)慣,而且不會(huì)打斷用戶說(shuō)話。
發(fā)布會(huì)上提到,自語(yǔ)音模型上線以來(lái),Grok Voice 的端到端延遲縮短了兩倍,活躍用戶也增長(zhǎng)了 10 倍。Grok Voice 正在迅速發(fā)展。
馬斯克:讓 Grok 去開(kāi)一百萬(wàn)個(gè)自動(dòng)售貨機(jī)賺錢
幾個(gè) Grok 4 API 的應(yīng)用場(chǎng)景讓我印象非常深刻。
比如,在一項(xiàng)自動(dòng)售貨機(jī)商業(yè)模擬 Vending-Bench 中,Grok 被要求自主完成:供應(yīng)商協(xié)商、庫(kù)存管理、定價(jià)策略,連續(xù)完成并長(zhǎng)期保持盈利。
測(cè)試結(jié)果顯示,Grok 4 不僅登頂排行榜,而且它所獲得的凈資產(chǎn)是其他模型的兩倍。連馬斯克都開(kāi)始調(diào)侃說(shuō):「以后買顯卡的錢,可以讓 Grok 去部署運(yùn)營(yíng)一百萬(wàn)個(gè)自動(dòng)售賣機(jī)賺回來(lái)」。
Grok 4 不是終點(diǎn)。發(fā)布會(huì)最后預(yù)告了接下來(lái)的路線圖,每一項(xiàng)都非常值得期待。
多模態(tài)能力:Grok 4 在圖像理解上表現(xiàn)依舊是有限,團(tuán)隊(duì)也說(shuō)正在以更大規(guī)模訓(xùn)練下一個(gè)版本,預(yù)計(jì)會(huì)在圖像、視頻和音頻理解上迎來(lái)質(zhì)變,到時(shí) Grok 將能「像人類一樣看世界」。
視頻生成:xAI 說(shuō)將使用大規(guī)模的算力資源,進(jìn)行視頻生成模型的訓(xùn)練。他們的最終目標(biāo)是做到圖生視頻,生成可交互的「無(wú)盡視頻流」,讓用戶能邊看邊參與劇情走向。
可能有不少朋友已經(jīng)發(fā)現(xiàn),這次發(fā)布會(huì)還有兩個(gè)熟悉的華人面孔。他們正是 xAI 的聯(lián)合創(chuàng)始人——吉米 · 巴(Jimmy Ba)和吳宇懷(Yuhuai Wu)。
其中,吳宇懷(Yuhuai Wu)本科以滿績(jī)點(diǎn)畢業(yè)于加拿大紐布倫斯威克大學(xué),并在 2021 年獲得多倫多大學(xué)機(jī)器學(xué)習(xí)博士學(xué)位,期間曾師從「深度學(xué)習(xí)之父」杰弗里 · 辛頓。
博士階段,他還曾在 Google DeepMind 和 OpenAI 實(shí)習(xí),畢業(yè)后在 Google 任職,并在斯坦福大學(xué)從事博士后研究。
吳宇懷的研究重點(diǎn)是打造具備強(qiáng)推理能力的人工智能系統(tǒng),先后主導(dǎo)或參與了自訓(xùn)練推理模型 STAR、語(yǔ)言模型 Minerva 以及定理證明器 Alpha Geometry 等項(xiàng)目,并在《Nature》等頂刊上發(fā)表論文,推動(dòng) AI 在數(shù)學(xué)推理領(lǐng)域?qū)崿F(xiàn)突破。
坐在他身旁的吉米 · 巴(Jimmy Ba)則是多倫多大學(xué)計(jì)算機(jī)科學(xué)系的助理教授,也是吳宇懷博士時(shí)期的導(dǎo)師之一。
他同樣出身于辛頓門下,是深度學(xué)習(xí)訓(xùn)練優(yōu)化領(lǐng)域的關(guān)鍵人物。
最為人熟知的,是他與合作者共同提出了 Adam Optimizer(自適應(yīng)矩估計(jì)優(yōu)化器)——如今幾乎成為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的默認(rèn)算法。可以說(shuō),他的博士論文為現(xiàn)代 AI 訓(xùn)練機(jī)制奠定了堅(jiān)實(shí)理論基礎(chǔ)。
不得不說(shuō),Gork 4 的到來(lái)適逢其時(shí)。
前代 Grok 3 的熱度來(lái)得猛,退得也快。
根據(jù)知名市場(chǎng)分析機(jī)構(gòu) SimilarWeb 發(fā)布的截至 5 月 9 日的《2025 年全球生成式 AI 行業(yè)趨勢(shì)報(bào)告》,Grok 從三月流量暴漲超 100 萬(wàn)倍,到五月增幅跌回 5200%。
相比前代倉(cāng)促上線、草草交卷的節(jié)奏,這次的 Grok 4 明顯放慢了腳步,在產(chǎn)品打磨上也更下功夫。歸根結(jié)底,馬斯克的光環(huán)可以幫 Grok 帶來(lái)第一波流量,但能不能留下用戶,還得靠模型本身的硬實(shí)力。
只不過(guò),我沒(méi)記錯(cuò)的話,馬斯克當(dāng)初在 Grok 3 發(fā)布時(shí),還信誓旦旦說(shuō)要把 Grok 2 開(kāi)源。眼看五個(gè)月過(guò)去了,這事兒卻毫無(wú)動(dòng)靜,這次發(fā)布會(huì)上也沒(méi)再提半句。
老馬啊,可不能寬于律己,嚴(yán)以待人呀。
作者:張子豪、莫崇宇