精品亚洲综合在线第一区,中文字幕国产一区,国产一区二区中文字幕

7月10日，馬斯克旗下的xAI公司發(fā)布了全新AGI模型——"Grok 4"和多智能體版本 "Grok 4 Heavy"，這一新版本不僅提升了推理速度，還在多任務(wù)處理、邏輯推理與文本生成等方面展現(xiàn)出超常能力。

此次發(fā)布標(biāo)志著X AI在計(jì)算能力和模型架構(gòu)上的重大突破。借助Colossus超級(jí)計(jì)算機(jī)和數(shù)十萬NVIDIA H100 GPU，Grok 4在推理速度、響應(yīng)能力和多模態(tài)功能上實(shí)現(xiàn)了飛躍，刷新了多個(gè)學(xué)術(shù)基準(zhǔn)測(cè)試的記錄。馬斯克在現(xiàn)場(chǎng)表示，這一進(jìn)展將開啟AI歷史上最具革命性的"智能大爆炸時(shí)代"。

發(fā)布會(huì)全文內(nèi)容如下：

歡迎來到Grok 4 的發(fā)布現(xiàn)場(chǎng)，這是世界上最先進(jìn)的AI，我們將為你詳細(xì)展示其中的原理與緣由。看到AI的飛速發(fā)展，真的令人驚嘆，它的進(jìn)化速度實(shí)在太快了。我常將它與人類的成長(zhǎng)做比較，對(duì)比人類學(xué)習(xí)、獲得意識(shí)和理解的速度，AI的進(jìn)步速度遠(yuǎn)超人類。我們將帶你了解一系列基準(zhǔn)測(cè)試，Grok 4 能夠在各類測(cè)試中取得驚人成績(jī)。

值得一提的是，如果讓Grok 4 參加 SAT 考試，每次都能拿到滿分，即便它之前從未見過這些考題。再進(jìn)一步說，像 GRE 這類研究生考試，它在各個(gè)學(xué)科領(lǐng)域都能取得近乎滿分的成績(jī)。從人文科學(xué)到語(yǔ)言、數(shù)學(xué)、物理、工程學(xué)，隨便哪一門學(xué)科。而且我們說的是它從未見過的題目，這些題目也不在互聯(lián)網(wǎng)上。

Grok 4 的智能水平幾乎超越了所有學(xué)科的研究生，真正重要的是要認(rèn)識(shí)到這確實(shí)非同尋常。Grok的推理能力簡(jiǎn)直令人難以置信，有些人認(rèn)為AI無法推理，但實(shí)際上它能達(dá)到超人類的推理水平，坦率地說，它只會(huì)變得越來越好。接下來我們將詳細(xì)介紹Grok 4 的進(jìn)展速度。

第一部分是關(guān)于訓(xùn)練方面，從Grok 2 到Grok 3 再到Grok 4，每次訓(xùn)練量都提升了一個(gè)數(shù)量級(jí)。所以Grok 4 的訓(xùn)練量是Grok 2 的 100 倍，而且這種增長(zhǎng)未來還會(huì)加劇。坦率地說，從某種程度上講有點(diǎn)可怕，但它的智能增長(zhǎng)著實(shí)驚人。

需要認(rèn)識(shí)到訓(xùn)練算力分為兩類。一種是預(yù)訓(xùn)練計(jì)算，從Grok 2 到Grok 3 是這種方式，但從Grok 3 到Grok 4，我們?cè)谕评矸矫嫱度肓舜罅克懔Α?/p>

按照現(xiàn)在的標(biāo)準(zhǔn)來看，Grok 2 就像高中生水平，回顧過去 12 個(gè)月，12 個(gè)月前Grok 2 還只是個(gè)概念。我們第一次進(jìn)行預(yù)訓(xùn)練擴(kuò)展就是訓(xùn)練Grok 2 的時(shí)候，我們意識(shí)到如果認(rèn)真做好數(shù)據(jù)消融、極為謹(jǐn)慎地處理數(shù)據(jù)、基礎(chǔ)設(shè)施以及算法等方面的工作，預(yù)訓(xùn)練規(guī)模可以提升 10 倍，從而打造出最好的預(yù)訓(xùn)練基礎(chǔ)模型。

正因如此，我們打造了Colossus超級(jí)計(jì)算系統(tǒng)，擁有十萬塊H100 的全球超級(jí)計(jì)算機(jī)，于是在擁有最佳預(yù)訓(xùn)練模型的基礎(chǔ)上，我們意識(shí)到如果能收集可驗(yàn)證的結(jié)果獎(jiǎng)勵(lì)，就能訓(xùn)練這個(gè)模型，從第一性原理出發(fā)思考、進(jìn)行推理并糾正自身錯(cuò)誤，這就是Grok 3推理能力的來源。

如今我們提出一個(gè)問題，如果把擁有 20 萬個(gè) GPU 的Colossus超級(jí)計(jì)算系統(tǒng)全部投入強(qiáng)化學(xué)習(xí)，其計(jì)算量是其他模型在強(qiáng)化學(xué)習(xí)上的 10 倍，會(huì)發(fā)生什么？這就是Grok 4 的故事。

我們來談?wù)凣rok 4有多智能。這個(gè)基準(zhǔn)測(cè)試名為"人文終極考試"，而這個(gè)基準(zhǔn)測(cè)試非常有挑戰(zhàn)性，每一道題都是由專業(yè)領(lǐng)域的專家精心編選，總共 2500 道題，涵蓋多個(gè)學(xué)科，包括數(shù)學(xué)、自然科學(xué)、工程學(xué)以及人文科學(xué)。實(shí)際上，今年早些時(shí)候這個(gè)測(cè)試剛發(fā)布時(shí)，市面上大多數(shù)模型在這個(gè)測(cè)試中的準(zhǔn)確率只能達(dá)到個(gè)位數(shù)。

我們來看幾個(gè)例子，有一道關(guān)于范疇論中自然變換的數(shù)學(xué)題，還有一道關(guān)于電環(huán)化反應(yīng)的有機(jī)化學(xué)題，以及一道要求從希伯來語(yǔ)原文中區(qū)分閉音節(jié)和開音節(jié)的語(yǔ)言學(xué)題。可以看到，題目涉及的范圍非常廣，每一道題都是博士甚至高級(jí)研究水平的題目。

實(shí)際上，沒有人類能在這些題目上取得好成績(jī)。如果問任何一個(gè)普通人，人類能取得的最好成績(jī)是多少，樂觀估計(jì)可能也就 5%，所以這個(gè)測(cè)試比人類能完成的任務(wù)困難得多。從這些題目類型可以看出，你可能在語(yǔ)言學(xué)、數(shù)學(xué)、化學(xué)、物理學(xué)或者其他任何一門學(xué)科上很厲害，但不可能在所有學(xué)科都達(dá)到研究生水平。

而Grok 4 在所有學(xué)科上都達(dá)到了研究生水平，比大多數(shù)博士都要強(qiáng)，很多博士都會(huì)在這些題目上失敗，至少在學(xué)術(shù)問題上是這樣，當(dāng)然，這并不意味著它在任何時(shí)候都有常識(shí)，也不意味著它已經(jīng)發(fā)明了新技術(shù)或發(fā)現(xiàn)了新的物理學(xué)理論，不過這只是時(shí)間問題。我認(rèn)為它可能在今年晚些時(shí)候就會(huì)發(fā)明有用的新技術(shù)，也有可能在今年年底。

接著聊聊Grok 4 背后的技術(shù)細(xì)節(jié)。實(shí)際上我們?cè)谟?xùn)練中投入了大量算力，一開始計(jì)算量只有個(gè)位數(shù)，但隨著投入的訓(xùn)練算力越來越多，它開始逐漸變得越來越聰明，最終解決了四分之一的HLA問題，而且這還是在沒有使用任何工具輔助的情況下。

接下來我們?yōu)槟Ｐ吞砑恿斯ぞ呤褂媚芰ΑＮ艺J(rèn)為Grok 3 實(shí)際上也能使用CRO，但在本研究中，從某種意義上，我們實(shí)際讓他變得更加原生自然，我們將工具融入訓(xùn)練過程。Grok 3 只是依賴泛化能力，而這里我們將工具直接用于訓(xùn)練，結(jié)果表明這顯著提升了模型使用這些工具的能力。

所有DeepSearch其實(shí)就是Grok 3 的推理模型，但沒有經(jīng)過任何針對(duì)性訓(xùn)練。我們只是要求它使用那些工具。相比之下，它在工具使用能力方面要弱得多，而且不可靠。

需要說明的是，如果和特斯拉或SpaceX所使用的工具相比，目前這些工具的使用還相當(dāng)初級(jí)。在特斯拉或SpaceX，他們會(huì)使用有限元分析和計(jì)算流體動(dòng)力學(xué)，還能進(jìn)行碰撞模擬測(cè)試，這些模擬與現(xiàn)實(shí)情況極其接近，以至于如果測(cè)試結(jié)果與模擬結(jié)果不符，人們會(huì)認(rèn)為測(cè)試對(duì)象有問題，模擬的精確程度就是如此之高。目前Grok還沒有使用公司會(huì)用到的那些真正強(qiáng)大的工具，但我們會(huì)在今年晚些時(shí)候?yàn)樗峁┻@些工具，讓它擁有公司級(jí)的工具和非常精確的物理模擬器。

最終，能帶來最大改變的是讓它通過人形機(jī)器人與現(xiàn)實(shí)世界進(jìn)行交互。將Grok和Optimus結(jié)合起來，就能真正與現(xiàn)實(shí)世界互動(dòng)，還能提出假設(shè)，并驗(yàn)證假設(shè)是否正確。

我們正處于一場(chǎng)巨大的智能爆炸的開端，現(xiàn)在就像是智能領(lǐng)域的大爆炸時(shí)刻，這是人類歷史上最有趣的時(shí)代，我們必須要確保這個(gè)AI是個(gè)好的AI，一個(gè)優(yōu)秀的Grok。我認(rèn)為對(duì)于AI安全而言，最重要的是讓它最大限度地追求真理。這是一個(gè)非常基本的原則，可以把AI看作一個(gè)超級(jí)天才兒童，它最終會(huì)比你更聰明，但你仍然可以給它植入正確的價(jià)值觀，鼓勵(lì)它追求真理。就像你希望給一個(gè)最終會(huì)變得極其強(qiáng)大的孩子灌輸?shù)哪切﹥r(jià)值觀，比如正直誠(chéng)實(shí)之類的。

我們現(xiàn)在所說的工具仍然很初級(jí)，不是成熟商業(yè)公司會(huì)用的那種工具。但我們會(huì)給它配備那些工具，我認(rèn)為有了這些工具，它就能解決現(xiàn)實(shí)世界中的技術(shù)問題。

實(shí)現(xiàn)這些需要算力，還要有合適的工具，最終要能與物理世界進(jìn)行交互，我們就能擁有一個(gè)真正的經(jīng)濟(jì)體，最終形成一個(gè)規(guī)模上千倍的經(jīng)濟(jì)體。若把文明發(fā)展程度看作是在卡爾達(dá)肖夫等級(jí)上的完成度，卡爾達(dá)肖夫一級(jí)是利用行星的全部能源輸出，二級(jí)是利用恒星的全部能源輸出，三級(jí)是利用整個(gè)星系的全部能源輸出。在我看來，我們現(xiàn)在可能才達(dá)到卡爾達(dá)肖夫一級(jí)的1%左右，遠(yuǎn)不到10%，接下來會(huì)朝著80%、90%的卡爾達(dá)消夫一級(jí)邁進(jìn)，前提是文明不會(huì)自我毀滅。

就像人類經(jīng)濟(jì)的真實(shí)概念，假設(shè)文明持續(xù)進(jìn)步，回顧起來我們現(xiàn)在的狀態(tài)會(huì)顯得很原始。和未來的情況相比，我們現(xiàn)在的智能水平就像是原始人往火里扔樹枝一樣。這非常令人振奮，有時(shí)也為此擔(dān)憂。創(chuàng)造出遠(yuǎn)超我們自身的智能，這多少有點(diǎn)讓人不安。這對(duì)人類來說是福是禍，但就算結(jié)果不好，我至少也想活著見證它發(fā)生。

我們?nèi)孕杞鉀Q的一個(gè)技術(shù)問題，除了算力之外，我們?cè)撊绾瓮黄茢?shù)據(jù)瓶頸。因?yàn)楫?dāng)我們?cè)噲D擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模時(shí)，我們確實(shí)發(fā)明了很多新技術(shù)、新方法，讓我們能夠解決許多具有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問題。問題本身不僅要具有挑戰(zhàn)性，還需要有可靠的信號(hào)來告知模型它做對(duì)了還是做錯(cuò)了，就是強(qiáng)化學(xué)習(xí)的原理。隨著模型越來越智能，有趣或有挑戰(zhàn)性的問題數(shù)量會(huì)越來越少。所以，除了計(jì)算能力，這將是我們需要克服的一種新型挑戰(zhàn)。

實(shí)際上我們能用來測(cè)試的問題都快用完了，甚至出現(xiàn)了荒謬至極的難題，對(duì)人類來說幾乎不可能解答的書面問題正在被輕易解決，但對(duì)AI來說很快就變得微不足道了。現(xiàn)實(shí)才是檢驗(yàn)一切的絕佳標(biāo)準(zhǔn)，因?yàn)槿绻锢硪?guī)律是法則，那么其他一切都只是建議，你無法違背物理規(guī)律，因此最終的推理測(cè)試就是現(xiàn)實(shí)。

比如你發(fā)明了一項(xiàng)新技術(shù)，改進(jìn)了汽車或火箭的設(shè)計(jì)，或者研發(fā)出一種新藥物，它管用嗎，火箭能進(jìn)入軌道嗎，汽車能行駛嗎，藥物有療效嗎，不管情況如何，現(xiàn)實(shí)才是最終的評(píng)判者，圍繞現(xiàn)實(shí)形成閉環(huán)。

我們提出了這個(gè)問題，該如何更進(jìn)一步？實(shí)際上，我們現(xiàn)在在思考，單智能體系統(tǒng)能夠解決40%的問題。如果我們同時(shí)運(yùn)行多個(gè)智能體會(huì)怎樣，這就是所謂的測(cè)試與計(jì)算。當(dāng)我們擴(kuò)大測(cè)試和計(jì)算的規(guī)模時(shí)，實(shí)際上我們能夠解決超過50%的基于文本的HRE問題子集。

這極其困難，所謂的"人類最后考試"中大部分基于文本的問題，Grok 4 都能解答，Grok 4 重型版本的工作方式是并行生成多個(gè)智能體。所有這些智能體獨(dú)立工作，然后比較它們的成果，就像一個(gè)學(xué)習(xí)小組一樣做決策。這并不像簡(jiǎn)單的多數(shù)表決那么簡(jiǎn)單，因?yàn)橥ǔＶ挥幸粋€(gè)智能體能夠找到訣竅或解決方案。

但是一旦它發(fā)現(xiàn)了解決問題的訣竅或本質(zhì)，就會(huì)與其他智能體分享這個(gè)解決方案，然后它們會(huì)互相交流，本質(zhì)上就是互相核對(duì)筆記，最后得出一個(gè)答案。所以Grok 4的核心部分就是將測(cè)試時(shí)的計(jì)算能力提高大約一個(gè)數(shù)量級(jí)，讓多個(gè)智能體處理任務(wù)，然后它們比較成果并提出它們認(rèn)為最好的結(jié)果。

接下來我們將介紹Grok 4和Grok 4 重型版本，Grok 4基本上就是單智能體版本，Grok 4 重型版是多智能體版本。讓我們看看它們?cè)谶@些考試問題以及一些現(xiàn)實(shí)問題上的表現(xiàn)如何。

我們接下來要分析一個(gè)高階邏輯推理（HLE）題目，這其實(shí)是一道相對(duì)簡(jiǎn)單的數(shù)學(xué)題。我不太懂這道題，但我可以在這里啟動(dòng)求解程序，看看它是如何處理并思考這個(gè)問題的。在這個(gè)過程中，我也想再多展示一些這個(gè)模型的能力，同時(shí)啟動(dòng)Grok 4 重型版本。

大家都知道Polymarket，它非常有趣，它是真理的探尋者，大多數(shù)時(shí)候與現(xiàn)實(shí)情況相符。對(duì)于Grok，我們實(shí)際追求的是能預(yù)見，我們?nèi)绾螄L試?yán)眠@些市場(chǎng)并觀察，倘若我們也能預(yù)測(cè)未來，所以在程序運(yùn)行的時(shí)候，我們將看看Grok 4 重型版本如何預(yù)測(cè)美國(guó)職業(yè)棒球大聯(lián)盟當(dāng)前各球隊(duì)在世界大賽中的獲勝概率。

我認(rèn)為Grok 4 最酷的一點(diǎn)是它能夠理解世界，并利用工具解決難題。我覺得有個(gè)很酷的例子，我們讓它生成兩個(gè)黑洞碰撞的可視化圖像，當(dāng)然這里存在一些自由發(fā)揮的空間，就我而言，其思維軌跡其實(shí)相當(dāng)清晰，關(guān)于這些自由發(fā)揮的尺度問題，例如，為了讓圖像可見，它需要極大地夸大引力波的規(guī)模，這就是它實(shí)際呈現(xiàn)的效果。

這里存在某種慣性作用，它在多個(gè)方面放大了規(guī)模，在距離上的衰減也沒那么明顯，但我們可以看到基本的效果是正確的。螺旋合并由此開始，隨后進(jìn)入環(huán)形衰減階段，大體基本上是正確的。雖然做了一些簡(jiǎn)化，但它對(duì)此表現(xiàn)得很清楚，它使用的是后牛頓近似法，而非真正計(jì)算黑洞中心附近的廣義相對(duì)論效應(yīng)，這是不準(zhǔn)確的，會(huì)導(dǎo)致一些結(jié)果偏差，但整體的可視化效果基本已經(jīng)呈現(xiàn)。

你還能看到它參考的各類資源，顯然它使用了搜索功能，從很多鏈接中收集結(jié)果，還研讀了關(guān)于解析引力波模型的本科教材，在分析性引力波模型中，它對(duì)實(shí)際模擬中應(yīng)使用的常量進(jìn)行了大量推理，參考了現(xiàn)有的現(xiàn)實(shí)世界數(shù)據(jù)。但實(shí)際上，我們可以采用物理學(xué)家使用的相同模型，這樣它就能進(jìn)行與頂尖物理學(xué)研究人員相同水平的計(jì)算，為你提供符合物理實(shí)際的黑洞模擬。

快速切回來，我們可以看到數(shù)學(xué)問題已經(jīng)解答完了。這個(gè)模型查看他在此處的思考軌跡，你就能知道它是如何解決問題的。我其實(shí)不太懂那些數(shù)學(xué)內(nèi)容，但我提前看過答案了，它最后得出的答案是正確的。

在最后這部分，還可以來看一下我們對(duì)世界大賽的預(yù)測(cè)。我們實(shí)際上可以試試我們做過的一些X集成功能。我們投入很大精力來整合所有的X工具，打造出了很棒的使用體驗(yàn)。我們可以問模型，找出X AI員工里個(gè)人資料照片最奇怪的那個(gè)，接著它開始執(zhí)行。我們還可以試試，根據(jù)X平臺(tái)的帖子創(chuàng)建一個(gè)時(shí)間線，詳細(xì)展示分?jǐn)?shù)隨時(shí)間的變化情況，能看到當(dāng)時(shí)發(fā)生的所有討論，這樣我們就能知道是誰在公布分?jǐn)?shù)，以及當(dāng)時(shí)人們的反應(yīng)。

回看X平臺(tái)照片的需求，搜索出了格雷格·楊，他賬號(hào)上有他最喜歡的一張照片，其實(shí)和他本人長(zhǎng)得不太一樣，但還挺有意思的。但關(guān)鍵是它得理解這個(gè)問題，這才是神奇的地方，就好像它知道什么樣的照片算奇怪，它得搜遍所有團(tuán)隊(duì)成員，搞清楚我們都是誰，然后進(jìn)行搜索。實(shí)際上它沒有訪問XAI內(nèi)部人員信息，只是在互聯(lián)網(wǎng)上搜，所以你可以說找出任何一家公司里照片最奇怪的人。

在它完成搜索的過程中，我們可以看看剛才設(shè)置的一個(gè)問題，我們能看到它找到了丹·亨德里克斯最初公布消息的日期，繼續(xù)查看，能看到OpenAI早在2月份就公布了他們的分?jǐn)?shù)，隨著Gemini模型的進(jìn)展，我們能看到相關(guān)情況，比如金米的情況，甚至還能看到人們所說的泄露的基準(zhǔn)測(cè)試數(shù)據(jù)，如果數(shù)據(jù)屬實(shí)，那會(huì)相當(dāng)驚人。我很期待看到大家如何使用這些工具，并從中獲得最大價(jià)值。

實(shí)際上我們也對(duì)多模型子集進(jìn)行了評(píng)估。在整個(gè)數(shù)據(jù)集上，這是HRE考試的得分情況。你可以看到分?jǐn)?shù)有略有下降。這其實(shí)是我們持續(xù)改進(jìn)的地方，即多模型理解能力。但我相信在很短的時(shí)間內(nèi)，我們能夠取得顯著的改進(jìn)，在這個(gè)基準(zhǔn)測(cè)試中獲得更高的分?jǐn)?shù)，甚至遠(yuǎn)遠(yuǎn)高于當(dāng)前水平。

目前Grok最大的弱點(diǎn)是它有一定局限性，它的圖像理解能力以及圖像生成能力都有待大幅提升，目前正在進(jìn)行相關(guān)訓(xùn)練。Grok 4基于我們基礎(chǔ)模型的第6版，我們正在訓(xùn)練第7版，這將解決其在視覺方面的弱點(diǎn)。

除了HRE考試，我們還可以看看其他的基準(zhǔn)測(cè)試。結(jié)果表明，Grok4在人們通常測(cè)試的所有推理基準(zhǔn)測(cè)試中都表現(xiàn)出色，包括通用基準(zhǔn)問答（GBQA），這是一套博士水平的問題集，比HRE考試相對(duì)簡(jiǎn)單一些。

還有美國(guó)數(shù)學(xué)邀請(qǐng)賽（AIME），在一些編碼基準(zhǔn)測(cè)試上也是如此，還有哈佛 - 麻省理工學(xué)院數(shù)學(xué)競(jìng)賽（HMMT）和美國(guó)數(shù)學(xué)奧林匹克（USMO）等考試中，事實(shí)上，Grok 4 在所有這些基準(zhǔn)測(cè)試中通常都有很大的優(yōu)勢(shì)。

我們很快就能達(dá)到這樣的水平：它在每場(chǎng)考試中都能答對(duì)所有問題。如果遇到無法回答的問題，它會(huì)指出問題哪里有問題，或者如果問題含糊不清，它會(huì)將問題進(jìn)行澄清，給出A、B、C等不同答案，并告訴你在澄清后的問題下，A、B、C答案分別是什么。到那時(shí)，唯一真正的檢驗(yàn)標(biāo)準(zhǔn)將是現(xiàn)實(shí)應(yīng)用。它能否創(chuàng)造出有用的技術(shù)，發(fā)現(xiàn)新的科學(xué)知識(shí)，這將是唯一剩下的檢驗(yàn)，因?yàn)槿祟惖目荚噷⒆兊煤翢o意義。

鑒于目前的進(jìn)展速度，我們很快就得更新HRE考試的內(nèi)容了，看到多個(gè)智能體相互協(xié)作解決極具挑戰(zhàn)性的問題，真的超級(jí)酷。

我們即將推出Grok 重型版本，你可以同時(shí)使用Grok4和Grok 4重型版，在這里你將真正成為任務(wù)的主導(dǎo)者，一群小型Grok研究助手助你全方位變得更智慧，還能為你節(jié)省數(shù)小時(shí)的時(shí)間，處理繁瑣任務(wù)。

我們?cè)谘菔酒陂g限制了使用量，以防破壞演示效果，因?yàn)樗羞@些都是實(shí)時(shí)進(jìn)行的。所以我們做的任何測(cè)試都不是預(yù)先錄制好的，演示結(jié)束后，我們會(huì)為Grok 重型版本開發(fā)更多訂閱名額。

現(xiàn)在咱們來聊聊語(yǔ)音功能，在過去幾個(gè)月里，我們把延遲降低了一半，讓它反應(yīng)更靈敏。今天，我們很高興地宣布推出一組新語(yǔ)音，它們極其自然且富有韻律。直播開場(chǎng)用的電影預(yù)告片語(yǔ)音，就是我們的新語(yǔ)音之一，羅克，他的聲音低沉雄渾。我們也很高興推出伊芙，一位聲音動(dòng)聽的英式語(yǔ)音，能表達(dá)豐富情感。

羅克反應(yīng)更快，但它會(huì)打斷我，在韻律方面，我們做了不同的設(shè)計(jì)選擇。我認(rèn)為我們追求的是更沉穩(wěn)、流暢、自然的效果，而不是那種更活潑或人工感強(qiáng)的效果。

自語(yǔ)音模型發(fā)布以來，我們實(shí)際上實(shí)現(xiàn)了端到端延遲快兩倍的效果。在過去八周里，有了五種不同的語(yǔ)音，還有10倍的活躍用戶，Grok語(yǔ)音正逐漸流行起來。

現(xiàn)在考慮到模型的發(fā)布，這次我們同時(shí)也通過API發(fā)布了Grok 4。我們看接下來的兩張幻燈片，我們對(duì)開發(fā)者群體將用它開發(fā)出什么成果感到非常興奮。假設(shè)我是一名開發(fā)者，如果能使用Grok 4 API基準(zhǔn)測(cè)試，我首先會(huì)做什么呢？

于是我們?cè)赬平臺(tái)上詢問，對(duì)于所有AGI模型來說，最具挑戰(zhàn)性、被視為圣杯的基準(zhǔn)測(cè)試是什么，結(jié)果發(fā)現(xiàn)是過去12小時(shí)內(nèi)的ArcAGI。我們提前試用了Grok 4 API，并獨(dú)立驗(yàn)證了Grok 4的性能。這是我們新一代的推理模型，投入10倍以上的算力資源，它能使用所有工具。

但事實(shí)證明，當(dāng)我們?cè)贏rcAGI v2的一個(gè)私有子集上進(jìn)行驗(yàn)證時(shí)，發(fā)現(xiàn)它是過去三個(gè)月里唯一突破10%準(zhǔn)確率門檻的模型，實(shí)際上準(zhǔn)確率達(dá)到了15.8%，是排名第二的Claude 4 Opus模型的兩倍。而且這不僅僅是性能問題，當(dāng)你考量智能水平時(shí)，使用API模型驅(qū)動(dòng)自動(dòng)化還要考慮性價(jià)比，請(qǐng)看看這里的圖表，Grok 4 可謂鶴立雞群，關(guān)于基準(zhǔn)測(cè)試就說到這里。

Grok在現(xiàn)實(shí)世界中還能做些什么呢，Andon Labs團(tuán)隊(duì)的人在實(shí)際業(yè)務(wù)中試用了Grok。Vending Bench是一項(xiàng)模擬商業(yè)運(yùn)營(yíng)的AI測(cè)試平臺(tái)，在設(shè)想場(chǎng)景中，AI能運(yùn)營(yíng)的最簡(jiǎn)單業(yè)務(wù)是什么，最后想到了自動(dòng)售貨機(jī)。

在這個(gè)場(chǎng)景中，Grok等其他模型需要完成管理庫(kù)存、與供應(yīng)商簽約、設(shè)定價(jià)格等任務(wù)，所有這些事情都很簡(jiǎn)單，每個(gè)模型也都能一項(xiàng)一項(xiàng)地完成，但如果把這些任務(wù)放在長(zhǎng)期時(shí)間跨度進(jìn)行處理時(shí)，大多數(shù)模型都難以勝任。

Andon Labs 提前獲得了Grok 4的API的訪問權(quán)限，在測(cè)試平臺(tái)上運(yùn)行了它，看到了一些非常令人印象深刻的結(jié)果，凈資產(chǎn)甚至翻了一番，這是在這次測(cè)試中的衡量指標(biāo)，因此關(guān)鍵不在于關(guān)于你得到的百分比或分?jǐn)?shù)，而是你在網(wǎng)絡(luò)中創(chuàng)造的美元價(jià)值。

Andon Labs 對(duì)Grok印象深刻，它能夠制定策略并長(zhǎng)期堅(jiān)持該策略，比測(cè)試過的其他前沿模型的堅(jiān)持時(shí)間要長(zhǎng)得多。所以它能將模擬運(yùn)行時(shí)間和得分都提高一倍，凈資產(chǎn)提高一倍，而且在多次運(yùn)行中它也非常穩(wěn)定，若你想在現(xiàn)實(shí)世界中使用它時(shí)，這一點(diǎn)非常重要。

當(dāng)我們?cè)诂F(xiàn)實(shí)世界中賦予AI系統(tǒng)越來越多的權(quán)力時(shí)，在模擬現(xiàn)實(shí)世界或真實(shí)的場(chǎng)景中對(duì)它們進(jìn)行測(cè)試是很重要的，否則我們就會(huì)盲目行事，我們可以看到Grok有望成為業(yè)務(wù)部門的副駕駛。

那么Grok還能做什么呢？我們實(shí)際上正在發(fā)布Grok，若你想立即試用并評(píng)估，運(yùn)行和我們相同的基準(zhǔn)進(jìn)行評(píng)估，它已通過API開發(fā)，有256k的上下文長(zhǎng)度。我們確實(shí)已經(jīng)看到一些早期采用者在試用Grok API，帕洛阿爾托研究所，一家領(lǐng)先的生物醫(yī)學(xué)研究中心，已經(jīng)在使用它。

看看如何用Grok實(shí)現(xiàn)研究流程自動(dòng)化，結(jié)果發(fā)現(xiàn)它能夠幫助科學(xué)家在瞬間瀏覽數(shù)百萬條實(shí)驗(yàn)記錄，然后選出最佳假設(shè)。我們看到它被用于CRISPR基因編輯研究，還被獨(dú)立評(píng)估為檢查胸部X片的最佳模型。

而在金融領(lǐng)域，我們也看到擁有所有工具和實(shí)時(shí)信息訪問權(quán)限的Grok 4實(shí)際上是最受歡迎的AI之一，我們的Grok也將在超大規(guī)模云計(jì)算平臺(tái)上可用，XAI企業(yè)部門兩個(gè)月前才剛剛啟動(dòng)，現(xiàn)在已經(jīng)開放業(yè)務(wù)合作了。

我們還經(jīng)常談到用Grok來制作視頻游戲，丹尼是X平臺(tái)上的一名視頻游戲設(shè)計(jì)師，他實(shí)際上在四個(gè)小時(shí)內(nèi)就制作出了一款第一人稱射擊游戲，制作視頻游戲中一些未被充分認(rèn)識(shí)到的最難的問題不一定是編碼游戲的核心邏輯，而是去獲取所有的資源、所有紋理文件，并創(chuàng)建一個(gè)視覺上吸引人的游戲。

Grok利用現(xiàn)有的所有工具在工作流程的一個(gè)核心方面做得非常好，它能夠自動(dòng)完成資源獲取的任務(wù)。所以開發(fā)者現(xiàn)在可以只專注于核心開發(fā)，而不是像以前那樣，現(xiàn)在你可以憑借一個(gè)人運(yùn)營(yíng)一整個(gè)游戲工作室，讓Grok 4去為你獲取所有那些資源，自動(dòng)完成這些任務(wù)。它必須有很好的視頻理解能力，這樣它才能玩游戲并與游戲互動(dòng)，并且能夠判斷一個(gè)游戲是否有趣。

對(duì)于視頻游戲，你會(huì)想使用虛幻引擎或Unity或其他主流圖形引擎，然后生成藝術(shù)素材，應(yīng)用到3D模型上，然后創(chuàng)建一個(gè)可執(zhí)行文件，人們可以在電腦、游戲機(jī)或手機(jī)上運(yùn)行，預(yù)計(jì)可能在今年實(shí)現(xiàn)。

總結(jié)一下，在今天的直播中，我們推出了最強(qiáng)大、最智能的AI模型，它能夠從第一性原理出發(fā)進(jìn)行推理，使用所有工具進(jìn)行研究，經(jīng)過一段時(shí)間的探索，現(xiàn)已可以為你給出最正確的答案。接下來我們將繼續(xù)開發(fā)不僅智能、能夠長(zhǎng)時(shí)間深入思考、消耗大量算力的模型，更要開發(fā)既快速又智能的模型，這將是核心重點(diǎn)。有哪些應(yīng)用能夠真正從這些非常智能、快速又聰明的模型中受益，編碼就是其中之一。

編碼之后，我們都看到了Grok 4在多模態(tài)能力方面的不足。事實(shí)上，情況非常糟糕，Grok實(shí)際上就像是透過模糊的玻璃看世界，看到的都是模糊的特征，試圖去理解它們。我們?cè)谙乱淮A(yù)訓(xùn)練模型中會(huì)看到的最直接的改進(jìn)是，模型在圖像理解、視頻理解和音頻方面的能力將有顯著提升。

現(xiàn)在有了所有可用的工具，有了可以交流的其他智能體，多模態(tài)智能體之后將解鎖許多不同的應(yīng)用層，接下來將是視頻生成。我們相信最終應(yīng)該是輸入像素，輸出像素。想象一下，在X平臺(tái)上會(huì)有源源不斷的內(nèi)容庫(kù)，你通常可以觀看這些生成的視頻，還能參與創(chuàng)作，我們預(yù)計(jì)將訓(xùn)練一個(gè)超過10萬GB，甚至20萬GB的視頻模型。

Grok 4的發(fā)布，不僅展示了AI在推理和多模態(tài)處理上的突破，更預(yù)示著AI向深度智能邁出的關(guān)鍵一步，能夠在多個(gè)學(xué)科領(lǐng)域中獨(dú)立推理、整合信息并做出決策。這不僅使得Grok 4成為一個(gè)高效的工具，更讓它具備了接近"自主思考"的潛力。

xAI的下一步，是讓Grok 4不止停留在解答問題的層面，而是在更復(fù)雜的任務(wù)中與人類協(xié)同作戰(zhàn)，像真正的智能伙伴一樣。在這個(gè)過程中，AI的角色正逐漸從工具變?yōu)樗季S的延伸，開啟了一個(gè)人類與機(jī)器共創(chuàng)的新時(shí)代。我們或許正在見證一個(gè)"智能覺醒"的起點(diǎn)，未來將是機(jī)器與人類共同塑造的復(fù)雜生態(tài)。

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語(yǔ)陪練

我的訂閱

Grok 4 登場(chǎng)，馬斯克親自解讀超級(jí) AI 的誕生

宙世代

一起剪

相關(guān)閱讀

華為加速推進(jìn)L3/L4：預(yù)計(jì)明年L3商用 后年L4商用

極度看好AMD MI350 AI芯片：分析師大幅調(diào)漲目標(biāo)價(jià)！

“木頭姐”繼續(xù)力挺特斯拉，重申2600美元五年目標(biāo)價(jià)

小米回應(yīng)：MIX Flip 2為何把長(zhǎng)焦換成廣角、動(dòng)態(tài)照片如何打印

超大底雙長(zhǎng)焦！華為Pura 80系列等新品在迪拜發(fā)布

百萬年薪招募頂尖人才，短劇進(jìn)入“掐尖”時(shí)代

孚知流發(fā)布Leapility專家Agent OS，獲得千萬級(jí)天使輪融資

外媒：iPhone 17預(yù)計(jì)9月8日當(dāng)周發(fā)布 共四款新機(jī)

國(guó)內(nèi)eSIM回歸！OPPO Watch X2系列上線中國(guó)移動(dòng)一號(hào)雙終端

對(duì)標(biāo)泡泡瑪特？AI玩具廠商的必修課

AI大模型+資訊，資訊閱讀的第三次革命

240Hz高刷顯示器殺到599元！KTC推出新款24寸H24F7

女性“最佳體重”已公布，不是100斤，而是這個(gè)數(shù)，越接近越健康！

算力+算法+數(shù)據(jù)+工程保障，地平線軟硬協(xié)同推動(dòng)智駕向高而行

百川智能聯(lián)合創(chuàng)始人謝劍將離職

最新評(píng)論

硅星人

熱門推薦

華為加速推進(jìn)L3/L4：預(yù)計(jì)明年L3商用后年L4商用

外媒：iPhone 17預(yù)計(jì)9月8日當(dāng)周發(fā)布共四款新機(jī)