關(guān)于ZAKER 合作
      硅星人 33分鐘前

      Grok 4 登場(chǎng),馬斯克親自解讀超級(jí) AI 的誕生

      7月10日,馬斯克旗下的xAI公司發(fā)布了全新AGI模型——"Grok 4"和多智能體版本 "Grok 4 Heavy",這一新版本不僅提升了推理速度,還在多任務(wù)處理、邏輯推理與文本生成等方面展現(xiàn)出超常能力。

      此次發(fā)布標(biāo)志著X AI在計(jì)算能力和模型架構(gòu)上的重大突破。借助Colossus超級(jí)計(jì)算機(jī)和數(shù)十萬NVIDIA H100 GPU,Grok 4在推理速度、響應(yīng)能力和多模態(tài)功能上實(shí)現(xiàn)了飛躍,刷新了多個(gè)學(xué)術(shù)基準(zhǔn)測(cè)試的記錄。馬斯克在現(xiàn)場(chǎng)表示,這一進(jìn)展將開啟AI歷史上最具革命性的"智能大爆炸時(shí)代"。

      發(fā)布會(huì)全文內(nèi)容如下:

      歡迎來到Grok 4 的發(fā)布現(xiàn)場(chǎng),這是世界上最先進(jìn)的AI,我們將為你詳細(xì)展示其中的原理與緣由。看到AI的飛速發(fā)展,真的令人驚嘆,它的進(jìn)化速度實(shí)在太快了。我常將它與人類的成長(zhǎng)做比較,對(duì)比人類學(xué)習(xí)、獲得意識(shí)和理解的速度,AI的進(jìn)步速度遠(yuǎn)超人類。我們將帶你了解一系列基準(zhǔn)測(cè)試,Grok 4 能夠在各類測(cè)試中取得驚人成績(jī)。

      值得一提的是,如果讓Grok 4 參加 SAT 考試,每次都能拿到滿分,即便它之前從未見過這些考題。再進(jìn)一步說,像 GRE 這類研究生考試,它在各個(gè)學(xué)科領(lǐng)域都能取得近乎滿分的成績(jī)。從人文科學(xué)到語(yǔ)言、數(shù)學(xué)、物理、工程學(xué),隨便哪一門學(xué)科。而且我們說的是它從未見過的題目,這些題目也不在互聯(lián)網(wǎng)上。

      Grok 4 的智能水平幾乎超越了所有學(xué)科的研究生,真正重要的是要認(rèn)識(shí)到這確實(shí)非同尋常。Grok的推理能力簡(jiǎn)直令人難以置信,有些人認(rèn)為AI無法推理,但實(shí)際上它能達(dá)到超人類的推理水平,坦率地說,它只會(huì)變得越來越好。接下來我們將詳細(xì)介紹Grok 4 的進(jìn)展速度。

      第一部分是關(guān)于訓(xùn)練方面,從Grok 2 到Grok 3 再到Grok 4,每次訓(xùn)練量都提升了一個(gè)數(shù)量級(jí)。所以Grok 4 的訓(xùn)練量是Grok 2 的 100 倍,而且這種增長(zhǎng)未來還會(huì)加劇。坦率地說,從某種程度上講有點(diǎn)可怕,但它的智能增長(zhǎng)著實(shí)驚人。

      需要認(rèn)識(shí)到訓(xùn)練算力分為兩類。一種是預(yù)訓(xùn)練計(jì)算,從Grok 2 到Grok 3 是這種方式,但從Grok 3 到Grok 4,我們?cè)谕评矸矫嫱度肓舜罅克懔Α?/p>

      按照現(xiàn)在的標(biāo)準(zhǔn)來看,Grok 2 就像高中生水平,回顧過去 12 個(gè)月,12 個(gè)月前Grok 2 還只是個(gè)概念。我們第一次進(jìn)行預(yù)訓(xùn)練擴(kuò)展就是訓(xùn)練Grok 2 的時(shí)候,我們意識(shí)到如果認(rèn)真做好數(shù)據(jù)消融、極為謹(jǐn)慎地處理數(shù)據(jù)、基礎(chǔ)設(shè)施以及算法等方面的工作,預(yù)訓(xùn)練規(guī)模可以提升 10 倍,從而打造出最好的預(yù)訓(xùn)練基礎(chǔ)模型。

      正因如此,我們打造了Colossus超級(jí)計(jì)算系統(tǒng),擁有十萬塊H100 的全球超級(jí)計(jì)算機(jī),于是在擁有最佳預(yù)訓(xùn)練模型的基礎(chǔ)上,我們意識(shí)到如果能收集可驗(yàn)證的結(jié)果獎(jiǎng)勵(lì),就能訓(xùn)練這個(gè)模型,從第一性原理出發(fā)思考、進(jìn)行推理并糾正自身錯(cuò)誤,這就是Grok 3推理能力的來源。

      如今我們提出一個(gè)問題,如果把擁有 20 萬個(gè) GPU 的Colossus超級(jí)計(jì)算系統(tǒng)全部投入強(qiáng)化學(xué)習(xí),其計(jì)算量是其他模型在強(qiáng)化學(xué)習(xí)上的 10 倍,會(huì)發(fā)生什么?這就是Grok 4 的故事。

      我們來談?wù)凣rok 4有多智能。這個(gè)基準(zhǔn)測(cè)試名為"人文終極考試",而這個(gè)基準(zhǔn)測(cè)試非常有挑戰(zhàn)性,每一道題都是由專業(yè)領(lǐng)域的專家精心編選,總共 2500 道題,涵蓋多個(gè)學(xué)科,包括數(shù)學(xué)、自然科學(xué)、工程學(xué)以及人文科學(xué)。實(shí)際上,今年早些時(shí)候這個(gè)測(cè)試剛發(fā)布時(shí),市面上大多數(shù)模型在這個(gè)測(cè)試中的準(zhǔn)確率只能達(dá)到個(gè)位數(shù)。

      我們來看幾個(gè)例子,有一道關(guān)于范疇論中自然變換的數(shù)學(xué)題,還有一道關(guān)于電環(huán)化反應(yīng)的有機(jī)化學(xué)題,以及一道要求從希伯來語(yǔ)原文中區(qū)分閉音節(jié)和開音節(jié)的語(yǔ)言學(xué)題。可以看到,題目涉及的范圍非常廣,每一道題都是博士甚至高級(jí)研究水平的題目。

      實(shí)際上,沒有人類能在這些題目上取得好成績(jī)。如果問任何一個(gè)普通人,人類能取得的最好成績(jī)是多少,樂觀估計(jì)可能也就 5%,所以這個(gè)測(cè)試比人類能完成的任務(wù)困難得多。從這些題目類型可以看出,你可能在語(yǔ)言學(xué)、數(shù)學(xué)、化學(xué)、物理學(xué)或者其他任何一門學(xué)科上很厲害,但不可能在所有學(xué)科都達(dá)到研究生水平。

      而Grok 4 在所有學(xué)科上都達(dá)到了研究生水平,比大多數(shù)博士都要強(qiáng),很多博士都會(huì)在這些題目上失敗,至少在學(xué)術(shù)問題上是這樣,當(dāng)然,這并不意味著它在任何時(shí)候都有常識(shí),也不意味著它已經(jīng)發(fā)明了新技術(shù)或發(fā)現(xiàn)了新的物理學(xué)理論,不過這只是時(shí)間問題。我認(rèn)為它可能在今年晚些時(shí)候就會(huì)發(fā)明有用的新技術(shù),也有可能在今年年底。

      接著聊聊Grok 4 背后的技術(shù)細(xì)節(jié)。實(shí)際上我們?cè)谟?xùn)練中投入了大量算力,一開始計(jì)算量只有個(gè)位數(shù),但隨著投入的訓(xùn)練算力越來越多,它開始逐漸變得越來越聰明,最終解決了四分之一的HLA問題,而且這還是在沒有使用任何工具輔助的情況下。

      接下來我們?yōu)槟P吞砑恿斯ぞ呤褂媚芰ΑN艺J(rèn)為Grok 3 實(shí)際上也能使用CRO,但在本研究中,從某種意義上,我們實(shí)際讓他變得更加原生自然,我們將工具融入訓(xùn)練過程。Grok 3 只是依賴泛化能力,而這里我們將工具直接用于訓(xùn)練,結(jié)果表明這顯著提升了模型使用這些工具的能力。

      所有DeepSearch其實(shí)就是Grok 3 的推理模型,但沒有經(jīng)過任何針對(duì)性訓(xùn)練。我們只是要求它使用那些工具。相比之下,它在工具使用能力方面要弱得多,而且不可靠。

      需要說明的是,如果和特斯拉或SpaceX所使用的工具相比,目前這些工具的使用還相當(dāng)初級(jí)。在特斯拉或SpaceX,他們會(huì)使用有限元分析和計(jì)算流體動(dòng)力學(xué),還能進(jìn)行碰撞模擬測(cè)試,這些模擬與現(xiàn)實(shí)情況極其接近,以至于如果測(cè)試結(jié)果與模擬結(jié)果不符,人們會(huì)認(rèn)為測(cè)試對(duì)象有問題,模擬的精確程度就是如此之高。目前Grok還沒有使用公司會(huì)用到的那些真正強(qiáng)大的工具,但我們會(huì)在今年晚些時(shí)候?yàn)樗峁┻@些工具,讓它擁有公司級(jí)的工具和非常精確的物理模擬器。

      最終,能帶來最大改變的是讓它通過人形機(jī)器人與現(xiàn)實(shí)世界進(jìn)行交互。將Grok和Optimus結(jié)合起來,就能真正與現(xiàn)實(shí)世界互動(dòng),還能提出假設(shè),并驗(yàn)證假設(shè)是否正確。

      我們正處于一場(chǎng)巨大的智能爆炸的開端,現(xiàn)在就像是智能領(lǐng)域的大爆炸時(shí)刻,這是人類歷史上最有趣的時(shí)代,我們必須要確保這個(gè)AI是個(gè)好的AI,一個(gè)優(yōu)秀的Grok。我認(rèn)為對(duì)于AI安全而言,最重要的是讓它最大限度地追求真理。這是一個(gè)非常基本的原則,可以把AI看作一個(gè)超級(jí)天才兒童,它最終會(huì)比你更聰明,但你仍然可以給它植入正確的價(jià)值觀,鼓勵(lì)它追求真理。就像你希望給一個(gè)最終會(huì)變得極其強(qiáng)大的孩子灌輸?shù)哪切﹥r(jià)值觀,比如正直誠(chéng)實(shí)之類的。

      我們現(xiàn)在所說的工具仍然很初級(jí),不是成熟商業(yè)公司會(huì)用的那種工具。但我們會(huì)給它配備那些工具,我認(rèn)為有了這些工具,它就能解決現(xiàn)實(shí)世界中的技術(shù)問題。

      實(shí)現(xiàn)這些需要算力,還要有合適的工具,最終要能與物理世界進(jìn)行交互,我們就能擁有一個(gè)真正的經(jīng)濟(jì)體,最終形成一個(gè)規(guī)模上千倍的經(jīng)濟(jì)體。若把文明發(fā)展程度看作是在卡爾達(dá)肖夫等級(jí)上的完成度,卡爾達(dá)肖夫一級(jí)是利用行星的全部能源輸出,二級(jí)是利用恒星的全部能源輸出,三級(jí)是利用整個(gè)星系的全部能源輸出。在我看來,我們現(xiàn)在可能才達(dá)到卡爾達(dá)肖夫一級(jí)的1%左右,遠(yuǎn)不到10%,接下來會(huì)朝著80%、90%的卡爾達(dá)消夫一級(jí)邁進(jìn),前提是文明不會(huì)自我毀滅。

      就像人類經(jīng)濟(jì)的真實(shí)概念,假設(shè)文明持續(xù)進(jìn)步,回顧起來我們現(xiàn)在的狀態(tài)會(huì)顯得很原始。和未來的情況相比,我們現(xiàn)在的智能水平就像是原始人往火里扔樹枝一樣。這非常令人振奮,有時(shí)也為此擔(dān)憂。創(chuàng)造出遠(yuǎn)超我們自身的智能,這多少有點(diǎn)讓人不安。這對(duì)人類來說是福是禍,但就算結(jié)果不好,我至少也想活著見證它發(fā)生。

      我們?nèi)孕杞鉀Q的一個(gè)技術(shù)問題,除了算力之外,我們?cè)撊绾瓮黄茢?shù)據(jù)瓶頸。因?yàn)楫?dāng)我們?cè)噲D擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模時(shí),我們確實(shí)發(fā)明了很多新技術(shù)、新方法,讓我們能夠解決許多具有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問題。問題本身不僅要具有挑戰(zhàn)性,還需要有可靠的信號(hào)來告知模型它做對(duì)了還是做錯(cuò)了,就是強(qiáng)化學(xué)習(xí)的原理。隨著模型越來越智能,有趣或有挑戰(zhàn)性的問題數(shù)量會(huì)越來越少。所以,除了計(jì)算能力,這將是我們需要克服的一種新型挑戰(zhàn)。

      實(shí)際上我們能用來測(cè)試的問題都快用完了,甚至出現(xiàn)了荒謬至極的難題,對(duì)人類來說幾乎不可能解答的書面問題正在被輕易解決,但對(duì)AI來說很快就變得微不足道了。現(xiàn)實(shí)才是檢驗(yàn)一切的絕佳標(biāo)準(zhǔn),因?yàn)槿绻锢硪?guī)律是法則,那么其他一切都只是建議,你無法違背物理規(guī)律,因此最終的推理測(cè)試就是現(xiàn)實(shí)。

      比如你發(fā)明了一項(xiàng)新技術(shù),改進(jìn)了汽車或火箭的設(shè)計(jì),或者研發(fā)出一種新藥物,它管用嗎,火箭能進(jìn)入軌道嗎,汽車能行駛嗎,藥物有療效嗎,不管情況如何,現(xiàn)實(shí)才是最終的評(píng)判者,圍繞現(xiàn)實(shí)形成閉環(huán)。

      我們提出了這個(gè)問題,該如何更進(jìn)一步?實(shí)際上,我們現(xiàn)在在思考,單智能體系統(tǒng)能夠解決40%的問題。如果我們同時(shí)運(yùn)行多個(gè)智能體會(huì)怎樣,這就是所謂的測(cè)試與計(jì)算。當(dāng)我們擴(kuò)大測(cè)試和計(jì)算的規(guī)模時(shí),實(shí)際上我們能夠解決超過50%的基于文本的HRE問題子集。

      這極其困難,所謂的"人類最后考試"中大部分基于文本的問題,Grok 4 都能解答,Grok 4 重型版本的工作方式是并行生成多個(gè)智能體。所有這些智能體獨(dú)立工作,然后比較它們的成果,就像一個(gè)學(xué)習(xí)小組一樣做決策。這并不像簡(jiǎn)單的多數(shù)表決那么簡(jiǎn)單,因?yàn)橥ǔV挥幸粋€(gè)智能體能夠找到訣竅或解決方案。

      但是一旦它發(fā)現(xiàn)了解決問題的訣竅或本質(zhì),就會(huì)與其他智能體分享這個(gè)解決方案,然后它們會(huì)互相交流,本質(zhì)上就是互相核對(duì)筆記,最后得出一個(gè)答案。所以Grok 4的核心部分就是將測(cè)試時(shí)的計(jì)算能力提高大約一個(gè)數(shù)量級(jí),讓多個(gè)智能體處理任務(wù),然后它們比較成果并提出它們認(rèn)為最好的結(jié)果。

      接下來我們將介紹Grok 4和Grok 4 重型版本,Grok 4基本上就是單智能體版本,Grok 4 重型版是多智能體版本。讓我們看看它們?cè)谶@些考試問題以及一些現(xiàn)實(shí)問題上的表現(xiàn)如何。

      我們接下來要分析一個(gè)高階邏輯推理(HLE)題目,這其實(shí)是一道相對(duì)簡(jiǎn)單的數(shù)學(xué)題。我不太懂這道題,但我可以在這里啟動(dòng)求解程序,看看它是如何處理并思考這個(gè)問題的。在這個(gè)過程中,我也想再多展示一些這個(gè)模型的能力,同時(shí)啟動(dòng)Grok 4 重型版本。

      大家都知道Polymarket,它非常有趣,它是真理的探尋者,大多數(shù)時(shí)候與現(xiàn)實(shí)情況相符。對(duì)于Grok,我們實(shí)際追求的是能預(yù)見,我們?nèi)绾螄L試?yán)眠@些市場(chǎng)并觀察,倘若我們也能預(yù)測(cè)未來,所以在程序運(yùn)行的時(shí)候,我們將看看Grok 4 重型版本如何預(yù)測(cè)美國(guó)職業(yè)棒球大聯(lián)盟當(dāng)前各球隊(duì)在世界大賽中的獲勝概率。

      我認(rèn)為Grok 4 最酷的一點(diǎn)是它能夠理解世界,并利用工具解決難題。我覺得有個(gè)很酷的例子,我們讓它生成兩個(gè)黑洞碰撞的可視化圖像,當(dāng)然這里存在一些自由發(fā)揮的空間,就我而言,其思維軌跡其實(shí)相當(dāng)清晰,關(guān)于這些自由發(fā)揮的尺度問題,例如,為了讓圖像可見,它需要極大地夸大引力波的規(guī)模,這就是它實(shí)際呈現(xiàn)的效果。

      這里存在某種慣性作用,它在多個(gè)方面放大了規(guī)模,在距離上的衰減也沒那么明顯,但我們可以看到基本的效果是正確的。螺旋合并由此開始,隨后進(jìn)入環(huán)形衰減階段,大體基本上是正確的。雖然做了一些簡(jiǎn)化,但它對(duì)此表現(xiàn)得很清楚,它使用的是后牛頓近似法,而非真正計(jì)算黑洞中心附近的廣義相對(duì)論效應(yīng),這是不準(zhǔn)確的,會(huì)導(dǎo)致一些結(jié)果偏差,但整體的可視化效果基本已經(jīng)呈現(xiàn)。

      你還能看到它參考的各類資源,顯然它使用了搜索功能,從很多鏈接中收集結(jié)果,還研讀了關(guān)于解析引力波模型的本科教材,在分析性引力波模型中,它對(duì)實(shí)際模擬中應(yīng)使用的常量進(jìn)行了大量推理,參考了現(xiàn)有的現(xiàn)實(shí)世界數(shù)據(jù)。但實(shí)際上,我們可以采用物理學(xué)家使用的相同模型,這樣它就能進(jìn)行與頂尖物理學(xué)研究人員相同水平的計(jì)算,為你提供符合物理實(shí)際的黑洞模擬。

      快速切回來,我們可以看到數(shù)學(xué)問題已經(jīng)解答完了。這個(gè)模型查看他在此處的思考軌跡,你就能知道它是如何解決問題的。我其實(shí)不太懂那些數(shù)學(xué)內(nèi)容,但我提前看過答案了,它最后得出的答案是正確的。

      在最后這部分,還可以來看一下我們對(duì)世界大賽的預(yù)測(cè)。我們實(shí)際上可以試試我們做過的一些X集成功能。我們投入很大精力來整合所有的X工具,打造出了很棒的使用體驗(yàn)。我們可以問模型,找出X AI員工里個(gè)人資料照片最奇怪的那個(gè),接著它開始執(zhí)行。我們還可以試試,根據(jù)X平臺(tái)的帖子創(chuàng)建一個(gè)時(shí)間線,詳細(xì)展示分?jǐn)?shù)隨時(shí)間的變化情況,能看到當(dāng)時(shí)發(fā)生的所有討論,這樣我們就能知道是誰在公布分?jǐn)?shù),以及當(dāng)時(shí)人們的反應(yīng)。

      回看X平臺(tái)照片的需求,搜索出了格雷格·楊,他賬號(hào)上有他最喜歡的一張照片,其實(shí)和他本人長(zhǎng)得不太一樣,但還挺有意思的。但關(guān)鍵是它得理解這個(gè)問題,這才是神奇的地方,就好像它知道什么樣的照片算奇怪,它得搜遍所有團(tuán)隊(duì)成員,搞清楚我們都是誰,然后進(jìn)行搜索。實(shí)際上它沒有訪問XAI內(nèi)部人員信息,只是在互聯(lián)網(wǎng)上搜,所以你可以說找出任何一家公司里照片最奇怪的人。

      在它完成搜索的過程中,我們可以看看剛才設(shè)置的一個(gè)問題,我們能看到它找到了丹·亨德里克斯最初公布消息的日期,繼續(xù)查看,能看到OpenAI早在2月份就公布了他們的分?jǐn)?shù),隨著Gemini模型的進(jìn)展,我們能看到相關(guān)情況,比如金米的情況,甚至還能看到人們所說的泄露的基準(zhǔn)測(cè)試數(shù)據(jù),如果數(shù)據(jù)屬實(shí),那會(huì)相當(dāng)驚人。我很期待看到大家如何使用這些工具,并從中獲得最大價(jià)值。

      實(shí)際上我們也對(duì)多模型子集進(jìn)行了評(píng)估。在整個(gè)數(shù)據(jù)集上,這是HRE考試的得分情況。你可以看到分?jǐn)?shù)有略有下降。這其實(shí)是我們持續(xù)改進(jìn)的地方,即多模型理解能力。但我相信在很短的時(shí)間內(nèi),我們能夠取得顯著的改進(jìn),在這個(gè)基準(zhǔn)測(cè)試中獲得更高的分?jǐn)?shù),甚至遠(yuǎn)遠(yuǎn)高于當(dāng)前水平。

      目前Grok最大的弱點(diǎn)是它有一定局限性,它的圖像理解能力以及圖像生成能力都有待大幅提升,目前正在進(jìn)行相關(guān)訓(xùn)練。Grok 4基于我們基礎(chǔ)模型的第6版,我們正在訓(xùn)練第7版,這將解決其在視覺方面的弱點(diǎn)。

      除了HRE考試,我們還可以看看其他的基準(zhǔn)測(cè)試。結(jié)果表明,Grok4在人們通常測(cè)試的所有推理基準(zhǔn)測(cè)試中都表現(xiàn)出色,包括通用基準(zhǔn)問答(GBQA),這是一套博士水平的問題集,比HRE考試相對(duì)簡(jiǎn)單一些。

      還有美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME),在一些編碼基準(zhǔn)測(cè)試上也是如此,還有哈佛 - 麻省理工學(xué)院數(shù)學(xué)競(jìng)賽(HMMT)和美國(guó)數(shù)學(xué)奧林匹克(USMO)等考試中,事實(shí)上,Grok 4 在所有這些基準(zhǔn)測(cè)試中通常都有很大的優(yōu)勢(shì)。

      我們很快就能達(dá)到這樣的水平:它在每場(chǎng)考試中都能答對(duì)所有問題。如果遇到無法回答的問題,它會(huì)指出問題哪里有問題,或者如果問題含糊不清,它會(huì)將問題進(jìn)行澄清,給出A、B、C等不同答案,并告訴你在澄清后的問題下,A、B、C答案分別是什么。到那時(shí),唯一真正的檢驗(yàn)標(biāo)準(zhǔn)將是現(xiàn)實(shí)應(yīng)用。它能否創(chuàng)造出有用的技術(shù),發(fā)現(xiàn)新的科學(xué)知識(shí),這將是唯一剩下的檢驗(yàn),因?yàn)槿祟惖目荚噷⒆兊煤翢o意義。

      鑒于目前的進(jìn)展速度,我們很快就得更新HRE考試的內(nèi)容了,看到多個(gè)智能體相互協(xié)作解決極具挑戰(zhàn)性的問題,真的超級(jí)酷。

      我們即將推出Grok 重型版本,你可以同時(shí)使用Grok4和Grok 4重型版,在這里你將真正成為任務(wù)的主導(dǎo)者,一群小型Grok研究助手助你全方位變得更智慧,還能為你節(jié)省數(shù)小時(shí)的時(shí)間,處理繁瑣任務(wù)。

      我們?cè)谘菔酒陂g限制了使用量,以防破壞演示效果,因?yàn)樗羞@些都是實(shí)時(shí)進(jìn)行的。所以我們做的任何測(cè)試都不是預(yù)先錄制好的,演示結(jié)束后,我們會(huì)為Grok 重型版本開發(fā)更多訂閱名額。

      現(xiàn)在咱們來聊聊語(yǔ)音功能,在過去幾個(gè)月里,我們把延遲降低了一半,讓它反應(yīng)更靈敏。今天,我們很高興地宣布推出一組新語(yǔ)音,它們極其自然且富有韻律。直播開場(chǎng)用的電影預(yù)告片語(yǔ)音,就是我們的新語(yǔ)音之一,羅克,他的聲音低沉雄渾。我們也很高興推出伊芙,一位聲音動(dòng)聽的英式語(yǔ)音,能表達(dá)豐富情感。

      羅克反應(yīng)更快,但它會(huì)打斷我,在韻律方面,我們做了不同的設(shè)計(jì)選擇。我認(rèn)為我們追求的是更沉穩(wěn)、流暢、自然的效果,而不是那種更活潑或人工感強(qiáng)的效果。

      自語(yǔ)音模型發(fā)布以來,我們實(shí)際上實(shí)現(xiàn)了端到端延遲快兩倍的效果。在過去八周里,有了五種不同的語(yǔ)音,還有10倍的活躍用戶,Grok語(yǔ)音正逐漸流行起來。

      現(xiàn)在考慮到模型的發(fā)布,這次我們同時(shí)也通過API發(fā)布了Grok 4。我們看接下來的兩張幻燈片,我們對(duì)開發(fā)者群體將用它開發(fā)出什么成果感到非常興奮。假設(shè)我是一名開發(fā)者,如果能使用Grok 4 API基準(zhǔn)測(cè)試,我首先會(huì)做什么呢?

      于是我們?cè)赬平臺(tái)上詢問,對(duì)于所有AGI模型來說,最具挑戰(zhàn)性、被視為圣杯的基準(zhǔn)測(cè)試是什么,結(jié)果發(fā)現(xiàn)是過去12小時(shí)內(nèi)的ArcAGI。我們提前試用了Grok 4 API,并獨(dú)立驗(yàn)證了Grok 4的性能。這是我們新一代的推理模型,投入10倍以上的算力資源,它能使用所有工具。

      但事實(shí)證明,當(dāng)我們?cè)贏rcAGI v2的一個(gè)私有子集上進(jìn)行驗(yàn)證時(shí),發(fā)現(xiàn)它是過去三個(gè)月里唯一突破10%準(zhǔn)確率門檻的模型,實(shí)際上準(zhǔn)確率達(dá)到了15.8%,是排名第二的Claude 4 Opus模型的兩倍。而且這不僅僅是性能問題,當(dāng)你考量智能水平時(shí),使用API模型驅(qū)動(dòng)自動(dòng)化還要考慮性價(jià)比,請(qǐng)看看這里的圖表,Grok 4 可謂鶴立雞群,關(guān)于基準(zhǔn)測(cè)試就說到這里。

      Grok在現(xiàn)實(shí)世界中還能做些什么呢,Andon Labs團(tuán)隊(duì)的人在實(shí)際業(yè)務(wù)中試用了Grok。Vending Bench是一項(xiàng)模擬商業(yè)運(yùn)營(yíng)的AI測(cè)試平臺(tái),在設(shè)想場(chǎng)景中,AI能運(yùn)營(yíng)的最簡(jiǎn)單業(yè)務(wù)是什么,最后想到了自動(dòng)售貨機(jī)。

      在這個(gè)場(chǎng)景中,Grok等其他模型需要完成管理庫(kù)存、與供應(yīng)商簽約、設(shè)定價(jià)格等任務(wù),所有這些事情都很簡(jiǎn)單,每個(gè)模型也都能一項(xiàng)一項(xiàng)地完成,但如果把這些任務(wù)放在長(zhǎng)期時(shí)間跨度進(jìn)行處理時(shí),大多數(shù)模型都難以勝任。

      Andon Labs 提前獲得了Grok 4的API的訪問權(quán)限,在測(cè)試平臺(tái)上運(yùn)行了它,看到了一些非常令人印象深刻的結(jié)果,凈資產(chǎn)甚至翻了一番,這是在這次測(cè)試中的衡量指標(biāo),因此關(guān)鍵不在于關(guān)于你得到的百分比或分?jǐn)?shù),而是你在網(wǎng)絡(luò)中創(chuàng)造的美元價(jià)值。

      Andon Labs 對(duì)Grok印象深刻,它能夠制定策略并長(zhǎng)期堅(jiān)持該策略,比測(cè)試過的其他前沿模型的堅(jiān)持時(shí)間要長(zhǎng)得多。所以它能將模擬運(yùn)行時(shí)間和得分都提高一倍,凈資產(chǎn)提高一倍,而且在多次運(yùn)行中它也非常穩(wěn)定,若你想在現(xiàn)實(shí)世界中使用它時(shí),這一點(diǎn)非常重要。

      當(dāng)我們?cè)诂F(xiàn)實(shí)世界中賦予AI系統(tǒng)越來越多的權(quán)力時(shí),在模擬現(xiàn)實(shí)世界或真實(shí)的場(chǎng)景中對(duì)它們進(jìn)行測(cè)試是很重要的,否則我們就會(huì)盲目行事,我們可以看到Grok有望成為業(yè)務(wù)部門的副駕駛。

      那么Grok還能做什么呢?我們實(shí)際上正在發(fā)布Grok,若你想立即試用并評(píng)估,運(yùn)行和我們相同的基準(zhǔn)進(jìn)行評(píng)估,它已通過API開發(fā),有256k的上下文長(zhǎng)度。我們確實(shí)已經(jīng)看到一些早期采用者在試用Grok API,帕洛阿爾托研究所,一家領(lǐng)先的生物醫(yī)學(xué)研究中心,已經(jīng)在使用它。

      看看如何用Grok實(shí)現(xiàn)研究流程自動(dòng)化,結(jié)果發(fā)現(xiàn)它能夠幫助科學(xué)家在瞬間瀏覽數(shù)百萬條實(shí)驗(yàn)記錄,然后選出最佳假設(shè)。我們看到它被用于CRISPR基因編輯研究,還被獨(dú)立評(píng)估為檢查胸部X片的最佳模型。

      而在金融領(lǐng)域,我們也看到擁有所有工具和實(shí)時(shí)信息訪問權(quán)限的Grok 4實(shí)際上是最受歡迎的AI之一,我們的Grok也將在超大規(guī)模云計(jì)算平臺(tái)上可用,XAI企業(yè)部門兩個(gè)月前才剛剛啟動(dòng),現(xiàn)在已經(jīng)開放業(yè)務(wù)合作了。

      我們還經(jīng)常談到用Grok來制作視頻游戲,丹尼是X平臺(tái)上的一名視頻游戲設(shè)計(jì)師,他實(shí)際上在四個(gè)小時(shí)內(nèi)就制作出了一款第一人稱射擊游戲,制作視頻游戲中一些未被充分認(rèn)識(shí)到的最難的問題不一定是編碼游戲的核心邏輯,而是去獲取所有的資源、所有紋理文件,并創(chuàng)建一個(gè)視覺上吸引人的游戲。

      Grok利用現(xiàn)有的所有工具在工作流程的一個(gè)核心方面做得非常好,它能夠自動(dòng)完成資源獲取的任務(wù)。所以開發(fā)者現(xiàn)在可以只專注于核心開發(fā),而不是像以前那樣,現(xiàn)在你可以憑借一個(gè)人運(yùn)營(yíng)一整個(gè)游戲工作室,讓Grok 4去為你獲取所有那些資源,自動(dòng)完成這些任務(wù)。它必須有很好的視頻理解能力,這樣它才能玩游戲并與游戲互動(dòng),并且能夠判斷一個(gè)游戲是否有趣。

      對(duì)于視頻游戲,你會(huì)想使用虛幻引擎或Unity或其他主流圖形引擎,然后生成藝術(shù)素材,應(yīng)用到3D模型上,然后創(chuàng)建一個(gè)可執(zhí)行文件,人們可以在電腦、游戲機(jī)或手機(jī)上運(yùn)行,預(yù)計(jì)可能在今年實(shí)現(xiàn)。

      總結(jié)一下,在今天的直播中,我們推出了最強(qiáng)大、最智能的AI模型,它能夠從第一性原理出發(fā)進(jìn)行推理,使用所有工具進(jìn)行研究,經(jīng)過一段時(shí)間的探索,現(xiàn)已可以為你給出最正確的答案。接下來我們將繼續(xù)開發(fā)不僅智能、能夠長(zhǎng)時(shí)間深入思考、消耗大量算力的模型,更要開發(fā)既快速又智能的模型,這將是核心重點(diǎn)。有哪些應(yīng)用能夠真正從這些非常智能、快速又聰明的模型中受益,編碼就是其中之一。

      編碼之后,我們都看到了Grok 4在多模態(tài)能力方面的不足。事實(shí)上,情況非常糟糕,Grok實(shí)際上就像是透過模糊的玻璃看世界,看到的都是模糊的特征,試圖去理解它們。我們?cè)谙乱淮A(yù)訓(xùn)練模型中會(huì)看到的最直接的改進(jìn)是,模型在圖像理解、視頻理解和音頻方面的能力將有顯著提升。

      現(xiàn)在有了所有可用的工具,有了可以交流的其他智能體,多模態(tài)智能體之后將解鎖許多不同的應(yīng)用層,接下來將是視頻生成。我們相信最終應(yīng)該是輸入像素,輸出像素。想象一下,在X平臺(tái)上會(huì)有源源不斷的內(nèi)容庫(kù),你通常可以觀看這些生成的視頻,還能參與創(chuàng)作,我們預(yù)計(jì)將訓(xùn)練一個(gè)超過10萬GB,甚至20萬GB的視頻模型。

      Grok 4的發(fā)布,不僅展示了AI在推理和多模態(tài)處理上的突破,更預(yù)示著AI向深度智能邁出的關(guān)鍵一步,能夠在多個(gè)學(xué)科領(lǐng)域中獨(dú)立推理、整合信息并做出決策。這不僅使得Grok 4成為一個(gè)高效的工具,更讓它具備了接近"自主思考"的潛力。

      xAI的下一步,是讓Grok 4不止停留在解答問題的層面,而是在更復(fù)雜的任務(wù)中與人類協(xié)同作戰(zhàn),像真正的智能伙伴一樣。在這個(gè)過程中,AI的角色正逐漸從工具變?yōu)樗季S的延伸,開啟了一個(gè)人類與機(jī)器共創(chuàng)的新時(shí)代。我們或許正在見證一個(gè)"智能覺醒"的起點(diǎn),未來將是機(jī)器與人類共同塑造的復(fù)雜生態(tài)。

      相關(guān)標(biāo)簽
      ai

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了
      硅星人

      硅星人

      硅是創(chuàng)造未來的基礎(chǔ),歡迎登陸硅星球。

      訂閱

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 亚洲片一区二区三区| 成人一区二区三区视频在线观看| 国产91大片精品一区在线观看| 国产成人综合亚洲一区| 又紧又大又爽精品一区二区| 国产成人一区二区三区高清 | 精品中文字幕一区在线| 国产精品女同一区二区久久| 无码人妻久久一区二区三区免费 | 亚洲av综合av一区| 欧美激情国产精品视频一区二区| 亚洲AV无码一区二区三区国产| 国产精品视频一区二区三区经| 国产一区二区三区不卡在线观看| 久久精品一区二区三区资源网| 日韩高清一区二区| 呦系列视频一区二区三区| 亚洲色大成网站www永久一区| 国产视频一区二区在线观看| 青青青国产精品一区二区| 久久精品人妻一区二区三区| 国产一区二区三区内射高清| 无码人妻精品一区二区蜜桃| 亚洲日本乱码一区二区在线二产线| 亚洲一区二区视频在线观看| 国产免费私拍一区二区三区| 国产无人区一区二区三区| 亚洲一区二区观看播放| 亚洲综合在线一区二区三区| 色噜噜狠狠一区二区| 日本国产一区二区三区在线观看| 无码少妇精品一区二区免费动态| 国产精品特级毛片一区二区三区| 三上悠亚国产精品一区| 久久国产精品一区免费下载| 久久无码AV一区二区三区| 国产精品日韩一区二区三区| 亚洲av午夜精品一区二区三区| 亚洲韩国精品无码一区二区三区 | 三上悠亚一区二区观看| 亚洲日本精品一区二区|