<rt id="igwsa"></rt>

三易生活昨天

AI 跑分越來越沒意義，谷歌說不如讓 AI 一起玩游戲

時隔八年，在生成式人工智能問世之后，谷歌又搞了一次 "AI 棋王爭霸賽 "，OpenAI o4-mini、DeepSeek-R1、谷歌 Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct 等中美兩國 AI 業界的頂流模型，將捉對廝殺。

據谷歌方面介紹，此次比賽旨在通過策略游戲中的正面交鋒，評估并推動 AI 模型在復雜推理和決策能力上的進步，從而解決現有基準測試難以跟上模型發展速度的問題。同時他們此次賽事也是為了宣傳自己的 Kaggle Game Arena 平臺，而后者則是谷歌推出的一個全新的、公開的基準測試平臺。

與目前常規的 AI 基準測試不同，Kaggle Game Arena 的測試題目是 " 策略游戲 "。谷歌之所以推出一個讓 AI 玩游戲的平臺，是因為當下傳統的 AI 基準測試已經陷入瓶頸，難以反映旗艦模型的真實能力。簡單來說，或為名、或為利的 AI 廠商，已經將各種 AI 基準測試給玩壞了，所以作為業界巨頭，谷歌選擇站出來正本清源。

其實在這一輪 AI 浪潮中，" 錢不值錢了 " 是一個很特別的現象。以往獨角獸通常指的是成立時間較短，估值超過 10 億美元、且未上市的科技創新企業。可現在只要創始人有一定的技術背景，一家 AI 初創企業拿到 10 億美元的估值幾乎像吃飯喝水一樣簡單。

甚至出現了 Builder.ai 這種宣稱人工智能編程，實際上全靠印度程序員手寫代碼的騙子公司。對于這一現象，金融業給出的答案是他們對 AI 革命可能會帶來的機遇 " 錯失恐懼 "（FOMO），并促使其揮舞著鈔票投向一切像模像樣的 AI 公司，因此也造就了圍繞 AI 的非理性繁榮。

如此一來，創業者利用彌漫在投資市場的 AI FOMO 情緒推高公司估值也在情理之中。那么，要如何讓自己的 AI 初創公司變得更有價值呢？由于當下的 AI 技術實在過于高深，投資者們判斷一家 AI 公司實力的方法很簡單，跑分高的就是好標的。

" 不服跑個分 " 順勢也就成為了一眾 AI 企業宣傳自己產品的核心手段，如果有經常關注 AI 相關消息，想必就會對 LMArena 基準測試、大模型競技場 Chatbot Arena 等榜單不陌生。當跑分成績與融資捆綁在一起，一個讓數碼愛好者、手游玩家熟悉的操作也開始浮出水面，那就是 " 刷榜 "。

目前市面上評測大模型能力的基準測試可謂五花八門，主要包括知識推理、數學和編程。以知名 AI 開源社區 HuggingFace 出品的榜單為例，其主要是評測大模型遵循指令的能力，以及 AI 模型在長文本中進行多步驟推理能力等方面。

與 PC 上的 3DMark、手機上的安兔兔一樣，AI 基準測試也是通過設定一系列客觀且可復現的場景，來測試 AI 模型在不同領域的能力。然而為了可復現和一致性，AI 基準測試自然就會缺乏靈活性，所以也就有了 " 刷榜 " 的空間。AI 模型通過自身的記憶能力在一次次測試中記下基準測試數據集中的題目，然后再針對性的進行訓練，最終就可以跑出高分。

例如在 GSM8K、MATH 等測試 AI 模型數學能力的測試集中，GPT-4o、Gemini 1.5 Pro 等模型動輒就能獲得 80% 以上的超高正確率，甚至還出現了基準測試一方主動配合 AI 廠商刷榜的情況。此前在今年春季，Meta 的新一代開源模型 Llama 4 史詩級翻車，出現了跑分力壓群雄，實際表現卻一言難盡的情況。對此就有 AI 研究人員發現，Llama4 在發布前針對大模型競技場 Chatbot Arena 測試了 27 個不同版本，卻只公開了最佳成績。

由此不難發現，基準測試已經變得越來越難以衡量 AI 模型，特別是擁有目前最高水平的 "State-of-the-Art" 模型。因此谷歌就開發了 Kaggle Game Arena，搞了場 "AI 國際象棋棋王爭霸賽 " 來作為擂臺，讓各大廠商的旗艦模型有秀出上限的機會。

那么為何谷歌會選擇游戲來作為測試大模型能力的場景呢？按照他們的說法，游戲這種在既定規則下的隨機，非常適合衡量 AI 的智能，有明確的規則約束 AI，就使得它不會放飛自我，足夠強的隨機性又能讓其展現出能力上限。此外，游戲也具備結果可衡量、過程可視化、推理可驗證，以及零和博弈的特點。

事實上，游戲與 AI 業界有著密不可分的關系。以 OpenAI 為例，對于普通人而言，這個名字走入視野是因為劃時代的 ChatGPT，而對于《DOTA2》的玩家來說，OpenAI 在 2019 年就給他們留下了難以磨滅的印象。彼時，OpenAI 的 OpenAI Five 程序輕而易舉地擊敗了冠軍戰隊 OG，初步向外界證明了 AI 不僅征服了棋類對弈，在更復雜的電子競技游戲中也能壓倒人類。

根據前 OpenAI 首席科學家 Ilya Sutskever 與黃仁勛對話時的說法，通過為《DOTA2》開發 OpenAI Five，OpenAI 的訓練模式從 " 強化學習 " 轉變為了 " 基于人類反饋的強化學習（RLHF）"，而后者就正是 ChatGPT 表現出比以往 AI 產品更為智能的關鍵。

如果 AI 可以打好游戲，不僅可以證明智能水平，而且也有極高的商業化前景。要知道游戲廠商可是做夢都想要獲得更智能的 NPC，用來提升玩家體驗的。

【本文圖片來自網絡】

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

ai 人工智能 dota2

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

AI 跑分越來越沒意義，谷歌說不如讓 AI 一起玩游戲

宙世代

一起剪

相關閱讀

博士水平的GPT-5依然翻車 OpenAI奧特曼：AGI已失去意義

第四代WOLED屏震撼登場，技嘉MO27Q28G電競顯示器全球預售開啟

149元 小米無線鍵鼠套裝舒適版開售：全尺寸手托鍵盤、非對稱鼠標

價格倒掛！DDR4內存價格超越DDR5：瘋了 還要漲

上半年國內6000元以上手機銷量份額出爐：蘋果占2/3

視覺版碾壓某友商激光雷達 博主試華為ADS SE方案：直言很厲害

蘋果iPad稱霸Q2全球平板市場：出貨量1410萬臺 市占率36.1%

你每月要花多少錢 網傳騰訊視頻VIP將漲價至38元 客服否認

榮耀Magic V Flip2開始預熱：再攀小折疊品類的高峰

曝榮耀Power 2將配備10000mAh電池 還有天璣8500

榮耀副總裁李云鵬：AI手機不是無序疊加硬件，讓用戶付出額外成本

iPhone 17全系手機膜曝光：Air屏幕尺寸介于Pro和Pro Max之間

從創辦第一天就考慮全球化：創投熱議具身智能出海路徑

最新評論

三易生活

熱門推薦

熱門訂閱 換一批

星河商業觀察

149元小米無線鍵鼠套裝舒適版開售：全尺寸手托鍵盤、非對稱鼠標

價格倒掛！DDR4內存價格超越DDR5：瘋了還要漲

視覺版碾壓某友商激光雷達博主試華為ADS SE方案：直言很厲害

蘋果iPad稱霸Q2全球平板市場：出貨量1410萬臺市占率36.1%

你每月要花多少錢網傳騰訊視頻VIP將漲價至38元客服否認

曝榮耀Power 2將配備10000mAh電池還有天璣8500

熱門訂閱換一批