關于ZAKER 合作
      三易生活 昨天

      AI 跑分越來越沒意義,谷歌說不如讓 AI 一起玩游戲

      時隔八年,在生成式人工智能問世之后,谷歌又搞了一次 "AI 棋王爭霸賽 ",OpenAI o4-mini、DeepSeek-R1、谷歌 Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct 等中美兩國 AI 業界的頂流模型,將捉對廝殺。

      據谷歌方面介紹,此次比賽旨在通過策略游戲中的正面交鋒,評估并推動 AI 模型在復雜推理和決策能力上的進步,從而解決現有基準測試難以跟上模型發展速度的問題。同時他們此次賽事也是為了宣傳自己的 Kaggle Game Arena 平臺,而后者則是谷歌推出的一個全新的、公開的基準測試平臺。

      與目前常規的 AI 基準測試不同,Kaggle Game Arena 的測試題目是 " 策略游戲 "。谷歌之所以推出一個讓 AI 玩游戲的平臺,是因為當下傳統的 AI 基準測試已經陷入瓶頸,難以反映旗艦模型的真實能力。簡單來說,或為名、或為利的 AI 廠商,已經將各種 AI 基準測試給玩壞了,所以作為業界巨頭,谷歌選擇站出來正本清源。

      其實在這一輪 AI 浪潮中," 錢不值錢了 " 是一個很特別的現象。以往獨角獸通常指的是成立時間較短,估值超過 10 億美元、且未上市的科技創新企業。可現在只要創始人有一定的技術背景,一家 AI 初創企業拿到 10 億美元的估值幾乎像吃飯喝水一樣簡單。

      甚至出現了 Builder.ai 這種宣稱人工智能編程,實際上全靠印度程序員手寫代碼的騙子公司。對于這一現象,金融業給出的答案是他們對 AI 革命可能會帶來的機遇 " 錯失恐懼 "(FOMO),并促使其揮舞著鈔票投向一切像模像樣的 AI 公司,因此也造就了圍繞 AI 的非理性繁榮。

      如此一來,創業者利用彌漫在投資市場的 AI FOMO 情緒推高公司估值也在情理之中。那么,要如何讓自己的 AI 初創公司變得更有價值呢?由于當下的 AI 技術實在過于高深,投資者們判斷一家 AI 公司實力的方法很簡單,跑分高的就是好標的。

      " 不服跑個分 " 順勢也就成為了一眾 AI 企業宣傳自己產品的核心手段,如果有經常關注 AI 相關消息,想必就會對 LMArena 基準測試、大模型競技場 Chatbot Arena 等榜單不陌生。當跑分成績與融資捆綁在一起,一個讓數碼愛好者、手游玩家熟悉的操作也開始浮出水面,那就是 " 刷榜 "。

      目前市面上評測大模型能力的基準測試可謂五花八門,主要包括知識推理、數學和編程。以知名 AI 開源社區 HuggingFace 出品的榜單為例,其主要是評測大模型遵循指令的能力,以及 AI 模型在長文本中進行多步驟推理能力等方面。

      與 PC 上的 3DMark、手機上的安兔兔一樣,AI 基準測試也是通過設定一系列客觀且可復現的場景,來測試 AI 模型在不同領域的能力。然而為了可復現和一致性,AI 基準測試自然就會缺乏靈活性,所以也就有了 " 刷榜 " 的空間。AI 模型通過自身的記憶能力在一次次測試中記下基準測試數據集中的題目,然后再針對性的進行訓練,最終就可以跑出高分。

      例如在 GSM8K、MATH 等測試 AI 模型數學能力的測試集中,GPT-4o、Gemini 1.5 Pro 等模型動輒就能獲得 80% 以上的超高正確率,甚至還出現了基準測試一方主動配合 AI 廠商刷榜的情況。此前在今年春季,Meta 的新一代開源模型 Llama 4 史詩級翻車,出現了跑分力壓群雄,實際表現卻一言難盡的情況。對此就有 AI 研究人員發現,Llama4 在發布前針對大模型競技場 Chatbot Arena 測試了 27 個不同版本,卻只公開了最佳成績。

      由此不難發現,基準測試已經變得越來越難以衡量 AI 模型,特別是擁有目前最高水平的 "State-of-the-Art" 模型。因此谷歌就開發了 Kaggle Game Arena,搞了場 "AI 國際象棋棋王爭霸賽 " 來作為擂臺,讓各大廠商的旗艦模型有秀出上限的機會。

      那么為何谷歌會選擇游戲來作為測試大模型能力的場景呢?按照他們的說法,游戲這種在既定規則下的隨機,非常適合衡量 AI 的智能,有明確的規則約束 AI,就使得它不會放飛自我,足夠強的隨機性又能讓其展現出能力上限。此外,游戲也具備結果可衡量、過程可視化、推理可驗證,以及零和博弈的特點。

      事實上,游戲與 AI 業界有著密不可分的關系。以 OpenAI 為例,對于普通人而言,這個名字走入視野是因為劃時代的 ChatGPT,而對于《DOTA2》的玩家來說,OpenAI 在 2019 年就給他們留下了難以磨滅的印象。彼時,OpenAI 的 OpenAI Five 程序輕而易舉地擊敗了冠軍戰隊 OG,初步向外界證明了 AI 不僅征服了棋類對弈,在更復雜的電子競技游戲中也能壓倒人類。

      根據前 OpenAI 首席科學家 Ilya Sutskever 與黃仁勛對話時的說法,通過為《DOTA2》開發 OpenAI Five,OpenAI 的訓練模式從 " 強化學習 " 轉變為了 " 基于人類反饋的強化學習(RLHF)",而后者就正是 ChatGPT 表現出比以往 AI 產品更為智能的關鍵。

      如果 AI 可以打好游戲,不僅可以證明智能水平,而且也有極高的商業化前景。要知道游戲廠商可是做夢都想要獲得更智能的 NPC,用來提升玩家體驗的。

      【本文圖片來自網絡】

      相關標簽
      主站蜘蛛池模板: 久久久久人妻一区二区三区vr| 国产一区三区二区中文在线| 亚洲码一区二区三区| 日本一区二三区好的精华液| 97精品国产福利一区二区三区| 学生妹亚洲一区二区| 亚洲啪啪综合AV一区| 久久婷婷色综合一区二区| 中文字幕无线码一区二区| 国产激情一区二区三区小说 | 日本伊人精品一区二区三区| 波多野结衣一区二区三区高清av | 亚洲欧洲精品一区二区三区| 亚洲AV无码一区二三区| 波多野结衣在线观看一区 | 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲综合在线成人一区| 国产麻豆精品一区二区三区v视界| 一区二区免费国产在线观看| 国产成人精品无人区一区| 在线观看一区二区三区视频| 日本免费一区二区三区最新vr| 国产午夜一区二区在线观看| 久久精品日韩一区国产二区| 伊人色综合一区二区三区影院视频 | 亚洲乱码一区二区三区国产精品 | 日韩精品一区二区三区影院| 麻豆视传媒一区二区三区| 欧美日本精品一区二区三区| 天堂Av无码Av一区二区三区| 好爽毛片一区二区三区四无码三飞| 国产一区二区成人| 无码日本电影一区二区网站 | 亚拍精品一区二区三区| 精品国产亚洲一区二区三区在线观看 | 中文字幕人妻AV一区二区| 亚洲av乱码中文一区二区三区| 国产乱码精品一区二区三区 | 亚洲一区AV无码少妇电影| 亚洲国产精品一区二区三区在线观看 | 少妇一夜三次一区二区|