時隔八年,在生成式人工智能問世之后,谷歌又搞了一次 "AI 棋王爭霸賽 ",OpenAI o4-mini、DeepSeek-R1、谷歌 Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct 等中美兩國 AI 業界的頂流模型,將捉對廝殺。
據谷歌方面介紹,此次比賽旨在通過策略游戲中的正面交鋒,評估并推動 AI 模型在復雜推理和決策能力上的進步,從而解決現有基準測試難以跟上模型發展速度的問題。同時他們此次賽事也是為了宣傳自己的 Kaggle Game Arena 平臺,而后者則是谷歌推出的一個全新的、公開的基準測試平臺。
其實在這一輪 AI 浪潮中," 錢不值錢了 " 是一個很特別的現象。以往獨角獸通常指的是成立時間較短,估值超過 10 億美元、且未上市的科技創新企業。可現在只要創始人有一定的技術背景,一家 AI 初創企業拿到 10 億美元的估值幾乎像吃飯喝水一樣簡單。
甚至出現了 Builder.ai 這種宣稱人工智能編程,實際上全靠印度程序員手寫代碼的騙子公司。對于這一現象,金融業給出的答案是他們對 AI 革命可能會帶來的機遇 " 錯失恐懼 "(FOMO),并促使其揮舞著鈔票投向一切像模像樣的 AI 公司,因此也造就了圍繞 AI 的非理性繁榮。
" 不服跑個分 " 順勢也就成為了一眾 AI 企業宣傳自己產品的核心手段,如果有經常關注 AI 相關消息,想必就會對 LMArena 基準測試、大模型競技場 Chatbot Arena 等榜單不陌生。當跑分成績與融資捆綁在一起,一個讓數碼愛好者、手游玩家熟悉的操作也開始浮出水面,那就是 " 刷榜 "。
與 PC 上的 3DMark、手機上的安兔兔一樣,AI 基準測試也是通過設定一系列客觀且可復現的場景,來測試 AI 模型在不同領域的能力。然而為了可復現和一致性,AI 基準測試自然就會缺乏靈活性,所以也就有了 " 刷榜 " 的空間。AI 模型通過自身的記憶能力在一次次測試中記下基準測試數據集中的題目,然后再針對性的進行訓練,最終就可以跑出高分。
由此不難發現,基準測試已經變得越來越難以衡量 AI 模型,特別是擁有目前最高水平的 "State-of-the-Art" 模型。因此谷歌就開發了 Kaggle Game Arena,搞了場 "AI 國際象棋棋王爭霸賽 " 來作為擂臺,讓各大廠商的旗艦模型有秀出上限的機會。
事實上,游戲與 AI 業界有著密不可分的關系。以 OpenAI 為例,對于普通人而言,這個名字走入視野是因為劃時代的 ChatGPT,而對于《DOTA2》的玩家來說,OpenAI 在 2019 年就給他們留下了難以磨滅的印象。彼時,OpenAI 的 OpenAI Five 程序輕而易舉地擊敗了冠軍戰隊 OG,初步向外界證明了 AI 不僅征服了棋類對弈,在更復雜的電子競技游戲中也能壓倒人類。
如果 AI 可以打好游戲,不僅可以證明智能水平,而且也有極高的商業化前景。要知道游戲廠商可是做夢都想要獲得更智能的 NPC,用來提升玩家體驗的。
【本文圖片來自網絡】