關于ZAKER 合作
      鈦媒體 12小時前

      GPT-5 為什么沒有帶來更多驚喜?

      文 | 山上,作者 | 何簡,編輯 | 蔣澆

      GPT-4 發布兩年半之后,OpenAI 終于發布了旗下最新模型 GPT-5。行業早已為此等待多時,山姆 · 阿爾特曼(Sam Altman)也持續半年對外預告,吊足公眾胃口。但這款旗艦模型上新之初收到的反饋卻不盡如人意。

      GPT-4 發布時,同行們尚需花費半年乃至更長時間才能追趕上 OpenAI。但 GPT-5 沒有與主流模型拉開顯著差距。它的部分性能指標甚至有所落后,在一些基準測試中落后馬斯克的 Grok 4 以及剛剛發布的 Claude Opus 4.1,上下文長度也不及 Google 的 Gemini 2.5 Pro。

      普通用戶對 GPT-5 的不滿聲音更強烈一些,他們并沒有感受到太多 GPT-5 相較于 GPT-4o 的性能升級,反而更加懷念熟悉的 GPT-4o。OpenAI 原本下架了舊模型,但在遭到用戶的強烈反對之后,OpenAI 不得不為 Plus 用戶重新上架了 GPT-4o 模型。

      我們或許不得不面臨一個這樣的事實,即便強如 OpenAI,也不得不面臨 Scaling laws(縮放定律)的局限。模型規模的持續擴張已經不再像過去那樣帶來成比例的性能躍遷,迭代周期難免放緩。

      從 GPT-4 到 GPT-5 間隔了 29 個月,但這一次沒有出現 GPT-3 到 GPT-4 時的那種跨越式提升。過去一年,OpenAI 維持著平均兩個月發布一款細分模型的節奏,用令人眼花繚亂的型號填補模型代際更新的真空期,強調推理的 o 系列、更小的 mini 型號、更強性能的 Pro 版本。

      和最新發布的 GPT-5 強調可靠性和易用性一樣,這些更新都是在性能增長變得越來越昂貴和稀缺背景下的工程創新。它當然變得更好用、更可靠,但也越來越缺少驚喜了。

      好在用戶也并不總是需要這么強勁的模型。事實上更多普通用戶使用大模型僅僅只是完成一些基礎的問答,或者僅僅將大模型作為一個情感伙伴。

      ChatGPT 是有史以來用戶數破億最快的應用,現在它的周活躍用戶已經達到 7 億,全球有接近 1/10 的人口都是 ChatGPT 的用戶,但更多用戶只是使用免費的基礎模型。根據 The Information 今年 4 月的報道,ChatGPT 的付費訂閱用戶約為 2000 萬。

      GPT-5 目前已經開放給所有用戶使用。打開 ChatGPT,更明顯的感知是對話界面變得多彩了,用戶現在可以自定義對話氣泡顏色——但紫色僅限 Plus 用戶使用,Pro 用戶能使用更尊貴的黑色。總是靠模型能力區分用戶等級的 OpenAI,終于也學到了 QQ 會員的精髓。

      ChatGPT 加入自定義色彩功能

      OpenAI 沒有公布 GPT-5 的參數規模。山姆 · 阿爾特曼在發布會后接受 CNBC 采訪時表示,他們未來仍將會優先考慮在訓練和算力上的投入,并甘愿為此承受較長時間的虧損。

      性能未拉開顯著差距,但仍是最全面的模型

      馬斯克可能是 GPT-5 發布會召開時最興奮的那個人。發布會還沒結束,他就早早地在 X 上宣告 Grok-4 的勝利。

      在 Humanity ’ s Last Exam 測試中,GPT-5 Pro 在啟用工具后的準確率為 42.0%,略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基準測試中,Grok-4(Thinking)的成績為 16.0%,而 GPT-5(High)的得分只有 9.9%。

      馬斯克專門在 X 上將二者的測試結果對比置頂," 一句話:兩周前的 Grok 4 Heavy 比現在的 GPT-5 更聰明。" 他隨后發出預告,年底發布的 Grok 5 將更加強大。

      xAI 聯合創始人吳宇懷同樣在 X 上表示,GPT-5 發布之后,xAI 團隊感到非常自豪。" 盡管團隊規模小的多,但我們在許多方面都處于領先地位。" 他稱 xAI 將在未來幾周發布更多新模型。

      吳宇懷在 X 上的發言

      比 GPT-5 早發布 2 天的 Claude Opus 4.1 也在部分測試中超越 GPT-5。在 SWE-bench Verified 測試中,啟用了深度思考模式的 GPT-5 得分為 74.9%,僅僅只比 Claude Opus 4.1 領先 0.4% ——這還是在 Claude Opus 4.1 未啟用深度思考的得分。

      同樣未啟用深度思考,GPT-5 得分比 Claude Opus 4.1 低了接近 30%。或許是照顧到前司的面子,Anthropic 創始人達里奧 · 阿莫迪(Dario Amodei)未像馬斯克那樣對外強調這一領先。

      Anthropic 在產品文檔中稱 SWE-bench Verified 測試未開啟深度思考

      與性能有限的升級相比,GPT-5 的成本下降更為突出。GPT-5 的輸入成本僅為 1.25 美元 / 百萬 tokens,較 GPT-4o 下降約一半,nano 版本甚至低至 0.05 美元 / 百萬 tokens。

      與之相比,Claude Opus 4.1 的輸入價格高達 15 美元 / 百萬 tokens,Gork 4 為 3 美元 / 百萬 tokens。即便其他模型在部分測試場景下有一定領先,但 GPT-5 仍然是目前你能在市面上找到的性價比最高、能力最全面的模型之一。

      在中立評測平臺 LMArena 的最新 " 競技場 " 榜單中,GPT-5 依然位列所有測評項目第一,包括文本理解、編程、視覺等類別。"GPT-5 以史上最高分登上 LMArena 榜首。" LMArena 形容稱。

      LMArena 榜單

      OpenAI 在發布會上也明顯更重視行業落地應用。發布會開場的性能介紹一筆帶過,更多的時間留給了 GPT-5 在編程、寫作和醫療等特定行業的升級,這也是人們使用 ChatGPT 最核心的三個場景。

      尤其是編程領域,接近一個半小時的發布會中至少有一半時間都是關于編程。"GPT-5 是世界上最優秀的編程模型。" OpenAI 總裁格雷格布羅克曼 (Reg Brockman)說。

      他們不僅邀請了 AI 編程創業公司 Cursor 的創始人兼 CEO 邁克爾特魯埃爾(Michael Truell )專門上臺演示,還在官網中列舉了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 領域公司高管的測試評價和贊賞。在 OpenAI 過去的產品更新中,這種做法并不常見。

      GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。發布會尚未結束,微軟 CEO 薩提亞 · 納德拉就宣布微軟旗下多款產品已接入 GPT-5,包括 Cursor、Manus、Notion 在內的多加公司也都宣布完成集成。

      更可靠、更易用

      山姆 · 阿爾特曼在 GPT-5 發布后強調,GPT-5 是他們迄今開發的最智能的模型,但他們核心追求的是現實世界的實用性、大規模的可訪問性 / 可負擔性。

      按照 OpenAI 官網的定義,GPT-5 是一個更加智能、同時應用更廣泛的模型。"GPT-5 不僅在基準測試中超越前代模型、響應速度更快,更重要的是對現實場景的提問更具實用價值。" 他們著重介紹了 GPT-5 在減少幻覺、提升指令遵循能力和降低模型諂媚性方面的進展。

      比如在啟用網絡搜索的情況下,GPT-5 出現事實錯誤的概率比 GPT-4o 降低了近一半。深度思考模式下,GPT-5 的事實錯誤率比 o3 低了約 80%。GPT-5 也會 " 更誠實 " 地面對用戶。它能更準確地識別無法完成的任務,誠實地表達自己的能力局限。

      GPT-5 與 o3、GPT-4o 模型對比

      你或許遇到過不少推理模型一本正經扯謊的情況,尤其是 DeepSeek-R1 ——它現在是國內應用最廣泛的推理模型,但它同時也是幻覺程度最高的模型之一。過去半年 DeepSeek 風格的 AI 虛假文章幾乎已經席卷了整個中文互聯網,甚至不少專業媒體未能幸免。

      比如前段時間的 " 特朗普愛上白宮保潔 " 短劇狂攬 1.5 億美元的虛假文章,又或者香港浸會大學取消武大學生博士錄取資格的虛假消息。這些 AI 虛假新聞都曾被大量國內媒體轉發報道。

      部分原因在于過去大模型更多依賴單一的獎懲式訓練(RLHF),在面對信息不足或無解問題時,這種機制容易讓模型傾向于迎合用戶預期,給出虛假內容。

      而 OpenAI 在 GPT-5 中加入了更精細的多維度優化機制,比如增加了多目標獎勵信號,即便模型無法得出答案,也會因為明確表達不確定性而獲得正向反饋。又或者在推理過程中加入思維鏈(CoT)監控,實時識別并糾正虛構或邏輯漏洞。

      OpenAI 還為 GPT-5 加入了一種新的安全補全機制(Safe completions),模型在面臨危險問題是不再是干脆地回答或者拒絕。比如當你想了解了解制作炸藥,GPT-4o 要么拒絕回答要么給你詳細步驟,而 GPT-5 則會告知出于安全它無法提供具體步驟,但它可以向你介紹 TNT 的歷史、化學性質、工業用途。

      和此前總是無腦選擇諂媚用戶的模型相比,GPT-5 也更中立一些,減少了過度迎合的傾向,更少使用表情符號,表達也更為含蓄和深思熟慮。" 它給人的感覺更像是與一位有著博士智商的貼心朋友聊天,而不是與 AI 對話。"OpenAI 在產品文檔中形容。但這一定程度上引發了習慣此前模型用戶的不滿,OpenAI 為 GPT-5 加入了 4 種自定義風格的調整,并承諾此后將加入更多個性化的調整。

      簡而言之,這些更新都是圍繞著模型的可靠性和易用性上做文章,讓用戶可以更放心地將 AI 引入到自己的工作流程中。OpenAI 的研究員 Christina Kim 在 X 上說,雖然 GPT-5 的性能達到業界頂尖水平,但它真正的價值在于實用性。" 它經過更好的校準,會說‘我不知道’,能夠區分事實與猜測,并且在你需要時可以提供引用來源來支持答案。"

      對于更多用戶而言,GPT-5 更重要的升級是他們可以免費使用 ChatGPT 的推理能力。GPT-5 的成本更低、準確率更高且速度更快,免費開放給所有用戶,訂閱用戶享有更高額度。這種普惠策略或許也限制了性能,OpenAI 原本計劃推出支持 100 萬上下文的版本,但最終因算力成本限制而放棄。

      " 我們可以推出聰明得多的模型(我們也會這么做),但這次的模型可以讓超過十億人受益。" 山姆 · 阿爾特曼說," 世界上的大多數人可能只是用過類似于 GPT-4o 的模型。"" 對于大多數 ChatGPT 用戶來說,這是他們首次接觸推理能力。"OpenAI 副總裁尼克 · 特利(Nick Turley)說。

      山姆在 X 上的發言

      只是,在如此強調模型準確率的發布會上,OpenAI 的多個圖表卻出現了低級錯誤。比如在對比 GPT-5 思考模式和 o3 的 " 代碼欺騙率 " 圖表上, 50% 柱狀圖長度卻不到 47.4% 的柱狀圖的一半。山姆后來解釋稱,數據本身是準確的,只是直播時搞錯了圖表," 工作人員熬夜加班非常疲憊,人為失誤在所難免。直播前最后幾小時需要協調太多環節了。"

      OpenAI 發布會中的多個圖表錯誤

      為什么普通用戶更喜愛舊模型?

      專業開發者尤其是軟件從業人員對 GPT-5充滿了贊揚,多數普通用戶對這款旗艦模型的更新卻滿是怨言。

      和此前 OpenAI 通過多個不同模型提供服務不同,GPT-5 采用了統一模型策略,模型可在后臺自主判斷是否調用深度思考模式、自主選擇不同體量的模型回答。" 它旨在通過恰到好處的思考,為你提供完美答案。"OpenAI 的研究員在發布會中介紹。

      但這一設計上線之初就出了問題,GPT-5 在多數場景下的反應和回答都不如舊模型。山姆 · 阿爾特曼隨后解釋說,自動切換器(Autoswitcher)因為故障停擺了大半天,導致系統無法按需調用更高性能的推理模式。他稱故障已經修復,并承諾將會對模型切換進行調整和干預,讓用戶更方便地獲得正確的模型。

      但《山上》實測對比當前 GPT-5 以及 GPT-4o 模型,發現在部分簡單問題下 GPT-5 表現仍然不如 GPT-4o。比如詢問它 GPT-5 有哪幾個版本,GPT-5 無法給出準確回答。社交平臺上也有大量用戶在山姆表示故障修復后,強調 GPT-5 回答質量不如 GPT-4o。

      GPT-5 與 GPT-4o 回答對比(上圖為 GPT-5,下圖為 GPT-4o)

      OpenAI 統一模型的初衷是為了減輕用戶的選擇煩惱。GPT-4 時代以來,OpenAI 一改此前只發布一款通用模型的做法,開始針對特定場景發布更多專業模型。產品命名上也有些混亂,推理模型從 OpenAI o1 到 o3,GPT-4 Turbo 之后卻是代表多模態的 GPT-4o。GPT-5 更新前,ChatGPT 上可供選擇的模型多達 5 款之多,客觀上確實增加了用戶的理解成本。

      OpenAI 主要模型發布時間表 /GPT-5 制圖

      " 這是第一次用戶無需在不同模型間做選擇,甚至不用考慮模型名稱。"OpenAI 的研究員 Elaine Ya Le 說,她在發布會中介紹了 GPT-5 的模型自主切換功能,是這一功能的團隊負責人。

      只是,多數普通用戶可能仍然沒辦法接受 OpenAI 統一模型的做法。GPT-5 目前已成為 ChatGPT 的默認模型,但用戶無法在前端判斷 ChatGPT 調用的到底是 GPT-5 標準版還是 mini 版本。和此前多個模型供用戶選擇相比,GPT-5 統一模型后用戶實際可使用限額也降低了,尤其是取消了 mini 模型的推理模式。

      OpenAI 后續稱他們將為用戶開發 GPT-5 mini 的思考模式,以實現相同的總體推理限額。面向 Plus 用戶,GPT-5 最大只能支持 32k 的上下文長度也引發不少吐槽,Gemini、Claude 在相同價格下都支持更長的上下文長度。

      X 平臺上針對 GPT-5 上下文窗口長度的吐槽

      山姆不得不連發兩條推文安撫用戶,承諾將更清晰地向用戶展示哪個模型在回答問題、更便捷地切換深度思考以及將 Plus 用戶使用限額提高一倍至 160 條——但 OpenAI 在官網表示,這只是臨時性額度提升,近期將恢復至原有限額。

      GPT-5 使用限額

      這些都還只是工程上的優化,通過一定時間迭代就能解決。OpenAI 另一個沒有預料到的問題可能是部分用戶對舊版模型的情感依賴。即便 GPT-5 的能力更強,但更多普通用戶仍然更習慣使用舊版模型。Reddit 平臺上的 ChatGPT 板塊中,有大量用戶分享他們對舊版模型的偏愛,他們甚至不在意模型能力是否升級," 只要還是 4o 我就愿意一直付費。"

      Reddit 社區內用戶對舊模型的喜愛

      發布會次日,山姆 · 阿爾特曼帶著 OpenAI 團隊在 Reddit 平臺上舉辦了一次問答活動,排名第一的提問就是要求 OpenAI 恢復 GPT-4o 及其他舊版模型," 用戶有不同的使用習慣!"

      山姆 · 阿爾特曼回復稱,他們已經聽到了用戶的反饋,將會為 Plus 用戶重新開放這一功能。山姆此后在 X 上說,他們低估了用戶對于 GPT-4o 的喜愛程度。目前,OpenAI 已經為 Plus 用戶恢復了 GPT-4o 模型的使用權限,付費用戶可在 ChatGPT 網頁版啟用舊版模型。但山姆補充稱他們會視情況考慮保留舊模型的時長。

      OpenAI 已為 Plus 用戶恢復 GPT-4o 模型

      " 你沒有從根本上理解為什么大家珍視它們。" 一位 ChatGPT 用戶在山姆的帖子下留言說。" 不同模型不僅在準確度和速度上有差異,它們同時擁有各自獨特的性格、思維和互動方式以及獨特的‘感覺’。將它們視為需要逐步淘汰的東西,實際上是在把它們當作過時的工具來對待,而對我們許多人來說,它們更像是獨特的合作伙伴。"

      山姆推文下的用戶評論

      這可能是即便山姆一直強調 GPT-5 要比舊模型優秀得多,但用戶仍然不買賬的原因之一。人們并不總是需要性能最強的模型,但人們對于習慣以及情感的依賴要強得多,即便和他們對話的只是一個 AI。

      OpenAI 或許從未真正意識到這一點,否則他們也不會在發布會上安排 GPT-5 為 GPT-4o 以及舊版模型寫悼詞,目的還是為了展現 GPT-5 的性能優越。在后續官網的產品更新文檔中,OpenAI 沒有再展示這一場景,轉而讓 GPT-5 創作詩歌。

      尤其是在前文所訴的種種減少幻覺、諂媚以及安全補全機制的更新下,GPT-5 的個性更加平淡了,它不會使用聊天表情,回答也更謹慎和含蓄,讓習慣了 4o 的用戶們感到陌生。

      " 它不能就這樣從列表中刪除然后被抹去,就好像從未存在過一樣。" 一位 ChatGPT 用戶在 Reddit 上說。

      相關標簽

      覺得文章不錯,微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內容
      主站蜘蛛池模板: 日本精品啪啪一区二区三区| 日韩精品无码一区二区三区四区| 久久无码人妻一区二区三区午夜| 无码精品前田一区二区| 一区二区三区视频网站| 国产精品亚洲不卡一区二区三区| 丰满爆乳一区二区三区| 中文字幕av人妻少妇一区二区 | 熟女大屁股白浆一区二区| 国产一区二区免费| 亚洲一区二区三区高清在线观看 | 美女福利视频一区二区| 国产一区二区三区精品视频| 伦精品一区二区三区视频| 亚洲一区AV无码少妇电影☆| 风间由美性色一区二区三区| 免费无码毛片一区二区APP| 91在线视频一区| 天堂Av无码Av一区二区三区| 国产精品日韩欧美一区二区三区| 日韩精品无码一区二区三区不卡 | 亚洲AV无码一区二区三区在线 | av无码精品一区二区三区四区 | 久久久久人妻一区二区三区| 日韩人妻无码一区二区三区99| 性色av一区二区三区夜夜嗨| 中文字幕一区二区人妻性色 | 亚洲国模精品一区| 亚洲一区二区三区无码影院| 国产产一区二区三区久久毛片国语| 亚洲日本乱码一区二区在线二产线| 亚洲日本一区二区三区在线| 韩国美女vip福利一区| 无码人妻精一区二区三区| 麻豆国产一区二区在线观看| 精品国产一区二区三区www| 无码一区二区三区| 国产一区麻豆剧传媒果冻精品| 无码人妻一区二区三区免费n鬼沢 无码人妻一区二区三区免费看 | 国产亚洲综合一区二区三区| 天天爽夜夜爽人人爽一区二区|