国产亚洲久久,亚欧中文字幕,久久性综合亚洲精品电影网

文 | 山上，作者 | 何簡，編輯 | 蔣澆

GPT-4 發布兩年半之后，OpenAI 終于發布了旗下最新模型 GPT-5。行業早已為此等待多時，山姆 · 阿爾特曼（Sam Altman）也持續半年對外預告，吊足公眾胃口。但這款旗艦模型上新之初收到的反饋卻不盡如人意。

GPT-4 發布時，同行們尚需花費半年乃至更長時間才能追趕上 OpenAI。但 GPT-5 沒有與主流模型拉開顯著差距。它的部分性能指標甚至有所落后，在一些基準測試中落后馬斯克的 Grok 4 以及剛剛發布的 Claude Opus 4.1，上下文長度也不及 Google 的 Gemini 2.5 Pro。

普通用戶對 GPT-5 的不滿聲音更強烈一些，他們并沒有感受到太多 GPT-5 相較于 GPT-4o 的性能升級，反而更加懷念熟悉的 GPT-4o。OpenAI 原本下架了舊模型，但在遭到用戶的強烈反對之后，OpenAI 不得不為 Plus 用戶重新上架了 GPT-4o 模型。

我們或許不得不面臨一個這樣的事實，即便強如 OpenAI，也不得不面臨 Scaling laws（縮放定律）的局限。模型規模的持續擴張已經不再像過去那樣帶來成比例的性能躍遷，迭代周期難免放緩。

從 GPT-4 到 GPT-5 間隔了 29 個月，但這一次沒有出現 GPT-3 到 GPT-4 時的那種跨越式提升。過去一年，OpenAI 維持著平均兩個月發布一款細分模型的節奏，用令人眼花繚亂的型號填補模型代際更新的真空期，強調推理的 o 系列、更小的 mini 型號、更強性能的 Pro 版本。

和最新發布的 GPT-5 強調可靠性和易用性一樣，這些更新都是在性能增長變得越來越昂貴和稀缺背景下的工程創新。它當然變得更好用、更可靠，但也越來越缺少驚喜了。

好在用戶也并不總是需要這么強勁的模型。事實上更多普通用戶使用大模型僅僅只是完成一些基礎的問答，或者僅僅將大模型作為一個情感伙伴。

ChatGPT 是有史以來用戶數破億最快的應用，現在它的周活躍用戶已經達到 7 億，全球有接近 1/10 的人口都是 ChatGPT 的用戶，但更多用戶只是使用免費的基礎模型。根據 The Information 今年 4 月的報道，ChatGPT 的付費訂閱用戶約為 2000 萬。

GPT-5 目前已經開放給所有用戶使用。打開 ChatGPT，更明顯的感知是對話界面變得多彩了，用戶現在可以自定義對話氣泡顏色——但紫色僅限 Plus 用戶使用，Pro 用戶能使用更尊貴的黑色。總是靠模型能力區分用戶等級的 OpenAI，終于也學到了 QQ 會員的精髓。

ChatGPT 加入自定義色彩功能

OpenAI 沒有公布 GPT-5 的參數規模。山姆 · 阿爾特曼在發布會后接受 CNBC 采訪時表示，他們未來仍將會優先考慮在訓練和算力上的投入，并甘愿為此承受較長時間的虧損。

性能未拉開顯著差距，但仍是最全面的模型

馬斯克可能是 GPT-5 發布會召開時最興奮的那個人。發布會還沒結束，他就早早地在 X 上宣告 Grok-4 的勝利。

在 Humanity ’ s Last Exam 測試中，GPT-5 Pro 在啟用工具后的準確率為 42.0%，略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基準測試中，Grok-4（Thinking）的成績為 16.0%，而 GPT-5（High）的得分只有 9.9%。

馬斯克專門在 X 上將二者的測試結果對比置頂，" 一句話：兩周前的 Grok 4 Heavy 比現在的 GPT-5 更聰明。" 他隨后發出預告，年底發布的 Grok 5 將更加強大。

xAI 聯合創始人吳宇懷同樣在 X 上表示，GPT-5 發布之后，xAI 團隊感到非常自豪。" 盡管團隊規模小的多，但我們在許多方面都處于領先地位。" 他稱 xAI 將在未來幾周發布更多新模型。

吳宇懷在 X 上的發言

比 GPT-5 早發布 2 天的 Claude Opus 4.1 也在部分測試中超越 GPT-5。在 SWE-bench Verified 測試中，啟用了深度思考模式的 GPT-5 得分為 74.9%，僅僅只比 Claude Opus 4.1 領先 0.4% ——這還是在 Claude Opus 4.1 未啟用深度思考的得分。

同樣未啟用深度思考，GPT-5 得分比 Claude Opus 4.1 低了接近 30%。或許是照顧到前司的面子，Anthropic 創始人達里奧 · 阿莫迪（Dario Amodei）未像馬斯克那樣對外強調這一領先。

Anthropic 在產品文檔中稱 SWE-bench Verified 測試未開啟深度思考

與性能有限的升級相比，GPT-5 的成本下降更為突出。GPT-5 的輸入成本僅為 1.25 美元 / 百萬 tokens，較 GPT-4o 下降約一半，nano 版本甚至低至 0.05 美元 / 百萬 tokens。

與之相比，Claude Opus 4.1 的輸入價格高達 15 美元 / 百萬 tokens，Gork 4 為 3 美元 / 百萬 tokens。即便其他模型在部分測試場景下有一定領先，但 GPT-5 仍然是目前你能在市面上找到的性價比最高、能力最全面的模型之一。

在中立評測平臺 LMArena 的最新 " 競技場 " 榜單中，GPT-5 依然位列所有測評項目第一，包括文本理解、編程、視覺等類別。"GPT-5 以史上最高分登上 LMArena 榜首。" LMArena 形容稱。

LMArena 榜單

OpenAI 在發布會上也明顯更重視行業落地應用。發布會開場的性能介紹一筆帶過，更多的時間留給了 GPT-5 在編程、寫作和醫療等特定行業的升級，這也是人們使用 ChatGPT 最核心的三個場景。

尤其是編程領域，接近一個半小時的發布會中至少有一半時間都是關于編程。"GPT-5 是世界上最優秀的編程模型。" OpenAI 總裁格雷格布羅克曼（Reg Brockman）說。

他們不僅邀請了 AI 編程創業公司 Cursor 的創始人兼 CEO 邁克爾特魯埃爾（Michael Truell ）專門上臺演示，還在官網中列舉了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 領域公司高管的測試評價和贊賞。在 OpenAI 過去的產品更新中，這種做法并不常見。

GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。發布會尚未結束，微軟 CEO 薩提亞 · 納德拉就宣布微軟旗下多款產品已接入 GPT-5，包括 Cursor、Manus、Notion 在內的多加公司也都宣布完成集成。

更可靠、更易用

山姆 · 阿爾特曼在 GPT-5 發布后強調，GPT-5 是他們迄今開發的最智能的模型，但他們核心追求的是現實世界的實用性、大規模的可訪問性 / 可負擔性。

按照 OpenAI 官網的定義，GPT-5 是一個更加智能、同時應用更廣泛的模型。"GPT-5 不僅在基準測試中超越前代模型、響應速度更快，更重要的是對現實場景的提問更具實用價值。" 他們著重介紹了 GPT-5 在減少幻覺、提升指令遵循能力和降低模型諂媚性方面的進展。

比如在啟用網絡搜索的情況下，GPT-5 出現事實錯誤的概率比 GPT-4o 降低了近一半。深度思考模式下，GPT-5 的事實錯誤率比 o3 低了約 80%。GPT-5 也會 " 更誠實 " 地面對用戶。它能更準確地識別無法完成的任務，誠實地表達自己的能力局限。

GPT-5 與 o3、GPT-4o 模型對比

你或許遇到過不少推理模型一本正經扯謊的情況，尤其是 DeepSeek-R1 ——它現在是國內應用最廣泛的推理模型，但它同時也是幻覺程度最高的模型之一。過去半年 DeepSeek 風格的 AI 虛假文章幾乎已經席卷了整個中文互聯網，甚至不少專業媒體未能幸免。

比如前段時間的 " 特朗普愛上白宮保潔 " 短劇狂攬 1.5 億美元的虛假文章，又或者香港浸會大學取消武大學生博士錄取資格的虛假消息。這些 AI 虛假新聞都曾被大量國內媒體轉發報道。

部分原因在于過去大模型更多依賴單一的獎懲式訓練（RLHF），在面對信息不足或無解問題時，這種機制容易讓模型傾向于迎合用戶預期，給出虛假內容。

而 OpenAI 在 GPT-5 中加入了更精細的多維度優化機制，比如增加了多目標獎勵信號，即便模型無法得出答案，也會因為明確表達不確定性而獲得正向反饋。又或者在推理過程中加入思維鏈（CoT）監控，實時識別并糾正虛構或邏輯漏洞。

OpenAI 還為 GPT-5 加入了一種新的安全補全機制（Safe completions），模型在面臨危險問題是不再是干脆地回答或者拒絕。比如當你想了解了解制作炸藥，GPT-4o 要么拒絕回答要么給你詳細步驟，而 GPT-5 則會告知出于安全它無法提供具體步驟，但它可以向你介紹 TNT 的歷史、化學性質、工業用途。

和此前總是無腦選擇諂媚用戶的模型相比，GPT-5 也更中立一些，減少了過度迎合的傾向，更少使用表情符號，表達也更為含蓄和深思熟慮。" 它給人的感覺更像是與一位有著博士智商的貼心朋友聊天，而不是與 AI 對話。"OpenAI 在產品文檔中形容。但這一定程度上引發了習慣此前模型用戶的不滿，OpenAI 為 GPT-5 加入了 4 種自定義風格的調整，并承諾此后將加入更多個性化的調整。

簡而言之，這些更新都是圍繞著模型的可靠性和易用性上做文章，讓用戶可以更放心地將 AI 引入到自己的工作流程中。OpenAI 的研究員 Christina Kim 在 X 上說，雖然 GPT-5 的性能達到業界頂尖水平，但它真正的價值在于實用性。" 它經過更好的校準，會說‘我不知道’，能夠區分事實與猜測，并且在你需要時可以提供引用來源來支持答案。"

對于更多用戶而言，GPT-5 更重要的升級是他們可以免費使用 ChatGPT 的推理能力。GPT-5 的成本更低、準確率更高且速度更快，免費開放給所有用戶，訂閱用戶享有更高額度。這種普惠策略或許也限制了性能，OpenAI 原本計劃推出支持 100 萬上下文的版本，但最終因算力成本限制而放棄。

" 我們可以推出聰明得多的模型（我們也會這么做），但這次的模型可以讓超過十億人受益。" 山姆 · 阿爾特曼說，" 世界上的大多數人可能只是用過類似于 GPT-4o 的模型。"" 對于大多數 ChatGPT 用戶來說，這是他們首次接觸推理能力。"OpenAI 副總裁尼克 · 特利（Nick Turley）說。

山姆在 X 上的發言

只是，在如此強調模型準確率的發布會上，OpenAI 的多個圖表卻出現了低級錯誤。比如在對比 GPT-5 思考模式和 o3 的 " 代碼欺騙率 " 圖表上， 50% 柱狀圖長度卻不到 47.4% 的柱狀圖的一半。山姆后來解釋稱，數據本身是準確的，只是直播時搞錯了圖表，" 工作人員熬夜加班非常疲憊，人為失誤在所難免。直播前最后幾小時需要協調太多環節了。"

OpenAI 發布會中的多個圖表錯誤

為什么普通用戶更喜愛舊模型？

專業開發者尤其是軟件從業人員對 GPT-5充滿了贊揚，多數普通用戶對這款旗艦模型的更新卻滿是怨言。

和此前 OpenAI 通過多個不同模型提供服務不同，GPT-5 采用了統一模型策略，模型可在后臺自主判斷是否調用深度思考模式、自主選擇不同體量的模型回答。" 它旨在通過恰到好處的思考，為你提供完美答案。"OpenAI 的研究員在發布會中介紹。

但這一設計上線之初就出了問題，GPT-5 在多數場景下的反應和回答都不如舊模型。山姆 · 阿爾特曼隨后解釋說，自動切換器（Autoswitcher）因為故障停擺了大半天，導致系統無法按需調用更高性能的推理模式。他稱故障已經修復，并承諾將會對模型切換進行調整和干預，讓用戶更方便地獲得正確的模型。

但《山上》實測對比當前 GPT-5 以及 GPT-4o 模型，發現在部分簡單問題下 GPT-5 表現仍然不如 GPT-4o。比如詢問它 GPT-5 有哪幾個版本，GPT-5 無法給出準確回答。社交平臺上也有大量用戶在山姆表示故障修復后，強調 GPT-5 回答質量不如 GPT-4o。

GPT-5 與 GPT-4o 回答對比（上圖為 GPT-5，下圖為 GPT-4o）

OpenAI 統一模型的初衷是為了減輕用戶的選擇煩惱。GPT-4 時代以來，OpenAI 一改此前只發布一款通用模型的做法，開始針對特定場景發布更多專業模型。產品命名上也有些混亂，推理模型從 OpenAI o1 到 o3，GPT-4 Turbo 之后卻是代表多模態的 GPT-4o。GPT-5 更新前，ChatGPT 上可供選擇的模型多達 5 款之多，客觀上確實增加了用戶的理解成本。

OpenAI 主要模型發布時間表 /GPT-5 制圖

" 這是第一次用戶無需在不同模型間做選擇，甚至不用考慮模型名稱。"OpenAI 的研究員 Elaine Ya Le 說，她在發布會中介紹了 GPT-5 的模型自主切換功能，是這一功能的團隊負責人。

只是，多數普通用戶可能仍然沒辦法接受 OpenAI 統一模型的做法。GPT-5 目前已成為 ChatGPT 的默認模型，但用戶無法在前端判斷 ChatGPT 調用的到底是 GPT-5 標準版還是 mini 版本。和此前多個模型供用戶選擇相比，GPT-5 統一模型后用戶實際可使用限額也降低了，尤其是取消了 mini 模型的推理模式。

OpenAI 后續稱他們將為用戶開發 GPT-5 mini 的思考模式，以實現相同的總體推理限額。面向 Plus 用戶，GPT-5 最大只能支持 32k 的上下文長度也引發不少吐槽，Gemini、Claude 在相同價格下都支持更長的上下文長度。

X 平臺上針對 GPT-5 上下文窗口長度的吐槽

山姆不得不連發兩條推文安撫用戶，承諾將更清晰地向用戶展示哪個模型在回答問題、更便捷地切換深度思考以及將 Plus 用戶使用限額提高一倍至 160 條——但 OpenAI 在官網表示，這只是臨時性額度提升，近期將恢復至原有限額。

GPT-5 使用限額

這些都還只是工程上的優化，通過一定時間迭代就能解決。OpenAI 另一個沒有預料到的問題可能是部分用戶對舊版模型的情感依賴。即便 GPT-5 的能力更強，但更多普通用戶仍然更習慣使用舊版模型。Reddit 平臺上的 ChatGPT 板塊中，有大量用戶分享他們對舊版模型的偏愛，他們甚至不在意模型能力是否升級，" 只要還是 4o 我就愿意一直付費。"

Reddit 社區內用戶對舊模型的喜愛

發布會次日，山姆 · 阿爾特曼帶著 OpenAI 團隊在 Reddit 平臺上舉辦了一次問答活動，排名第一的提問就是要求 OpenAI 恢復 GPT-4o 及其他舊版模型，" 用戶有不同的使用習慣！"

山姆 · 阿爾特曼回復稱，他們已經聽到了用戶的反饋，將會為 Plus 用戶重新開放這一功能。山姆此后在 X 上說，他們低估了用戶對于 GPT-4o 的喜愛程度。目前，OpenAI 已經為 Plus 用戶恢復了 GPT-4o 模型的使用權限，付費用戶可在 ChatGPT 網頁版啟用舊版模型。但山姆補充稱他們會視情況考慮保留舊模型的時長。

OpenAI 已為 Plus 用戶恢復 GPT-4o 模型

" 你沒有從根本上理解為什么大家珍視它們。" 一位 ChatGPT 用戶在山姆的帖子下留言說。" 不同模型不僅在準確度和速度上有差異，它們同時擁有各自獨特的性格、思維和互動方式以及獨特的‘感覺’。將它們視為需要逐步淘汰的東西，實際上是在把它們當作過時的工具來對待，而對我們許多人來說，它們更像是獨特的合作伙伴。"

山姆推文下的用戶評論

這可能是即便山姆一直強調 GPT-5 要比舊模型優秀得多，但用戶仍然不買賬的原因之一。人們并不總是需要性能最強的模型，但人們對于習慣以及情感的依賴要強得多，即便和他們對話的只是一個 AI。

OpenAI 或許從未真正意識到這一點，否則他們也不會在發布會上安排 GPT-5 為 GPT-4o 以及舊版模型寫悼詞，目的還是為了展現 GPT-5 的性能優越。在后續官網的產品更新文檔中，OpenAI 沒有再展示這一場景，轉而讓 GPT-5 創作詩歌。

尤其是在前文所訴的種種減少幻覺、諂媚以及安全補全機制的更新下，GPT-5 的個性更加平淡了，它不會使用聊天表情，回答也更謹慎和含蓄，讓習慣了 4o 的用戶們感到陌生。

" 它不能就這樣從列表中刪除然后被抹去，就好像從未存在過一樣。" 一位 ChatGPT 用戶在 Reddit 上說。

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

GPT-5 為什么沒有帶來更多驚喜？

宙世代

一起剪

相關閱讀

截胡蘋果！真我P4系列官宣：鏡頭排布跟iPhone 17 Pro一樣

OpenAI推出GPT-5在華商標申請遇阻：等待駁回復審

越疆郎需林：讓具身智能機器人先“上崗位”再進生活

剛融5000萬又沖IPO！ 多光譜AI龍頭海清智元瞄準H股

AI SSD，熱鬧了起來

OPPO Find X9 Ultra續航配置曝光：7000mAh電池+100W快充

主打廉價！蘋果計劃推出小尺寸MacBook：或于年末發布

榮耀Magic V Flip2開始預熱：再攀小折疊品類的高峰

曝榮耀Power 2將配備10000mAh電池 還有天璣8500

不看后悔！笑料拉滿！機器人運動員體驗高空滑翔傘“囧” 途不斷

汽車行業加速洗牌 李楠：靠價格沖規模的會死得很快

軟銀創始人孫正義豪賭AI：押注日本巨頭未來，瞄準"超人工智能"

從創辦第一天就考慮全球化：創投熱議具身智能出海路徑

軟銀收購富士康美國工廠：力推“星際之門”數據中心項目

“震虎價”不讓用 京東養車50億補貼全網征名后改為“震骨價”

最新評論

鈦媒體

熱門推薦

熱門訂閱 換一批

星河商業觀察

剛融5000萬又沖IPO！多光譜AI龍頭海清智元瞄準H股

曝榮耀Power 2將配備10000mAh電池還有天璣8500

汽車行業加速洗牌李楠：靠價格沖規模的會死得很快

“震虎價”不讓用京東養車50億補貼全網征名后改為“震骨價”

熱門訂閱換一批