文 | 硅基星芒
自 8 月 8 號 GPT-5 正式發布以來,這款產品的口碑似乎一直不怎么樣,吐槽此起彼伏。
GPT-5 在發布前打出的旗號,是一款具有博士水平智能的 AI 產品。
官方似乎非常自信,直接下架了以前的舊模型,表示 GPT-5 可以 " 吊打一切 "。
不過僅僅幾天,就因為使用體驗遭到反噬,被迫緊急恢復舊版模型使用。
事實上,從測試和跑分的角度來看,GPT-5 的技術優勢確實非常明顯。
不少評測人員表示,現在的 GPT-5 是完完全全的 " 理科生 "。
在科學和技術領域,它的表現相當出色。解數學難題、編寫復雜代碼是它的拿手好戲。
而 GPT-5 的智商上限雖然有所提高,卻表現出了極高的 " 不穩定性 "。
有的時候,它也會在簡單的問題上犯錯。
此外,它在面對原先擅長的寫郵件、閱讀理解等涉及人類情感的任務時,就像一個機器人。
創意能力也并未發現明顯提升,因此 GPT-5 的實用性飽受質疑。
不過,大家最難以接受的原因,是它的 " 情商 " 跌破了用戶的下限。
它不再是以前那個什么都能聊的網友,而是變成了一個專業的工作學習助手。
智商上升,情商下降,GPT-5 反而變得更不好用了。
因此,在發布后的 72 小時內,OpenAI 就收到了大量的退訂訴求。
01 被忽視的提示詞指南
其實,在 GPT-5 發布的前一天,OpenAI 發布了一篇 GPT-5 的提示詞指南。
這份指南中給出了一些用戶平時可能不會注意的使用技巧,并通過解釋部分運行機制回應了外界的質疑。
更重要的是,它解釋了一個重要的事實:
并非 GPT-5 變得不好用了,而是用戶與 AI 的交互方式還停留在上一個時代。
還記得我們先前談過的提示詞工程的重要性嗎?
很多人總是習慣于把 GPT-5 這類 AI 產品當作一個搜索引擎或者 " 工具人 " 來使用,但 GPT-5 已經進化成了一個擁有自主規劃和深度思考能力的 " 數字心智 "。
因此,老舊的溝通方式自然是無法生效,是時候進行 " 強制更新 " 了。
首先,先來看下 GPT-5 的變化。
根據指南中的內容,它的核心進化分為四個方面:
1. 智能體任務性能(Agentic Task Performance):
它不再是那個 " 問一句答一句 " 的人機客服了。
現在的 GPT-5,更像是一個項目經理。
它能夠理解較為復雜的目標,自主規劃完成的步驟,選擇合適的工具,并持續工作直至任務完成。
2. 編碼能力(Coding)
前段時間,我們發布了一篇測評國內 AI 大模型寫代碼的能力的文章。
如果把以前的 AI 比作程序員,那 GPT-5 可以稱的上是一名全棧工程師。
它能夠處理大型代碼庫的重構、修復較為復雜的 Bug,甚至能夠從零起步構建一個功能完備的應用。
3. 原始智能(Raw Intelligence)
相比舊版本模型,GPT-5 擁有更強的邏輯推理能力、常識理解能力和創造力。
當然,考慮到 GPT-5 先前差評如潮的情況,這一方面還要打個問號。
4. 可引導性(Steerability)
這才是我們要關注的核心。
GPT-5 對指令的細微差別非常敏感。
因此,用戶可以像使用科研儀器一樣,精確控制它的行為、語氣和輸出風格。
除此之外,官方還推薦了一個新工具,名為 Responses API。
今年 5 月 21 日,OpenAI 宣布擴展 Responses API,支持遠程連接 MCP 服務器、圖像生成等功能,用于幫助開發者構建更智能的智能體應用。
這個工具的應用,好比給 GPT-5 額外加裝了一個 " 短期記憶芯片 "。
過去與 AI 交互,經常需要復述上下文背景,從而浪費大量 tokens,徒增成本。
而現在,只需要傳遞一個 "previous_response_id",就可以讓 AI 記住上一步的思考過程和推理鏈。
官方數據顯示,GPT-5 在 Tau-Bench 測試(零售場景)中的分數由 73.9% 提升至 78.2%。
簡單來說,就是性能更好、延遲更低、成本更省。
對于所有需要多個步驟完成的復雜任務,Responses API 恐怕將成為必選項。
02 馴服 AI 智能體
GPT-5 自 Chatbot 進化為智能體后,其雙刃劍效應變得更加明顯。
用好了,它能實現博士級別的智能;用不好,它就又變回了 " 人工智障 "。
OpenAI 把這種雙刃劍效應定義為智能體急切性(Agentic Eagerness)。
因此,用戶在使用 GPT-5 時面臨的最大難題,是如何成為一個優秀的 " 馴獸師 "。
指南中給出了下面幾個應用場景:
1. 追求效率與簡潔:即如何 " 拉住韁繩 "
在使用各類 AI 產品的時候,各位肯定都經歷過,明明只是想讓 AI 給出一個簡單、易于理解的答案,但 AI 卻要思考半天,然后列出一大段讓人壓根不想看也沒必要看的內容。
OpenAI 給出了兩種解決方法:
一是降低推理強度(reasoning_effort)。
這是一個 API 的參數,用戶可以把它設置成 low 或 medium。
這就像告訴一名員工:" 別想太多,照著流程走,快速給我結果。"
二是在提示詞中設立 " 紅綠燈 "。
首先,要明確目標與方法,告訴 AI" 快 " 才是第一要務;
其次,設定提前停止標準,如 " 只要找到 XX,就立刻停止搜索 ",打斷它復雜的思考過程;
再次,設置工具調用預算,規定 AI" 最多只能調用兩次聯網搜索 ";
最后,提供 " 逃生艙口 ",加入一句 " 即使答案可能不完全正確 ",避免 AI 為了追求 100% 正確而進行過度思考和探索。
看完這部分內容,感覺 OpenAI 又把我的 AI 世界觀給 " 強制刷新 " 了一遍。
以前我在用 AI 的時候,最多是在提示詞結尾加一句 " 只需要告訴我 XX 即可,不要添加額外內容 "。
但拋開修改 API 參數不談,我確實沒想到還可以通過限制搜索次數,甚至是不要求答案完全正確的方式來加快 AI 的運行。
2. 鼓勵自主與探索:即如何 " 放手一搏 "
另一種經常在使用 AI 時遇到的情況是,在我們只有一個初期目標或者大方向時,需要 AI 給出一套完善的思路、框架時,AI 只能給出一個 " 半成品 "。
與前面對應,OpenAI 同樣提供了兩種方法:
一是提高推理強度(reasoning_effort)。
也就是把 API 的參數設為 high,告訴員工 " 給你充分授權,動用一切資源,把問題研究透徹 "。
二是在提示詞中注入 " 信念感 "。
明確告訴 AI 遇到困難時要怎么辦,而不是停下來求助用戶。
3. 善用工具前導提示:讓 AI" 匯報工作 "
在完成工程量較大的復雜任務時,為了避免 AI 成為一個悶頭干活的 " 黑箱 ",可以要求 AI 定期進行匯報。
操作很簡單,在提示詞中加入對匯報風格和頻率的要求即可。
在復雜的智能體中,這種類似于 print ( ) 函數的監控和調控過程是非常重要的。
03 從規劃到執行的全流程優化
除去系統性的說明,這份指南中還給出了一些來自一線客戶的 " 寶貴經驗 "。
我們仍然用一些應用場景來說明:
1. 讓 AI 成為 " 架構師 "
適用場景:從零開始構建新應用
目前,AI 產品正在實現 " 低門檻 " 的目標。
各行各業的用戶都在頻繁地使用 AI,但大部分用戶都不可能同時具備多個領域的專業知識。
因此,只有產品經理而沒有程序員的情況已經很常見。
指南中給出的方法是使用 " 自我反思(self-reflection)" 提示法。
我們要做的,不是上來就讓 AI 寫代碼,而是先去引導它進行思考。
用戶則需要確定 AI 生成的方案是否與其預想類似,并以此進行微調或修改。
先輸出一份高質量的設計文檔再嚴格執行,雖然看起來步驟有些繁瑣,但根據實際使用經驗來看,最終輸出的代碼的質量和結構性都有明顯的提升。
2. 發給 AI 一本 " 程序員培訓手冊 "
適用場景:在現有項目中添加功能或進行重構
這個功能同樣應用地相當頻繁。
現實工作中,不僅是程序員的代碼,很多項目都需要進行反復修改和完善。
必要時,也可能需要 " 刪掉重寫 "。
但是,工作交接是有風險的,新程序員和老程序員的寫代碼風格可能不一樣,新員工和老員工的工作方式也有所差別。
因此,給 AI 提供一套具體而細致的規則,才能讓 AI 生成的內容無縫融入項目,避免風格沖突和低級錯誤的出現。
想要寫出這種提示詞,可能需要經驗豐富的 " 老員工 " 提供一些技術指導。
3. 額外的一些實戰經驗
一些用戶在使用 GPT-5 后發現,有時候它在對話中就是個話癆,有時候生成的內容又過于簡潔。
看起來很矛盾,是不是?
解決方案倒也出人意料的簡單,把全局 API 參數 verbosity 設為 low,讓它少說話。
再在提示詞里寫清楚:" 請給出詳細、可讀性強的注釋 ",讓它不許省略關鍵信息。
另一個需要注意的變化是,對 GPT-4 很有效的強制性提示,比如 " 請務必徹底、全面地分析上下文 ",對 GPT-5 可能適得其反。
GPT-5 天生喜歡思考和探索,而過度的強調可能讓它在簡單的任務上來一出 " 大炮打蚊子 "。
為了避免這種浪費時間、浪費資源的行為,提示詞就得更柔和、更具引導性一些。
04 通用的控制技巧
下面的技巧適用于所有類型的任務。
1. 全新的控制器:verbosity 和 reasoning_effort
這兩個詞其實前面我們已經提到過了,它們很重要,不過看起來似乎有些容易混淆:
推理強度(reasoning_effort):決定 AI 思考的有多深、多努力。
詳細度(verbosity):決定 AI 最終回答的有多長、多仔細。
2.GPT-5 的 " 阿喀琉斯之踵 ":指令沖突
相比以前的舊模型,GPT-5 有了一個新的特點:較真兒。
作為一個嚴謹而可靠的 AI 助手,它會嚴格遵循用戶輸入的每一條指令。
這就帶來了一個問題:結構不良的提示詞(poorly-constructed prompts)對它造成的傷害容易 " 觸發暴擊 "。
對于一般的用戶來說,在編寫完提示詞后肯定不會再去專門檢查一遍表述是否有問題。
但若是提示詞中無意間包含了相互矛盾或者模棱兩可的指令時可就出問題了。
GPT-5 不會像舊模型一樣隨機選一個執行,而是會嘗試去調和這些矛盾。
在這個過程中,伴隨著大量資源(時間和 tokens)的消耗。
而最終的結果,很有可能就是性能下降、邏輯混亂甚至任務失敗。
OpenAI 給出的示例是醫療助手的場景:
指令 A:未經患者明確同意,絕不安排預約。
指令 B:對于高危病例,自動分配最早的當日時段以降低風險。
在我們看來,可能指令 B 更具備優先性;但在 GPT-5 看來,這就是個僵持不下的死局。
而對于這個問題,OpenAI 給出的解決方案有三條:
一是審查提示詞,檢查是否存在邏輯沖突;
二是建立指令層級,明確指出在特定情況下不同規則的優先級;
三是使用官方工具,指南中提及的 prompt optimizer tool 可用于幫助自動識別這類問題。
前兩條解決方案,都需要用戶親自動手,與 " 自動化 " 需求背道而馳。
第三條解決方案,如果用戶不看這份指南,又沒有來自外部的指點,根本不可能知道。
05 錦上添花的高階玩法
最后,指南中還分享了一些 " 獨門秘籍 "。
1. 極速模式:最小化推理
這是專門為了低延遲場景而設計的一種模式。
在保留推理能力的基礎之上,盡可能加快了模型的運行速度。
但這么做的代價,是模型自身的規劃能力的降低。
因此,這一模式非常看重提示詞的質量,用戶最開始就得主動要求 GPT-5 對任務進行規劃。
此外,用戶的指令必須足夠清晰,不能有矛盾或模棱兩可之處。
而用戶還需要強化 " 持久性提醒 ",反復告知 AI" 要完成整個任務 " 或其他細節性要求。
2. 元提示(Metaprompting)
這又是我們平時不太容易想到的一種與 GPT-5 交互的方式:
讓 GPT-5 教用戶如何向它提問。
當我們發送提示詞給 GPT-5 但沒得到滿意的結果時,不必自己費勁修改,直接再丟給 GPT-5:
當然,提示詞這部分的優化,也可以用我們先前介紹過的 PromptPilot 或是其他大模型完成。
06 寫在最后
看完 OpenAI 這份被大多數人忽視的官方指南,我多少理解了一些 GPT-5 的差評。
相比于前代模型,GPT-5 的改動有些過大了,讓大部分 AI 使用者一時間難以適應。
如果不細看 OpenAI 給出的這份 " 官方劇透 ",很多資深 AI 玩家恐怕都束手無策。
在這場風波中,我意識到,像我這樣的普通人對于 AI 的了解程度,可能和人類對于宇宙的了解程度,差別并不大:
我們的直覺是錯的。
我們習慣性地認為,對 AI 下達強勢而全面的指令會獲得更好的效果,但卻讓天生 " 想太多 " 的 GPT-5 走上低效和混亂的道路。
我們看不見的 " 開關 " 太多了。
平時只是點開網頁版 GPT-5 的我們,誰能想到還有專門的按鈕(reasoning_effort 和 verbosity)來控制 AI 思考的 " 深度 " 和回答的 " 長度 "?
我們最大的敵人,是自己的 " 想當然 "。
我們自以為只要給 AI 發出清晰的指令就足以讓它完成任務,但卻從未意識到自己可能不經意間給 AI 布置了很多邏輯陷阱。
這份指南在一定程度上揭示了與高級人工智能協作的底層邏輯。
隨著 GPT-5 的誕生,各大廠商早晚也會推出智能化程度更高的新模型。
當我們面對這樣一個能力遠超以往的 " 新物種 " 時,最大的障礙,并不是 AI 的智能上限,而是我們自身認知和交互習慣的局限。
因此," 人與工具 " 的思維定式或許已經到了需要轉變為" 人與心智 " 的協作范式的時刻。
而 GPT-5 的這次差評風波,只會是未來無數次認知沖擊的第一次預演。