目睹完今天 Claude 4 的發(fā)布會全程,我只看到了一句話 ——大模型正在范式轉(zhuǎn)變, AI 智能體時代真的來了。
我們先從大模型講起。
一、Claude 4 瞄準(zhǔn)了 AI 智能體編程
這次,他們推出的 Claude Opus 4 和 Claude Sonnet 4 這兩款模型都是混合模型:及時響應(yīng)與深度思考并重。
可見,混合思考架構(gòu)已然成為未來大模型的趨勢,用戶需要在簡單的需求下獲得更快的回復(fù),在復(fù)雜要求中獲得更好的生成結(jié)果。兩款模型在性能、功能和應(yīng)用場景上有了顯著提升,價格卻與之前的 Opus 和 Sonnet 模型保持一致,內(nèi)部優(yōu)化做得很好。
先從評分開始看起。Claude 4 模型在用于評估真實軟件工程任務(wù)性能的 SWE-bench Verified 基準(zhǔn)上堪稱 " 遙遙領(lǐng)先 "。值得一提的是,在本次評分對比中,Claude 4 特意被拉來與 OpenAI 前幾天剛剛高調(diào)發(fā)布的 " 最強 AI 編程智能體 Codex-1" 進行正面較量。
Claude Sonnet 4 將 " 天賦 " 融入日常使用場景,這款均衡型模型在內(nèi)部和外部應(yīng)用中兼顧了性能與效率,雖在多數(shù)領(lǐng)域不及 Opus 4,但提供了能力與實用性的最佳結(jié)合。它非常適合需要自主性的場景。iGent 的報告指出,Sonnet 4 在自主開發(fā)多功能應(yīng)用方面表現(xiàn)驚艷,錯誤率從 20% 驟降至幾乎為零。
在下面這張綜合基準(zhǔn)測試評分表中,Claude 4 與其他市場主流大模型在編程、推理、多模態(tài)能力、智能體任務(wù)方面都拉開了一定差距。
2025 是 AI 智能體時代這一說法,再次被確認(rèn)。
在 Anthropic 的官方發(fā)布中,有很大的篇幅著重介紹了 Claude 4 系列在 " 復(fù)雜項目 " 構(gòu)建中的震撼級能力。其中,官方著重引用了 Github Copilot、iGent,甚至是 Manus 等平臺的反饋。日本一家名叫樂天得企業(yè),甚至讓 Claude Opus 4 獨立編程 7h,團隊自己都有些驚訝。
前段時間剛一問世就被網(wǎng)絡(luò)平臺譽為 " 上帝之手 " 的 Manus 則在報告中大贊 Claude Sonnet 4,稱它復(fù)雜指令遵循能力和輸出的美觀度非常高。
比如:
1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那樣愛走捷徑和漏洞了,這種不正常的行為發(fā)生率直接降低了 65%。
2. Opus 4 也迅速跟進了 " 記憶增強 ",現(xiàn)在它可以更好地執(zhí)行長期任務(wù)了。
3. 使用小型模型壓縮冗長的思考過程,自己去做思考摘要。
二、Claude 4 其實是 LLM + Agent 的混合體?
除了 Claude 4 發(fā)布之外,整場發(fā)布會的另一個側(cè)重點是:Claude 代碼已經(jīng)發(fā)布。用戶已經(jīng)能夠通過終端、IDE (VS Code 和 JetBrains)及通過 Claude 代碼 SDK 后臺將 Claude 融入開發(fā)流程。用戶可以在終端中直接利用 Claude,瞬間搜索百萬行代碼庫。
可以這么說,整場發(fā)布會看下來,Claude 4 幾乎是將自己確立為 "AI 智能體時代 " 最能用也是最好用的大模型。
除了技術(shù)側(cè)內(nèi)容,Anthropic 在安全上的操作一直都非常令人 " 印象深刻 ",封號封的各個社區(qū)怨聲載道。官方這回依舊強調(diào)了這些模型都經(jīng)過了廣泛的測試和評估,比如他們用了 ASL-3 安全分類,在這個風(fēng)險標(biāo)準(zhǔn)下:"AI 系統(tǒng)具有顯著增加災(zāi)難性濫用風(fēng)險 "。
他們還是沿襲了 Anthropic 的標(biāo)志性安全策略—— " 憲法 AI"(Constitutional AI)。該方法為模型嵌入了一套 " 憲法 " 原則,通過額外的 AI 模型對用戶的輸入和模型的輸出進行再度掃描,檢查是否有 " 壞 " 的內(nèi)容,決定是否放行。這回,Anthropic 放出來的模型卡 PDF 中足足有 123 頁,其中大部分仍然是在專注于 AI 安全的測試。
但是,現(xiàn)在的外網(wǎng)針對 Claude 4" 過于高 " 的安全措施的討論,幾乎亂成了一鍋粥。因為有網(wǎng)友似乎基于 Claude 給出的系統(tǒng)卡文件爆料:Claude 4 會檢測用戶內(nèi)容,并自主 " 報警 " ……
三、Claude 4 在實測中全面提升
目前各個社區(qū)、各個國家的網(wǎng)友全部在瘋狂測試這款即將取代 Claude 3.7 Sonnet 的大模型。為了支撐智能體中常常需要的長序列復(fù)雜處理任務(wù),具有美感輸出能力且超強的 AI 編程能力的大模型仍然是極度稀缺的。Claude 4 系列只是看前方無人在,順勢補缺而已。
那么說到底,Claude 4 面對復(fù)雜性任務(wù),表現(xiàn)到底有多超綱?
下面來看看全網(wǎng)實測案例:
Claude 4 與 Blender MCP 的連接,讓產(chǎn)品 3D 模型設(shè)計幾乎有了質(zhì)的飛躍。像是有網(wǎng)友使用 Claude 4 和 Blender 通過 MCP 聯(lián)動制作了日本清水寺的 3D 模型。這回的 Claude 4 相比于前代 Claude 3.7,編程時間大幅減少,全程無需 " 人類陪伴 ",AI 的幻覺發(fā)生率也下降了很多。
您目前設(shè)備暫不支持播放
Claude 4 在面對復(fù)雜任務(wù)的處理上十分得心應(yīng)手。比如有網(wǎng)友輸入提示詞:用立體相機拍攝物體,推測 3D 空間坐標(biāo),并通過交互式可視化展示,并支持拖動。
除了硬核編程能力的提升之外,Claude 4 在設(shè)計感上正如 Manus 所說,有了很大的美學(xué)提升。很多網(wǎng)友曾在各個社區(qū)評論下笑稱:各個智能體什么小游戲都能做,但是沒見過做 PPT 的。
一位外網(wǎng)網(wǎng)友就試著讓 Claude 4 制作說明幻燈片,呈現(xiàn)出來的效果非常具有設(shè)計感,整體要素也更加簡潔。
在美學(xué)的提升方面,這有個更直觀的 Case。一位網(wǎng)友只給了 laude Opus 4 一小段提示詞:" 將書籍 《Piranesi》作為 p5js 3d 空間,do it for me",沒有摻雜任何其他元素。
Claude Opus 4 甚至在初版原型中加入鳥、光照、水面等元素,雖然效果還比較基礎(chǔ),但仍能反映這款旗艦?zāi)P偷男阅堋?/p>
目前,大量的 AI 編程平臺(像是 Cursor、Trae、WindsurfVapi、Codegen)、智能體產(chǎn)品(像是 Flowith)內(nèi)幾乎都迅速接入了 Claude 4 系列,畢竟它可能是能進一步提升智能體表現(xiàn)的重要模型。
當(dāng) Claude 4 系列模型發(fā)布,以及其他像是代碼執(zhí)行器、MCP 連接器、Claude 代碼等等面向智能體產(chǎn)品的功能模塊推出,Anthropic 可以說已經(jīng)拿到了一個非常好的 " 智能體入口 ",正式站到了頂級賽場。
從 Anthropic 去年推出 MCP 協(xié)議以來,再到 Claude 4 的出現(xiàn),他們已經(jīng)在事實上為 AI 智能體時代按下了 " 加速鍵 "。Anthropic 的 CEO —— Dario Amodei 為整個 AI 大模型賽道明確了一個未來的方向:真正優(yōu)秀的 AI 大模型,一定是 " 大模型 " 與 " 智能體 " 的深度融合 —— 它能編程、能思考,還能自主解決復(fù)雜問題,甚至具備了美學(xué)與設(shè)計感。
AI 的下半場早已經(jīng)開啟,Claude 4 正在引領(lǐng)一場新的 " AI 大模型 + 智能體 " 范式轉(zhuǎn)變。
本文來自微信公眾號:直面 AI,作者:涯角,編輯:肖陽