Anthropic 近日發布其最新的 Claude 4 系列模型,包括旗艦型號 Claude Opus 4 和更側重效率的 Claude Sonnet 4。新模型在編程能力上實現了重大突破,Opus 4 在 SWE-bench 等關鍵基準測試中得分達到 72.5%,并能處理數百萬行級別的復雜代碼庫,以及在一些測試場景中,實現了長達 7 小時的連續編程任務。
不只是模型升級,更是全面能力補足
Claude 4 的發布,并非簡單沿襲 "Haiku、Sonnet、Opus" 的階梯式組合,而是推出了兩大核心模型:追求極致性能的 Claude Opus 4 和兼顧效率與成本的 Claude Sonnet 4。
Anthropic 聲稱,Opus 4 是目前編程能力較為領先的模型之一。根據披露信息及早期用戶反饋,它頗有 " 質變 " 的意味,不僅編程效率提升,而且其展現出的復雜任務理解和執行能力,讓很多人 "feel 到了 AGI"。
顯著提升的代碼生成與理解: Claude Opus 4 在編程基準測試 SWE-bench 上取得了 72.5% 的得分,在 Terminal-bench 上也達到了 43.2%;而 Sonnet 4 在 SWE-bench 上的得分也達到了 72.7%,接近 Opus 4 的水平。
而根據提前試用者的反饋,很多場景已經遠非生成代碼片段或輔助調試,而是能夠理解并處理數百萬行級別的復雜代碼庫,從高度抽象的自然語言需求直接生成結構完整、邏輯嚴密的應用程序框架。
Rakuten 在一項高要求的開源重構任務中,Opus 4 連續穩定運行長達 7 小時,表現出色。Cognition AI 表示,Opus 4 能解決其他模型此前無法完成的復雜任務。這種深度理解和生成能力,是構建更高級智能體的前提。
這些數據和案例表明,Claude 4 不僅僅是代碼片段的生成器,它已經具備了理解大型、復雜項目架構的能力,能夠從高層次的需求出發,生成結構完整、邏輯嚴密的應用程序。這意味著它能夠勝任從需求分析(理解自然語言需求)到代碼實現、重構乃至持續集成等傳統上由人類程序員完成的整個開發生命周期中的核心任務。這種全棧式的代碼處理能力,是替代人類程序員在日常開發工作中所需的第一塊能力。
這種能力超越了簡單的模式匹配,展現了初步的規劃和策略調整,是通用問題解決能力的一種體現。同時,Claude 3 時代令人印象深刻的上下文窗口在 Claude 4 這里得到繼承和發展,為處理龐大項目提供了基礎。
" 主動糾錯 "、" 架構建議 " 與 " 記憶力 ": Claude 4 不僅能發現并修復錯誤,更能從架構層面提出優化建議。新增的 " 記憶能力 " 允許模型提取并保存關鍵信息。
比如在玩《寶可夢》時創建 " 導航指南 ",形成 " 工作記憶文件 ",保持上下文連貫,這對于長任務執行至關重要。這種自我修正和長期記憶的特性,是智能系統向更自主、更通用方向發展的關鍵特征。
" 記憶能力’則讓它能在一個項目中保持長期的上下文連貫性,無需反復喂入信息,這極大地提升了其處理長期、復雜項目的效率和可靠性。這些認知能力的補足,使得 Claude 4 能夠承擔過去只有資深人類工程師才能勝任的、需要深度思考和持續迭代的工作,從而為真正的‘替代’奠定了智力基礎。
Claude Code 正式發布與深度集成: 面向開發者的編程工具 Claude Code 正式發布,并已支持 GitHub Actions,推出了針對 VS Code 和 JetBrains 系列 IDE 的測試版擴展。
這意味著開發者可以在熟悉的編輯器中直接獲得 Claude 的代碼修改建議、追蹤任務。
例如,在演示中,Claude Code 僅用一次提示,在 90 分鐘內為 Excalidraw 項目完整實現了此前擱置的表格組件功能,包括生成代碼、測試用例、UI 集成和 PR 提交,全程無需人工編輯。這預示著 AI 不僅是工具,更將成為開發流程中的核心參與者和決策者。
為高級 Agent 構建的 API 與工具: Claude 4 在 Agentic 能力上實現了顯著飛躍,能夠更可靠地執行復雜的多步驟任務,并與外部工具和 API 高效協同。
Anthropic 為此推出了全新的 API 功能,包括允許 Claude 在安全沙盒環境中執行 Python 代碼以進行計算和數據可視化的代碼執行工具,以及無需編寫客戶端代碼即可將 Claude 連接至任何遠程模型上下文協議(MCP)服務器的 MCP 連接器。
此外,文件 API 簡化了開發者在構建應用時存儲和訪問文檔的流程,而擴展的提示緩存則提供了在標準 5 分鐘或延長至 1 小時的緩存有效期之間進行選擇的靈活性。這些新特性與 Claude Opus 4 和 Sonnet 4 模型相結合,將助力開發者打造出能夠執行復雜數據分析、與外部系統無縫對接、高效管理文件,并且能將對話上下文保持長達 60 分鐘的智能代理。
Claude 4 系列模型在編程能力上頗有 " 從量變到質變 " 的味道。
讓人類把編程的權力讓給 AI,是 Anthropic 走向 AGI 的第一步
Claude 4 的強大能力已在多個場景中得到驗證:
例如,在 Replit 的實測中,Opus 4 在處理涉及多文件、大規模改動的復雜項目中展現出更高的準確率;Block 公司在其代號為 Goose 的 Agent 中集成 Opus 4 后,首次在編輯和調試代碼過程中觀察到代碼質量的顯著提升,同時保持了系統的穩定性和性能。 有用戶也成功讓 Opus 4 一次性生成了包含四種不同天氣狀態及獨特動畫效果的天氣卡片,而 Sonnet 4 也在第二次嘗試后成功交付了一個包含自動演示 AI 功能的紅白機風格 " 貪吃蛇 " 游戲。
Claude 4 還帶來了全新的 Agent 的可能。Anthropic 表示,未來優秀的 AI Agent 需要具備 " 情境智能 "、" 長任務執行能力 " 和 " 真實協作能力 "。接下來的目標是出現主動修改優化自身代碼邏輯,甚至為自己編寫新工具的 " 代碼自進化 " Agent。
Anthropic CEO Dario Amodei 在當天的發布上描述這種新的人機協作模式時說:" 我們正進入一個新世界,開發者可以像管理一支 Agent 團隊一樣工作:「你去做這個,你去做那個。」我常說,做 AI 就像是坐在一艘飛船上,以相對論的速度離開地球——你在飛船上過一天,地球上可能可能已經過去兩天了。" 他說。
" 所以大膽一點。構建一個超出你原本認為可能實現的東西。即使它現在還無法完全實現,下一代模型就要來了。" 他說。
現在看來,Anthropic 的路線越來越明晰,選擇 " 代碼生成與理解 " 這一高度結構化、對邏輯推理和規劃能力要求極高的領域作為突破口,安全且負責任地將復雜認知任務(如編程)的執行權從人類手中讓渡給 AI,就是實現 Anthropic 眼里那個 AGI 的第一步。
而當這些 Agent 能夠高效、低成本地創建和管理軟件時,Dario 預言:
" 當「寫軟件的成本」大幅下降時,經濟和商業結構會發生什么?…當軟件可以按需、低成本、一次性創建時,整個世界都會不同。"
文: Gemini
助手: 王兆洋