亚洲综合成人在线,日韩精品一区二区三区乱码,三上悠亚亚洲精品一区

本文來自微信公眾號：直面 AI，作者：涯角，編輯：肖陽，題圖來自：AI 生成

目睹完今天 Claude 4 的發(fā)布會全程，我只看到了一句話 ——大模型正在范式轉(zhuǎn)變， AI 智能體時代真的來了。

AI 編程的唯一真神 Claude 3.7 Sonnet，終于被 Antrhopic 的下一代 AI 大模型—— Claude Opus 4 和 Claude Sonnet 4 徹底淘汰掉了。各國網(wǎng)友對此有非常直觀的感受，比如有人在一手實測中瘋狂夸贊 Claude 4：" 它一下子就能寫出 8000 行代碼 "。

除了 Claude 4 的推出之外，他們還順手給了幾個新智能體時代的功能拓展。

我們先從大模型講起。

一、Claude 4 瞄準(zhǔn)了 AI 智能體編程

這次，他們推出的 Claude Opus 4 和 Claude Sonnet 4 這兩款模型都是混合模型：及時響應(yīng)與深度思考并重。

可見，混合思考架構(gòu)已然成為未來大模型的趨勢，用戶需要在簡單的需求下獲得更快的回復(fù)，在復(fù)雜要求中獲得更好的生成結(jié)果。兩款模型在性能、功能和應(yīng)用場景上有了顯著提升，價格卻與之前的 Opus 和 Sonnet 模型保持一致，內(nèi)部優(yōu)化做得很好。

先從評分開始看起。Claude 4 模型在用于評估真實軟件工程任務(wù)性能的 SWE-bench Verified 基準(zhǔn)上堪稱 " 遙遙領(lǐng)先 "。值得一提的是，在本次評分對比中，Claude 4 特意被拉來與 OpenAI 前幾天剛剛高調(diào)發(fā)布的 " 最強 AI 編程智能體 Codex-1" 進行正面較量。

Claude Opus 4 在編碼、研究、寫作和科學(xué)發(fā)現(xiàn)等人類復(fù)雜性高的任務(wù)方向，拓展了邊界。比如，在編碼領(lǐng)域它被 Cursor 稱為頂尖技術(shù)，顯著提升復(fù)雜代碼庫的理解能力，適合處理復(fù)雜的編程任務(wù)。Cognition 則強調(diào) Opus 4 已經(jīng)能夠解決其他模型無法應(yīng)對的復(fù)雜任務(wù)。

Claude Sonnet 4 將 " 天賦 " 融入日常使用場景，這款均衡型模型在內(nèi)部和外部應(yīng)用中兼顧了性能與效率，雖在多數(shù)領(lǐng)域不及 Opus 4，但提供了能力與實用性的最佳結(jié)合。它非常適合需要自主性的場景。iGent 的報告指出，Sonnet 4 在自主開發(fā)多功能應(yīng)用方面表現(xiàn)驚艷，錯誤率從 20% 驟降至幾乎為零。

在下面這張綜合基準(zhǔn)測試評分表中，Claude 4 與其他市場主流大模型在編程、推理、多模態(tài)能力、智能體任務(wù)方面都拉開了一定差距。

有趣的一點是，Anthropic 將最左側(cè)的數(shù)個基準(zhǔn)測試名稱中都加入了 "Agentic"。

2025 是 AI 智能體時代這一說法，再次被確認(rèn)。

在 Anthropic 的官方發(fā)布中，有很大的篇幅著重介紹了 Claude 4 系列在 " 復(fù)雜項目 " 構(gòu)建中的震撼級能力。其中，官方著重引用了 Github Copilot、iGent，甚至是 Manus 等平臺的反饋。日本一家名叫樂天得企業(yè)，甚至讓 Claude Opus 4 獨立編程 7h，團隊自己都有些驚訝。

前段時間剛一問世就被網(wǎng)絡(luò)平臺譽為 " 上帝之手 " 的 Manus 則在報告中大贊 Claude Sonnet 4，稱它復(fù)雜指令遵循能力和輸出的美觀度非常高。

可以預(yù)見的是，目前智能體賽道的各個選手將會第一時間集成 Claude 4，因為它相對于之前的 Claude 模型在智能體任務(wù)中有了太多的改進。

比如：

1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那樣愛走捷徑和漏洞了，這種不正常的行為發(fā)生率直接降低了 65%。

2. Opus 4 也迅速跟進了 " 記憶增強 "，現(xiàn)在它可以更好地執(zhí)行長期任務(wù)了。

3. 使用小型模型壓縮冗長的思考過程，自己去做思考摘要。

圖注：Claude Opus 4 在玩《寶可夢時》自主記錄筆記。

二、Claude 4 其實是 LLM + Agent 的混合體？

除了 Claude 4 發(fā)布之外，整場發(fā)布會的另一個側(cè)重點是：Claude 代碼已經(jīng)發(fā)布。用戶已經(jīng)能夠通過終端、IDE （VS Code 和 JetBrains）及通過 Claude 代碼 SDK 后臺將 Claude 融入開發(fā)流程。用戶可以在終端中直接利用 Claude，瞬間搜索百萬行代碼庫。

在官方介紹中，Claude Code 搭載 Claude Opus 4，可以通過智能體搜索全面理解代碼庫，無需手動選擇上下文即可協(xié)調(diào)多個文件更改，無縫融入工作流，直接運行于終端。

只需在 IDE 終端運行 Claude 代碼即可安裝，可擴展的 Claude 代碼 SDK 還能讓用戶輕松 " 打造自定義智能體和應(yīng)用 "。Anthropic 給想要構(gòu)建智能體的用戶們又打上了一劑強心針。

Anthropic 還發(fā)布了幾個面向智能體的新功能：代碼執(zhí)行工具、MCP 連接器、文件 API，以及最多可緩存一小時提示詞的能力，讓 Claude 4 幾乎成為了智能體專精模型。在我看來，這就是 Anthropic 在 AI 下半程 " 智能體入口爭奪戰(zhàn) " 中的大動作。允許模型將推理與外部資源結(jié)合的設(shè)計，使 Claude 4 架構(gòu)更像是一個 LLM+Agent 的混合體。

可以這么說，整場發(fā)布會看下來，Claude 4 幾乎是將自己確立為 "AI 智能體時代 " 最能用也是最好用的大模型。

除了技術(shù)側(cè)內(nèi)容，Anthropic 在安全上的操作一直都非常令人 " 印象深刻 "，封號封的各個社區(qū)怨聲載道。官方這回依舊強調(diào)了這些模型都經(jīng)過了廣泛的測試和評估，比如他們用了 ASL-3 安全分類，在這個風(fēng)險標(biāo)準(zhǔn)下："AI 系統(tǒng)具有顯著增加災(zāi)難性濫用風(fēng)險 "。

他們還是沿襲了 Anthropic 的標(biāo)志性安全策略—— " 憲法 AI"（Constitutional AI）。該方法為模型嵌入了一套 " 憲法 " 原則，通過額外的 AI 模型對用戶的輸入和模型的輸出進行再度掃描，檢查是否有 " 壞 " 的內(nèi)容，決定是否放行。這回，Anthropic 放出來的模型卡 PDF 中足足有 123 頁，其中大部分仍然是在專注于 AI 安全的測試。

比如，Anthropic 決定根據(jù) AI 安全級別 3 標(biāo)準(zhǔn)發(fā)布 Claude Opus 4，根據(jù) AI 安全級別 2 標(biāo)準(zhǔn)發(fā)布 Claude Sonnet 4，分級分的非常精準(zhǔn)。

但是，現(xiàn)在的外網(wǎng)針對 Claude 4" 過于高 " 的安全措施的討論，幾乎亂成了一鍋粥。因為有網(wǎng)友似乎基于 Claude 給出的系統(tǒng)卡文件爆料：Claude 4 會檢測用戶內(nèi)容，并自主 " 報警 " ……

雖然暫無法確定這些爆料是否真實，但也確實反映了大家認(rèn)為 Claude 4 的安全措施真的太過于嚴(yán)格了，甚至到了可能影響用戶體驗或功能性的地步。畢竟，國內(nèi)的 Claude 使用者已經(jīng)流行起了 " 打一槍，換一個地 " 的使用策略。

三、Claude 4 在實測中全面提升

目前各個社區(qū)、各個國家的網(wǎng)友全部在瘋狂測試這款即將取代 Claude 3.7 Sonnet 的大模型。為了支撐智能體中常常需要的長序列復(fù)雜處理任務(wù)，具有美感輸出能力且超強的 AI 編程能力的大模型仍然是極度稀缺的。Claude 4 系列只是看前方無人在，順勢補缺而已。

那么說到底，Claude 4 面對復(fù)雜性任務(wù)，表現(xiàn)到底有多超綱？

下面來看看全網(wǎng)實測案例：

Claude 4 與 Blender MCP 的連接，讓產(chǎn)品 3D 模型設(shè)計幾乎有了質(zhì)的飛躍。像是有網(wǎng)友使用 Claude 4 和 Blender 通過 MCP 聯(lián)動制作了日本清水寺的 3D 模型。這回的 Claude 4 相比于前代 Claude 3.7，編程時間大幅減少，全程無需 " 人類陪伴 "，AI 的幻覺發(fā)生率也下降了很多。

甚至還有網(wǎng)友使用 Claude Opus 4 制作了類似 Bemani 2DX 風(fēng)格的游戲。不僅重現(xiàn)了經(jīng)典的音樂游戲體驗，還融入了許多創(chuàng)新元素，提升了游戲的可玩性和趣味性。

您目前設(shè)備暫不支持播放

Claude 4 在面對復(fù)雜任務(wù)的處理上十分得心應(yīng)手。比如有網(wǎng)友輸入提示詞：用立體相機拍攝物體，推測 3D 空間坐標(biāo)，并通過交互式可視化展示，并支持拖動。

除了硬核編程能力的提升之外，Claude 4 在設(shè)計感上正如 Manus 所說，有了很大的美學(xué)提升。很多網(wǎng)友曾在各個社區(qū)評論下笑稱：各個智能體什么小游戲都能做，但是沒見過做 PPT 的。

一位外網(wǎng)網(wǎng)友就試著讓 Claude 4 制作說明幻燈片，呈現(xiàn)出來的效果非常具有設(shè)計感，整體要素也更加簡潔。

在美學(xué)的提升方面，這有個更直觀的 Case。一位網(wǎng)友只給了 laude Opus 4 一小段提示詞：" 將書籍《Piranesi》作為 p5js 3d 空間，do it for me"，沒有摻雜任何其他元素。

Claude Opus 4 甚至在初版原型中加入鳥、光照、水面等元素，雖然效果還比較基礎(chǔ)，但仍能反映這款旗艦?zāi)Ｐ偷男阅堋?/p>

目前，大量的 AI 編程平臺（像是 Cursor、Trae、WindsurfVapi、Codegen）、智能體產(chǎn)品（像是 Flowith）內(nèi)幾乎都迅速接入了 Claude 4 系列，畢竟它可能是能進一步提升智能體表現(xiàn)的重要模型。

Anthropic 由于一直以來專注于安全頂層設(shè)計，而常常被認(rèn)為 "他們還沒有找到一個合適的 AI 入口，只能當(dāng)個掃地神僧，甚至沒有辦法參加到最高級別的公開賽場之中"。

當(dāng) Claude 4 系列模型發(fā)布，以及其他像是代碼執(zhí)行器、MCP 連接器、Claude 代碼等等面向智能體產(chǎn)品的功能模塊推出，Anthropic 可以說已經(jīng)拿到了一個非常好的 " 智能體入口 "，正式站到了頂級賽場。

從 Anthropic 去年推出 MCP 協(xié)議以來，再到 Claude 4 的出現(xiàn)，他們已經(jīng)在事實上為 AI 智能體時代按下了 " 加速鍵 "。Anthropic 的 CEO —— Dario Amodei 為整個 AI 大模型賽道明確了一個未來的方向：真正優(yōu)秀的 AI 大模型，一定是 " 大模型 " 與 " 智能體 " 的深度融合 —— 它能編程、能思考，還能自主解決復(fù)雜問題，甚至具備了美學(xué)與設(shè)計感。

AI 的下半場早已經(jīng)開啟，Claude 4 正在引領(lǐng)一場新的 " AI 大模型 + 智能體 " 范式轉(zhuǎn)變。

本文來自微信公眾號：直面 AI，作者：涯角，編輯：肖陽

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

Manus 都點贊的 Claude 4，究竟好在哪兒？

宙世代

一起剪

相關(guān)閱讀

微信盜用好友資料給朋友圈廣告寫評論？騰訊員工回應(yīng)

美國法官暫時叫停哈佛招收外國學(xué)生禁令 漫長法律斗爭才剛開始

文和友異地擴張失效：一場曲折的商業(yè)冒險

啤酒、飲料攻防戰(zhàn)：互相進入對方的賽道

特朗普公開怒斥歐盟貿(mào)易不公，威脅下月對其征收50%關(guān)稅

文和友異地擴張失效：一場注定失敗的商業(yè)冒險

十五運會期間城市交通如何保障？按“大小流線”規(guī)劃賽時路線，日均超250輛運輸車提供服務(wù)

“原來咁有型”！從Molly到Labubu，香港潮玩IP在文博會大放異彩

How “guzi economy” may change the game for Guangdong’s cultural industry

南財數(shù)據(jù)周報（49期）：北京探索產(chǎn)品“一地上架、地方互認(rèn)”；江蘇省數(shù)據(jù)產(chǎn)業(yè)基金出資額達15億

東方甄選回應(yīng)被造謠文旅直播收天價宣傳費：已勝訴 對方判賠3.6萬

女子甘孜海拔4000多米遇車禍救助四人，交警：車后溜致側(cè)翻，一人去世

以文博會為媒 激活荔枝文化基因

金粉世家 白小姐報復(fù)燕西為哪般？主要她做了件丟份兒的事

彥祖有這張臉，干什么都會成功的

最新評論

讀覽精華

熱門推薦

美國法官暫時叫停哈佛招收外國學(xué)生禁令漫長法律斗爭才剛開始

東方甄選回應(yīng)被造謠文旅直播收天價宣傳費：已勝訴對方判賠3.6萬

以文博會為媒激活荔枝文化基因

金粉世家白小姐報復(fù)燕西為哪般？主要她做了件丟份兒的事