關于ZAKER 合作
      鈦媒體 昨天

      90% 被大模型吃掉,AI Agent 的困局

      文 | 光錐智能,作者|魏琳華,編輯|王一粟

      "90% 的 Agent 會被大模型吃掉。"

      7 月 15 日,金沙江創投主管合伙人朱嘯虎一如既往地語出驚人,這次炮轟的是近一年 AI 圈最炙手可熱的 Agent。

      在 "Agent 之年 " 進程過半的時候,最近傳來的似乎卻多是悲觀的判斷和信息。就在上周,Manus 總部遷移至新加坡、國內裁員 80 人以及放棄國內版本上線的一系列動態,也讓大眾開始討論起,Manus 到底怎么了?

      背后有身為美元基金的 BenchMark 領投、底層模型包含 Gemini、Claude 等一系列海外模型,加之曾陷入缺算力資源的傳聞,Manus 的出走,已經印證為形勢所迫的轉移和調整,而非經營失敗導致的撤退。

      但圍繞以 Manus 為首的通用 Agent,它們頭頂的烏云尚未散去:一邊是 Manus、Genspark 們收入變現的下滑,另一邊是用戶活躍度的下跌。

      這種局面,揭示了當下通用 Agent 賽道的核心問題:在技術熱潮和資本狂歡過后,產品尚未找到能讓廣大 C 端用戶持續 " 忠誠 " 并為之付費的殺手級應用場景,只能被偶爾拿來做個半成品 PPT、找幾份報告。

      通用 Agent 市場,正在被模型能力的溢出蠶食,也被垂類 Agent 搶走份額。

      轉戰海外,Manus 們怎么了?

      通用 Agent,陷入了一個尷尬的境地。

      在幾個月的時間里,通用 Agent 誕生時的驚艷不復存在:放在企業里,它無法和垂類 Agent 的精準比肩;拿到個人手上,它又沒有找到更戳中用戶需求的場景。

      模型能力的提升,先對 Agent 們 " 砍了一刀 "。

      隨著大模型能力的飛速發展,模型本身正在變得越來越 "Agent 化 ",隨著模型性能的溢出,用戶可以直接調用模型來完成任務。

      以目前進展更快的 AI 代碼為例,Anthropic 的 Claude、谷歌的 Gemini 系列模型,模型本身的編碼能力就在隨著更新提升,其自研的編碼工具(如 Claude Code)不僅能給實現自主編程,優化種種產品體驗之外,它的 Max 會員模式還支持用戶隨意調用自家模型,即使是每百萬輸出 tokens 收費 75 美元的 Opus 4,單月 200 美元同樣支持不限量使用。

      對比 Manus 最貴的 Pro 會員每月 199 美元的付費模式,價格雖然接近,但 Manus 的最高檔會員依舊是以積分制消費,Pro 會員單月能獲得每日贈送的積分 + 單月 19900 積分 + 限時 19900 積分,靠任務消耗積分制來服務。按照單個任務 100 積分估算,一天使用次數也就在 10 次左右。

      制約 Manus 的成本問題,轉嫁到用戶身上,就是不可消除的高訂閱價。

      當模型本身就能提供接近 Agent 的體驗時,用戶會自然傾向于直接使用更便宜、更便捷的模型 API 或對話界面,而非額外付費使用一個功能重疊的通用 Agent 產品。這導致一部分市場份額被能力日益強大的基礎模型直接 " 吃掉 "。

      面向用戶來說,對比垂類 Agent,通用 Agent 在企業端的應用效果不佳,從效率 / 成果衡量,都無法達到 " 數字員工 " 的高度。

      朱嘯虎說 "90% 的 Agent 市場會被吃掉 ",但他所在的金沙江創投也參與了 AI Agent 項目融資,只是相比于通用 Agent,他更看好能真正跑出效率和實際落地的產品。

      金沙江投資的 Head AI(原 Aha Lab),就是一家靠 AI Agent 做自動化營銷的公司,現在升級為 AI 營銷產品。用創始人的話來說,只需告訴 Head 你的預算和網站,它就能自動搞定達人營銷、聯盟營銷和 Cold Email ——一個人解決一個市場部。

      對于企業用戶而言,準確度和成本是核心訴求。但通用 Agent 目前還無法與針對特定場景優化的垂類 Agent 相提并論。

      如果把一樣的任務交給通用 Agent 和企業內部的垂類 Agent 去做,前者只能靠搜索引擎結合需求給出結果,而后者則會連接到企業內部搭建好的知識庫,根據內部信息貼合需求輸出,相當于后者身上 " 綁 " 了個更充足的資料庫,結果不言而喻。

      企業在引入新技術時,對成本和風險的控制要求極高。通用 Agent 通常基于龐大而復雜的 " 黑盒 " 模型,其決策過程不透明,且輸出結果存在一定的隨機性(即 " 幻覺 " 問題)。對準確度要求更高的企業,顯然無法接受通用 Agent 不穩定的輸出質量。

      一位 Agent 開發者告訴光錐智能,企業通常需要將 Agent 與內部知識庫、業務流程系統深度集成,部分簡單的工作則會通過工作流來確保任務準確執行。

      夾在大模型和垂類 Agent 之間,通用 Agent 被兩者各自瓜分走了一大塊蛋糕。

      沒場景、待進化,Agent 才走了個開頭

      在 " 用不起來 " 的情況下,用戶對通用 Agent 熱情也不復當初。

      這也導致,以 Manus 們為代表的 C 端通用 Agent 正在面臨增長放緩、甚至倒退的困境。

      雖然從商業化上來說,通用 Agent 確實展現了足夠吸金的一面。以 Manus、Genspark 等通用 Agent 為代表,近幾個月的變現成績證明了這個賽道的潛力:非凡產研數據顯示,今年 5 月,Manus 已經達到 936 萬美元 ARR(年化收入),Genspark 更是在發布 45 天的情況下,達到 3600 萬美元 ARR。

      但在短期的流量上漲過后,通用 Agent 產品們或多或少地出現了訪問量和收入下降的情況。

      6 月,Manus 訪問量為 1781 萬,和 3 月發布即登頂的訪問量 2376 萬相比,已經下跌 25%;Genspark 的訪問量也處在來回浮動的狀態,6 月訪問量為 842 萬次,下降 8%,昆侖萬維天工超級智能體下降 3.7%。

      同樣是在 6 月,兩個商業化表現突出的產品 Manus 和 Genspark 出現不同程度的收入下跌。據非凡產研數據,Manus 當月 MRR(月度收入)為 254 萬美金,環比下跌超過 50%;Genspark 當月 MRR 為 295 萬美金,環比下跌 13.58%。

      上述數據說明,在一時的熱度過后 ,通用 Agent 類產品的使用體驗并沒有能讓用戶持續付費的吸引力。同時,用戶體驗的頻次也在減弱。

      究其原因,還是因為 Manus 們沒有找到足夠讓用戶為之持續付費的 Killer(殺手級)場景。

      目前,市場上多數通用 Agent 都在卷幾個固定的方向:做 PPT、多模態能力、寫報告(Deep Research),多聚焦于和辦公強相關的場景。但對于用戶來說,這些定位還難以讓用戶持續付費。

      在沒有找到確切的應用方向前,通用 Agent 賽道已經有一批公司先靠產品下水測試,意圖先搶占市場。

      變現和流量不穩定的情況下,大廠對自研 Agent 的精力投入有限,一般還是采取 " 兩手抓 " 的模式,在開發自家 Agent 產品之外,目前更多地在推廣自家 Agent 開發平臺。比如阿里、字節和百度,推廣平臺的同時發福利、組織 Agent 開發比賽,聚焦開發者生態搭建。

      市場似乎已經默認,通用 Agent 是小廠玩不起的生意。

      可以看到,在國內市場,除去 Manus 和 GensPark 零星幾家創業公司,多數通用 Agent 的開發公司都是手握自研大模型的公司:

      其中,大廠不僅有模型,背后還有自家云做支援。通用 Agent 既是產品,也是他們作為 B 端平臺,通過 C 端產品展示能力的一面鏡子,以此招徠更多開發者。

      大模型創業公司則本著 " 模型即 Agent" 的思路,更多在模型層就針對 Agent 對 RL(強化學習)、長文本等需求鉆研模型,才有了通用 Agent 產品。

      國內通用 Agent 玩家的收費模式,也比出海的方式更卷。以百度、字節為代表的大廠有能力公開測試,免費提供服務。如 MiniMax、天工智能體等則以限量使用或是購買積分使用的方式開放。和大廠免費不限量的手段相比,國內通用 Agent 賽道注定會越來越卷,商業化變現是一條看不到收益的路。

      從場景來看,DeepResearch 式的深度研究功能是更多產品選擇主攻的方向,對于文檔類 Agent 來說,調用工具的復雜程度相對較低,且文本生成的成本更低,算是一個更有性價比的方向。

      在開發深度研究功能的基礎上,各家 Agent 開始在多模態能力和應用場景上發力。一方面,在生成的文檔中插入圖片、視頻等多模態能力,另一方面,把目前和 Agent 契合的場景植入到通用 Agent 中,比如做 PPT,幾乎成了辦公 Agent 的標配。

      但無論是拿來做報告,再用圖文錦上添花,還是用 Agent 做 PPT,背后都無法解決 Agent 輸出效果一般的問題。比如一份深度研究報告,Agent 最容易出現的是對事實信息檢索的錯漏,比如無法厘清 Agent 概念從而推薦大模型產品。

      進一步的問題是輸出的信息價值不高。一份報告,零星只有 3-4 個信源,更多內容從網絡篩選得來,往往只能得到模棱兩可的 " 廢話 "。比如要它介紹大模型公司的生存挑戰,它把開公司可能存在的問題都列個遍,既沒有針對性,也不具備有價值的增量信息。

      于是,企業開始探索更多 Agent 能匹配的場景,試圖吸引更多用戶參與。Agent 也難免后續變成自家公司產品的 " 集合入口 ",被公司用各種方式把自家產品能力整合進去,比如 MiniMax 融入了海螺生視頻的能力,百度心響在場景中接入了原有的智能體對話等。

      除了找不到貼合場景,當前 Agent 能力有限,效果不一,也難以讓用戶為之買單。

      通用 Agent 執行任務一般是拆解任務,再按照步驟執行。越復雜的任務,就意味著 Agent 執行的過程更多,其中只要有任何一個步驟跑出的結果有問題,就會導致整體輸出結果質量不佳。所以,對于復雜任務來說,當前 Agent 執行的穩定性不足。

      比如,輸出對一家公司的分析,就要從財報信息抓取、公司網頁介紹到各大信源的分析點評,其中有任何一個環節結果出錯,整體報告的分析質量就會大打折扣。

      當下,一些 Agent 開發者正試圖通過技術創新來突破這些瓶頸。

      比如 MiniMax 把年初發布的新的線性注意力機制用到了新模型 M1 中,其智能體產品以 M1 模型為基座模型。這樣的好處是大幅擴展了智能體能夠承載的文本量,支持 100 萬的上下文輸入,針對法律文書這類需要大量文本分析的場景效果更好。

      月之暗面則強調 " 模型即 Agent",其基座模型是月之暗面基于端到端自主強化學習技術訓練的新一代 Agent 模型。其中,RL(強化學習)成為這個深度研究 Agent 的亮點。

      多數業內人曾在和光錐智能交流中肯定 RL 之于 Agent 的重要性。相比傳統的監督學習或預訓練模型在特定任務上表現出色,但其泛化能力往往受限于訓練數據的分布。當 Agent 需要處理的任務場景多樣化、環境動態變化時,預設規則或僅依賴一次性推理的 Agent 難以適應。

      比如,在處理一些需要多個流程完成的任務中,傳統模式可能在任一個環節中出現推測問題,進而影響到最終結果,但 RL 則是靠大量試錯和獎勵機制來提升泛化能力,對于需要多個步驟處理的復雜任務,表現效果更好。

      Kimi-Researcher 主動針對矛盾信息的處理

      可以說,RL 能夠大幅提升 Agent 的能力上限。

      Kimi-Researcher 研究員馮一塵分享,在 Humanity's Last Exam(HLE,人類的最后一場考試,衡量 AI 在各學科難題上的測試)榜單上,=gent 模型得分從最初的 8.6% 躍升至 26.9%,相比 OpenAI Deep Research 團隊在相關工作上從 20 分左右(o3)提升到 26.6 分的成果,進一步證明了強化學習在 Agent 訓練上的巨大價值。

      在技術的天花板還夠高的情況下,后來者正在拔高 Agent 的能力標準。今日(7 月 18 日),OpenAI 發布的通用 Agent 產品 ChatGPT Agent 跑出了一個漂亮的效果,在 HLE 測試表現上,取得了 41.6% 的新 SOTA 成績。

      通過強化學習,Agent 有望從簡單的 " 工具調用器 " 進化為真正具備 " 自主學習 " 和 " 環境適應 " 能力的智能體。屆時,通用 Agent 或許才能真正找到殺手級場景,并讓用戶心甘情愿地為其買單。

      Agent 的路還很長,只有靠技術突破和場景深耕,才能成為真正幫得上忙的 AI 助手。

      相關標簽
      ai
      主站蜘蛛池模板: 亚洲综合无码AV一区二区| 日本不卡一区二区三区| 无码国产精成人午夜视频一区二区 | 亚洲AV色香蕉一区二区| 久久久久久综合一区中文字幕 | 交换国产精品视频一区| 亚洲Av永久无码精品一区二区| 麻豆AV天堂一区二区香蕉| 国产一区在线播放| 精彩视频一区二区| 精品国产一区二区三区在线观看| 精品国产高清自在线一区二区三区| 另类免费视频一区二区在线观看| 香蕉视频一区二区| 久夜色精品国产一区二区三区| 激情爆乳一区二区三区| 国产色欲AV一区二区三区| 日本精品一区二区三本中文| 国精产品999一区二区三区有限 | 国产午夜精品一区理论片飘花 | 无码人妻少妇色欲AV一区二区| 一区二区三区电影在线观看| 日本精品啪啪一区二区三区| 国产伦精品一区二区三区在线观看| 欧美日韩一区二区成人午夜电影| 麻豆一区二区免费播放网站| 日韩一区二区视频在线观看| 曰韩人妻无码一区二区三区综合部| 日本视频一区在线观看免费| 麻豆精品人妻一区二区三区蜜桃| 日韩AV片无码一区二区不卡| 国产AV天堂无码一区二区三区| 一区二区三区无码高清| 中文国产成人精品久久一区| 国偷自产Av一区二区三区吞精| 国产亚洲无线码一区二区| 乱子伦一区二区三区| 在线电影一区二区| 变态拳头交视频一区二区| 亚洲欧洲一区二区| 韩国资源视频一区二区三区|