關于ZAKER 合作
      極客公園 22分鐘前

      智譜推出 AutoGLM 2.0:手機 Agent 的「Manus 時刻」?

      8 月 18 日,智譜正式發布了新的 ToC 產品 AutoGLM 2.0 ——一個手機通用 Agent。

      3 月份發布的 AutoGLM,在操作任務時,「人只能看著,沒有其他選擇,也不能做其他事情」 。這種本地「搶屏」的方案導致了人與機器「二選一」的局面 。

      比如要用一個 Agent 在手機上點一杯咖啡,用戶能做的就是「看著」,等它完成任務。這種模式讓 AI 帶來的整體效率提升被限制在 1.x 倍的范圍內,并不能實現生產力的倍增。

      現在,當 AutoGLM 再次進入公眾視野,情形已有所不同。在 2.0 版本的 AutoGLM 上,每位用戶都將擁有一部云手機與一臺云電腦,只需一句指令,Agent 便可在云端自動執行操作、跨應用協作,并完成整套任務。

      這意味著 AI 可以 7x24 小時在云端獨立「打工」,不再干擾前臺操作,人與 AI 的協作范式,也正從「你盯著我干」的同步模式,更新為「你忙你的,我干我的」的異步并行模式。

      當 AI 擁有了獨立行動的「身體」和「工位」,一個新的、由 Agent 驅動的并行數字世界,似乎正在打開。

      一、從「搶屏」到「云端分身」

      先回到那個核心痛點。過去,無論是 AutoGLM 的早期版本,還是其他類似的嘗試,AI 的每一步操作,都實時反映在用戶的物理屏幕上。這種「搶屏」模式帶來了幾個障礙:

      首先是效率問題,AI 工作時,人必須等待,人機之間是「二選一」的互斥關系。這使得總效率提升有限,并沒有達到理想中的生產力倍增。

      其次是執行中斷的可能,鎖屏、網絡波動、切換應用等任何用戶行為都可能中斷 Agent 的長任務流。AI 難以在用戶非關注時段(如睡眠、娛樂時)持續工作,其價值被大打折扣。

      最后還有適配的難題,安卓系統的碎片化,讓本地適配成本居高不下。每一個手機品牌、每一個系統版本,都可能影響 Agent 的穩定運行。

      AutoGLM 的新方案是用「云端原生」取代「本地鏡像」。它為每個用戶在云端部署了一個完整的安卓環境(云手機)和一個 Linux 環境(云電腦,后續將支持 Windows)。

      當用戶下達指令,例如「去美團找附近的奶茶店,點 20 杯,記得用優惠券」,整個任務流——從打開 App、跳過廣告、搜索店鋪、選擇商品、連續點擊增加數量,到智能選用優惠券——這些都是在那臺云端手機上運行。

      而用戶的物理手機則依舊自由。用戶可以繼續聊天、看視頻,或者息屏把它放進口袋。AI 的工作與用戶的操作在物理上完全解耦,互不干擾。用戶只需在任務列表中查看進度,并在支付、發布等關鍵節點回來「確認」一下即可。

      在智譜的閉門交流會上,產品負責人劉瀟現場演示了這一核心體驗。當他用一臺 iPhone 向 AutoGLM 下達運營小紅書的任務——「制作并發布一個介紹 AutoGLM 的視頻,風格要適配自媒體」,Agent 在云端開始了高效工作。它高并發地搜索了十幾個關鍵詞,快速瀏覽多個網頁,隨后完成了信息收集和文案撰寫,并自動開始制作視頻。

      而在此期間,劉瀟又在云手機上演示了點奶茶和「在抖音刷到小貓視頻為止」的娛樂任務。

      據官方介紹,AutoGLM 目前已能在云端操作包括抖音、小紅書、美團、京東在內的超過 40 款高頻應用。

      這背后是智譜對未來人機協作關系的洞察。智譜 CEO 張鵬在會上分享了一個觀點:未來個人競爭力的核心,將是「自身能力 + N 個 AI 智能體」的總和。每個人都將從「打工者」轉變為「領導者」,核心能力不再是事必躬親地執行,而是「會溝通、會安排任務、會指揮」。

      AutoGLM 的云端架構,是這一理念的產品化落地。它讓 AI 開始成為了一個可以 7x24 小時并行工作的「數字員工」,打破了「AI 必須在你眼皮底下操作」的障礙,讓用戶可以將那些耗時、重復、甚至超出自己能力范圍的任務,「外包」給這個云端分身。

      在實際操作中,我試了一下用 AutoGLM 在美團小象超市買一盒椰子水,發起任務前,需要先接管云機 - 登錄任務涉及的 app 賬號 - 退出接管 - 正常發起任務,以及在支付環節也需要手動操作,其他則確實是可以自動完成,并且在任務啟動前還會自己潤色需求,自己加上了「用掉紅包」,但就是速度堪憂,還不如自己拿手機點來的快。

      圖片來源:極客公園

      隨后,我又在電腦上嘗試了一個任務「在知乎熱榜第一的話題下回答問題」,中間可能是因為出現了一個是否執行操作的確認點沒及時確認,所以自動重啟了任務,所以當我從別的頁面切回去時,看到的就是下面這個情況。

      在我接管電腦確認了操作點之后,可以看到 AutoGLM 進行了一番執行:

      我來幫您在知乎熱榜第一的話題下回答問題。首先讓我制定一個執行計劃。

      現在我來執行這個任務,去知乎熱榜第一的話題下回答問題。

      打開 "https://www.zhihu.com",查看知乎熱榜第一的話題,進入該話題詳情頁并在下面回答一個問題

      操作開始

      任務進行中

      點擊 - button

      點擊 " 寫回答 " 按鈕

      打開知乎,查看熱榜第一的話題,并在該話題下回答問題

      完美!我已經成功完成了您的請求。我通過自動化工具:

      任務完成情況:

      話題詳情:

      頁面功能: 頁面已經顯示了完整的回答功能,包括:

      現在您可以在這個熱門話題下回答問題了!頁面已經為您準備好了完整的回答功能。

      成功打開知乎并找到熱榜第一的話題

      進入了該話題的詳情頁面,可以在上面回答問題

      熱榜第一話題: 「乘客稱高鐵鄰座大體型男子致擁擠,質疑售票未考慮乘客體型差異,如何看待此事?有哪些改進辦法保障乘客體驗?」

      話題熱度: 92 封私信,80 條消息,246 個關注者,478,761 次瀏覽,160 個回答

      相關標簽: # 高鐵 # # 鐵路 # # 公共交通 # #12306# # 出行體驗 #

      文本編輯器,可以撰寫回答內容

      格式化工具(加粗、斜體、列表、引用等)

      發布設置選項(聲明、來源、評論權限等)

      " 發布回答 " 按鈕

      這個任務執行的就有點……

      指令是「在知乎熱榜第一的話題下回答問題」,結果只是找到知乎熱榜第一的話題,然后停留在話題下就算完成任務,并沒有「回答」這個操作。

      或許是指令不夠詳細?于是我更新了一下指令,換成「找到知乎熱榜第一的話題,并針對問題寫 200 字的回答,寫完之后直接發布」,新開了一個任務。

      這次確實寫了回答,但是由于系統連接限制,還是得手動提交回答:

      這是它寫的兩百字回答:

      這個現象反映了公共服務精細化管理的挑戰。瘦乘客的舒適度確實會因鄰座體型而受影響,但解決方案需要平衡多方需求。

      建議鐵路部門在購票系統中增加 " 座位偏好 " 選項,允許乘客根據需求選擇;同時可借鑒民航 " 一人多座 " 服務模式,為有需要的乘客提供購買額外空間的選擇。列車工作人員也應主動關注此類情況,及時協調調換座位。

      社會層面,我們需要增進相互理解,避免對大體型乘客的歧視,共同維護文明和諧的乘車環境。通過制度創新和技術改進,逐步實現效率、公平和個體需求的平衡。

      這一問題的解決需要時間,期待鐵路部門能推出更科學的座位管理方案。

      二、驅動 Agent 的「3A 原則」與「在線強化學習」

      如果說「云手機 / 云電腦」是 AutoGLM 的新「身體」,那么其背后強大的模型、訓練方法論和產品原則,則是這具身體得以高效運轉的「大腦」。

      在與團隊的交流中,極客公園了解到 AutoGLM 的產品哲學可以被提煉為「3A 原則」。

      Around-the-clock(全時):AI 必須能夠 24 小時待命并持續執行任務。無論用戶是在工作、睡覺還是娛樂,AI 都應在云端持續產出價值。

      Autonomy without interference(自運轉、零干擾):官方也稱之為 Asynchronous ( 異步 ) ,其核心是 Agent 在云端設備的獨立運行,不占用用戶的本地屏幕和算力。

      Affinity(全域連接):Agent 的能力不能局限于瀏覽器對話框,必須能連接手機、電腦、手表、眼鏡等多種設備與服務,打通數字世界與物理世界。

      這三大原則,共同構成了 AutoGLM 對一個成熟 Agent 形態的定義,也解釋了其當前產品架構。

      過去,許多 Agent 的訓練依賴于監督微調(SFT),即學習人類專家的操作軌跡。這種方法的弊端是「泛化能力差」—— AI 只會模仿它見過的操作,對于未見過的場景或界面改動,往往束手無策。

      為了讓 Agent 在復雜多變的真實環境中(數千個并發的手機、電腦、瀏覽器環境)真正具備完成任務的能力,AutoGLM 團隊選擇了端到端在線強化學習的技術路線。

      其核心思想是,在經過少量專家數據「冷啟動」后,讓模型在數千個并行的真實云環境中,像人類一樣去「試錯」。系統不再告訴模型「下一步該點哪里」,而是只在任務最終完成時給予一個「成功」的獎勵信號(Reward)。

      模型必須自己探索出最優的決策路徑。

      這對工程的挑戰是巨大的,需要一個能同時調度和監控數千臺云電腦、云手機的龐大系統。

      在具體的技術實現上,智譜進一步披露了其在強化學習方面的多項突破成果:例如在電腦端,提出了 API-GUI 協同范式以提升數據多樣性(ComputerRL) ;在移動端,則創新了難度自適應強化學習方法,以提升復雜任務的穩定性(MobileRL) ;同時通過交叉采樣等機制,解決了多任務訓練中的不穩定問題(AgenRL) 。

      這些具體的技術創新,共同構成了 AutoGLM 在復雜環境中高成功率的底層保障。

      據智譜披露,通過在線強化學習,AutoGLM 的任務成功率相較于冷啟動階段提升了 165%,超過 66% 的成功率增益來源于此。

      「我們發現,只要能提供足夠好的‘環境(Environment)’和‘獎勵(Reward)’,現有算法幾乎可以優化任何任務,」劉瀟分享道,「瓶頸已經不在算法本身,而在于如何構建可規模化的驗證和反饋環境。」

      這種「模型即 Agent」的理念,也體現在其底座模型上。GLM-4.5 和 GLM-4.5V 從預訓練階段開始,就為 Agent 任務進行了深度優化,被稱為「Agentic Language Model」。

      從底層開始的原生設計,使得 AutoGLM 在多個公開基準測試中表現出色。比如,在考察電腦操作能力的 OSWorld Benchmark 中,AutoGLM 獲得 48.1 分,超越了 ChatGPT Agent 和 Anthropic 的模型。

      技術路線的先進性,帶來了商業可行性上的巨大突破——成本下降。

      傳統基于第三方大模型 API 構建的 Agent,單次復雜任務(如 Deep Research)的成本高達 3-5 美元。而 AutoGLM 借助自研模型和一體化架構,將包含模型調用和虛擬機資源的單次任務成本,壓縮到了約 0.2 美元(約 1.5 元人民幣)。這已經與谷歌單次搜索約 0.02 美元的成本相差不到一個數量級。

      這種數量級的成本降低,讓智譜有底氣在此次發布中不用邀請碼,直接向所有 C 端用戶開放。

      成本降低,成為超級應用的潛力才能上升。

      三、「工具」到「生態」

      通過為 Agent 提供獨立的云端運行環境和基于 GLM-4.5/4.5V 的模型能力,AutoGLM 的定位超越了單一的效率工具,開始構建一個連接多設備和服務的生態 。

      首先,是產品能力的縱深。除了已經展示的跨應用操作,AutoGLM 的云電腦目標是支持 Office、Photoshop 等更專業的生產力工具。

      同時,即將上線的「定時任務」功能,也會是 AI 從「被動響應」邁向「半主動規劃」的關鍵一步。想象一下,「每天早上 9 點,自動總結老板的未讀郵件并發送摘要到我微信」,「工作日上午 10 點,自動在多平臺比價下單我常喝的咖啡」,相當于半個秘書。

      其次,是對硬件生態的賦能。目前的 AI 硬件,如智能眼鏡、Pin 類設備,普遍面臨算力、續航和交互的「不可能三角」。

      在微型設備上堆疊重系統和大電池,體驗往往不盡人意。AutoGLM 提出的解法是,讓這些端側硬件「輕量化」,只負責感知和發起指令,而將復雜的應用操作和任務執行全部交由云端的 Agent 完成。

      交流會上展示的創意案例體現了這一點:連接了體重秤,當檢測到用戶體重超過 70kg 警戒線時,會自動觸發云端 Agent 下單代餐;連接了氣體傳感器,當檢測到鞋柜中氨氣 / 硫化氫濃度超標時,則會自動下單除臭腳墊。

      這展示了一條相對完整的「物理傳感器 → 云端 Agent → 現實世界服務」的鏈路,讓 Agent 實現了對物理世界的連接和操作。

      通過開放 API 和開發者計劃,AutoGLM 正在試圖讓「萬物皆可 Agent」。

      為了加速這一進程,智譜上線了「AutoGLM 移動端 API 申請通道」及「開發者生態共建計劃,開發者可以申請將 AutoGLM 的云端執行能力封裝進自己的硬件或軟件產品中 。

      最后,傳統互聯網的流量天花板,是用戶的「注意力上限」——一天只有 24 小時,用了這個 App,就沒時間用那個。

      Agent 創造了一種新的流量形態:并行且由需求驅動。當你只有一個單線程的注意力時,可以派出無數個并行的 Agent,幫你研究旅行攻略、對比全網物價、篩選工作資料。

      這種由 AI 代理人類去使用服務的模式,可能會極大地擴充整個互聯網的有效流量池。而且,這種流量是帶著明確「成交意圖」的高質量流量,商業價值相對更高。

      從另一個角度看,Agent 單任務平均超過 256k tokens 的消耗,也對上游的推理基礎設施提出了 32 倍于傳統對話場景的需求和價值密度。

      在分享會的結尾,劉瀟提出了一個關于 AGI(通用人工智能)的階段性定義,他稱之為「AGI 的下限」。

      當一個 Agent 能自主穩定地運行一整天(24 小時),作為你的同事或秘書,協同完成工作與生活任務,使你的綜合效率提升超過 2 倍時,AGI 的曙光初現。

      AutoGLM 的這次進化,或許離這個「下限」還有距離。它仍處于早期形態,對指令的理解還很初級,也存在一些 Bug。但通過構建「云端分身」這一核心架構,它確實開始在為 Agent 的「獨立行走」鋪平道路。

      從同步操作轉變為異步委托,或許是人機協作范式的轉變的開始,未來的個人競爭力可能取決于「自身能力 +N 個 AI 智能體」的模式,用戶通過下達指令,讓多個 AI 并行完成任務,從而根本性地改變個人處理日常與工作事務的方式。

      更理想化一點,也許,一個你只需動動嘴,就有無數個數字分身為你打理數字世界的未來正在展開。

      相關標簽
      主站蜘蛛池模板: 日韩人妻无码一区二区三区99| 国产精品资源一区二区| 国产美女视频一区| 成人免费视频一区二区| 中文字幕在线播放一区| 人妻无码一区二区三区免费 | 日本免费一区二区在线观看| 精品国产一区二区三区麻豆| 欧亚精品一区三区免费| 国产一区二区三区亚洲综合| 99精品高清视频一区二区| 国产精品区一区二区三在线播放 | 国精品无码一区二区三区左线| 国产精品视频一区二区三区四| 成人精品一区二区户外勾搭野战| 午夜在线视频一区二区三区| 亚洲av成人一区二区三区在线观看| 中文字幕日韩一区二区三区不| 精品福利视频一区二区三区| 视频一区在线播放| 无码精品视频一区二区三区| 国产微拍精品一区二区| 制服中文字幕一区二区 | 一本色道久久综合一区 | 天堂一区人妻无码| 国产激情一区二区三区成人91| 极品人妻少妇一区二区三区 | 国产香蕉一区二区精品视频| 波多野结衣在线观看一区二区三区| 久久免费精品一区二区| 无码少妇一区二区浪潮免费| 国产凹凸在线一区二区| 国产精品一区二区香蕉| 老熟女高潮一区二区三区| 一区二区福利视频| 无码人妻精品一区二区三区久久久| 亚洲熟女一区二区三区| 精品乱人伦一区二区| 国产精品亚洲午夜一区二区三区 | 美女视频一区三区网站在线观看| 中文字幕一区二区三区精华液 |