作為一家上市公司的老板,出門問問創始人、CEO 李志飛在最近的新品發布會上并未親自講解產品,而是分享了一場個人的「行為藝術」——一場「一人公司」的實驗。
他給自己設定了一個看似不切實際的目標:在幾天內,用 AI 工具開發出一個專為 AI 組織設計的「飛書」。
作為上一波 AI 浪潮的實踐者,每一次他都走在最前面。2012 年,他離開 Google 科學家的職位回國創立出門問問,立志「用 AI+ 語音重新定義人機交互」,從語音助手、智能硬件到 AIGC。當這一波 AGI 浪潮興起時,他最初也是很興奮地積極投入,但很快意識到這似乎是一場巨頭間的游戲,中小公司難以創造太大價值,一度感到迷茫甚至沮喪。
然而,他通過使用 AI 編程工具,讓自己變身為「一人公司」去實踐和體驗,實踐過程中,他遇到了許多實際問題,但正是這些細節和經歷,又讓他重新找回了 AGI 的信仰。
他突然發現,過往世界中的種種「摩擦力」,所有構建復雜事物的障礙,仿佛都消失了。
那種與 AI 一同狂奔向前,油然而生的自由感和看到希望的激動,在現場演講時溢于言表。
以下為李志飛的發布會演講內容,為便于閱讀,經極客公園編輯整理:
我最近投入大量時間在 AI 領域,并親身實踐了許多具體項目。因此,我對大模型和 AGI 有了新的認知和感悟。今天,我想和大家分享一下這段時間以來,我一直在思考的問題以及我的一些感受。
首先,我們究竟應該如何做 AI?
我這里有一個口訣:「用 AI 的 AI 做 AI」。
這聽起來有些拗口,簡單來說,第一個「AI」指大模型;第二個「AI」是指 Coding Agent,它本身可能也是由 AI 制作的,或者其主要能力源于 AI;最后一個「AI」則是我們自己要做的應用。
我認為這可能會成為一種新的軟件開發范式,稍后我會為大家詳細展開。
一個人,2 天,打造 AI 時代的「飛書」
我前段時間萌生了一個大膽設想:為 AI 原生組織打造一款全新的「飛書」式協作平臺。
美國硅谷有許多獨角獸企業,僅一兩個人團隊就能估值數億美元,也有許多新聞提及 AI 將替代大量工作。
于是我開始思考,作為一家企業組織,像我們在國內高頻使用的飛書、釘釘、企業微信等工具,若無它們,我幾乎無法開展工作。
在以「人」為中心的傳統企業中,我們高度依賴飛書、釘釘、企業微信這類工具,它們承載著信息的快速流動與高效協作。
在傳統的企業中,主要的生產力或工種幾乎百分之百是人。所以,以往的信息流動和協作都圍繞著人進行。
但當一個組織中,10 個工種里有 8 個由 AI 承擔,僅剩 2 個人類角色時,現有的協作工具將無法適應。
那么,對于新型組織而言,他們會使用什么工具呢?
因此,我希望能開發一款產品,它能讓 AI Agent 之間、以及 AI 與人類之間無縫進行群聊、私聊、知識庫問答和任務協作,也期待通過這個項目,驗證自己能否成為一個真正的「超級個體」或「個人獨角獸」。
接下來是如何執行。
通常,像飛書、釘釘這類軟件的開發是極其復雜的。過去,要做這樣的產品,通常需要產品經理、設計師、前端、后端、測試以及算法工程師等多個工種。每個工種可能還有負責人,比如前端負責人、算法負責人、產品負責人。通常,拉一個群很快就會有 20 個人。這 20 人并非所有都是全職做這件事,但他們可能需要花費一個月的時間才能做出一個原型。
在 AI 時代,這實在是太慢了。
等我做出來的時候,或許相關的創業團隊已經成為 AI 獨角獸了。
因此,我決定拋棄舊有模式,親自上陣,并嘗試完全依賴 AI 來完成這項工作。恰逢端午節前夕,我決定沉浸式投入這項工作。當時有三天假期,我想能否利用這三天把這件事做出來。因為只有這樣才不會有人打擾。
于是,我便開始了這項工作。
我一個人,連續兩天,每天工作到大概凌晨一點多,最終在 6 月 1 日晚上 11 點半,完成了這款產品的原型。它具備登錄、私聊、群聊、文件上傳、消息轉發和回復等核心功能。
登錄后,可以選擇私聊并發送消息。比如,我們可以問產品經理這個角色會不會脫口秀,如果他不會,我們可以動態調整角色,增加一個技能,AI 會自動重新生成一個 Prompt。
稍后我們再問他,他現在就會了。它還可以上傳文件(雖然當時文件內容沒有真正讀?。?,也可以轉發和回復具體消息。請記住,它背后是一個 AI,并非真實的人。它可以根據你發送的消息進行回答和轉發。
轉發時,大家可以看到顯示效果非常復雜,與微信類似,因為轉發中嵌套了其他信息。這是一個群聊,也可以 @ 具體的人。同樣,可以轉發、回復、添加附件,甚至可以切換成中文。
請大家鼓掌吧,兩天時間!
兩天時間,我完成了一個帶數據庫、有前端、有后端、有 AI 算法的系統。剛才的 AI 能夠自動回答,當你修改角色配置頁面后,它的 Prompt 會自動重新生成,技能也會立刻顯示出來。
說實話,剛開始我做了半天就差點放棄了,因為數據庫問題搞不定,總是出現各種 Key 錯誤,AI 編程目前確實存在這類問題。但我最終還是在兩天內把它做出來了。
隨后,我思考如何推廣這款產品。
以前,我們公司會有專門的工程師來做這個網站,市場部會有一群人定義產品亮點,可能五六個人忙活一個星期才能做出一個網站。
但我這次決定采用 AI 原生方式。既然 AI 知道所有代碼,它也了解我的所有想法和產品功能,于是我讓 AI 做了一個網站。
于是,我讓 AI 在短短 5 分鐘內搭建了一個帶有產品亮點和獨特功能的網站,又在 5 分鐘內為營銷活動創建了可配置的廣告位。這在過去可能需要多名市場和工程師團隊一周的工作量。
以前我們公司的網站,做了一個營銷位后,如果圣誕節過了要撤下,或者要更換新的內容,以前又要找工程師折騰半天。我就想,我能不能做一個網站,營銷位是可以配置的?
又花了 5 分鐘,AI 做了一個可以配置營銷位的網站。這意味著營銷人員可以登錄這個網站,上傳圖片或其他內容,然后直接修改主網站的相應部分。
做完這些后,我想,因為這是一個全新的產品,它有一些新概念,或者說有一定的復雜度。我能不能制作視頻來解釋這個網站的功能,無論是營銷視頻、操作指南還是產品導覽。
但是端午節,我的員工是不會理我的。所以我只能自己動手。于是,我又寫了另一個程序,它能自動生成整個腳本,包括如何介紹網站、如何操作網站 UI 的工作流程,并進行自動錄屏和配音。
雖然聲音對齊方面還有些小瑕疵,但整個視頻百分之百由 AI 完成。我只需下達指令,它就能自動操作,最終將完成的視頻呈現在我眼前。
這讓我很有成就感,僅僅幾天時間就做出了這個東西。
然后我想看看其他人會如何看待這件事。于是我把代碼上傳到 GitHub,讓我的同事下載下來。但請記住,我們是兩個不同的個體,GitHub 并不知道我是如何與 AI 交流并完成這些的。
所以我的同事最終只看到了代碼,并在本地運行了它。
當我的同事下載我在 GitHub 上傳的代碼并運行后,他們對其復雜性和完成速度感到震驚。他們認為這需要數十人幾個月才能完成,而當我告訴他們,這是在 AI 輔助下,由一個工程師在兩天內完成時,他們的反應是:「This is absolutely insane.」(這簡直是瘋了。)
他們驚訝于其中包含的 4 萬多行代碼,這遠超我以前在 Google 一天 300 行算法代碼的產出。
以前我在 Google,一天寫 300 行算法代碼(非簡單代碼),這已經算是高產了。而我最近寫了一個通用的 Agent,它在 3 個小時,也就是一個晚上,給我寫了 3000 行 Python 代碼。也就是說,那 3 小時,而且代碼質量絕對比我寫的好,里面是沒有任何 UI 的純粹后端邏輯。
換句話說,它 3 小時代碼的能力,相當于我以前 10 個工作日的工作量。就是這樣一個比例。
所以我就在想,一個人就可以完成一個 Google Translate。以前 Google Translate 是由 20 個全世界最頂尖的博士在那里寫代碼,寫了很久。而我現在,我一個人就可以完成那 20 人的工作量。當年 Google Translate 至少還是一個非常了不起且復雜的系統。所以,我覺得從這個角度來說,所有事情都與以前大不相同了。
我認為,最終 AI 的關鍵在于你能夠構建一個自我進化的 AI 系統。
為了方便測試這個 AI 組織的 App,我又自動編寫了代碼:左邊是網站代碼,右邊是一個測試框架。然后,它自己就像左腳踩右腳一樣往上飛。你們可能覺得這是永動機,確實有這種可能性。當然,它有時也會左腳踢右腳往下跌,也就是會負向循環,也會正向循環。
為了實現這個目標,除了工程師,所有非工程師也能夠直接修改我的代碼。我又做了各種各樣的 Agent。
當然,很多這些都是 Prompt,我只是驗證了可行性,并沒有達到真正的可部署或產品化。
但我認為,這證明了這個想法,或者說向團隊演示這就是我想要的東西,以前可能需要花費大量時間才能弄清楚。現在你直接做一個 Demo 給他們看就好了。所以我認為,即便是一個 CEO,如果你有這種能力,你的產出真的是放大了 100 倍。
踩過的坑
前面是我的經歷,接下來我給大家講一下抽象的理論,希望你們不要睡著,因為這還是非常獨一無二的。
我想分享的是在使用 AI 編程時遇到的幾個問題。
第一個問題是每個 Agent,即便我沒有寫 Agent,它仍然需要人工參與。
也就是說,我還是得說「我要寫一個這樣的 Agent」,雖然你可以參考我旁邊的通用 Agent 框架,然后修改一下,再告訴我。但我仍然需要做這件事。有時它總是忘記我的原則,我又要跟它說:「你又忘記我的原則了」,或者「智能到底應該放在哪里?」它仍然存在這些問題。
第二,如果你用過它,它總是喜歡偷工減料。
比如你讓它做某件事,明明還需要涉及到后端數據庫,但它沒做。它完成后就給你寫一份很長的報告邀功,說它做完了。我通??炊疾豢?,直接說:「你已經寫了數據庫了。」它會立刻道歉,然后開始行動。比如我要求它做 AI 時,它經常連遠程的 AI 都沒有調用,自己寫一些 Fallback 或者假的東西。
因為我一看它運行得這么快,就知道一定有問題。我說:「你真的調用了遠程的 AI 嗎?」它又開始道歉,然后去處理。每次都這樣,它還是很喜歡偷工減料,重復的錯誤更是不勝枚舉,我就不贅述了。
另外,我覺得今天的 AGI 事實上做不了超長任務。而我現在的任務很多時候都超過半小時。
我每天消耗的 Token 就是 50 美元。只要我那天想工作,從早到晚它都在消耗 Token。我真的覺得,我完全可以跟它說:「我有一些 Idea,這是我的 Idea 方向,請你幫我完成一個 10 天的任務,幫我賺 500 萬美元?!?/p>
我認為這并非神話,只是我好像對此沒有那么大的吸引力,就沒有去做,或者說,因為這可能要消耗自己很多情緒和精力,賺不到錢的時候會很痛苦。
但我就想,它能否連續工作 10 天,你不用干預它,或者偶爾提醒一下方向,它能否工作一個月,甚至一年?
我覺得在不久的將來,達到諾貝爾獎或菲爾茲獎級別的成果是完全沒有問題的。
因為我與它交流時,有時會討論我們以前學過的超級復雜的算法,全世界可能都沒幾個人研究,它都比很多人聊得好多了。所以,如果你給它足夠的上下文和代碼,它其實可以進行非常深入的溝通。
回歸本質:什么是通用Agent 和智能
接下來,我想跟大家分享一下我對智能和 Agent 的思考。
簡單來說,一個 AI Agent 包含兩個核心部分:規劃器(Planner)和執行器(Executor)。
規劃器通常依托大型語言模型,承載了 Agent 的主要職能。它根據任務制定詳細的計劃。執行器則負責將這些計劃付諸實踐,無論是編寫代碼,還是自動化瀏覽器操作以制作視頻。
Agent 的運作是一個持續的反饋循環:
規劃: Agent 根據任務制定具體行動方案。
執行: 執行器按計劃操作。
獲取反饋: 執行過程中,Agent 從環境中獲得即時反饋。例如,當 Agent 嘗試運行「python」命令而本地實際是「python 3」時,系統會報錯,Agent 便能識別并修正為正確的命令。
調整與迭代: Agent 根據反饋重新規劃,更新對當前情境的理解(上下文),然后再次執行。
目標達成: 當預設的成功標準(如程序編譯通過或測試全部完成)達到時,循環結束。
如果我們思考智能的本質,我認為,智能的第一個本質是進化。
就像人類作為智能體,在特定環境中(無論是社交還是任務執行),通過獲取反饋來不斷調整自身行為并進行反思一樣,AI 也應如此。這種進化是自動的,無需人工干預。Agent 自主建立循環,通過規劃、在環境中執行、獲得反饋、調整規劃并更新上下文,實現持續的自我完善。
在此進化過程中,關鍵在于:從自身經驗中學習,以及 Learn from others,就是所謂的群體智慧,從別人那里學習經驗。
智能的第二個本質,我認為是遞歸。
遞歸是一種「分而治之」的思想:一個復雜問題被拆解成更小的、相同類型的問題,直到它們可以被直接解決(即「基本情況」)。
例如,計算斐波那契數列的第 99 個數,就是依賴于第 98 個和第 97 個數,直至追溯到初始的 F0 和 F1。
若 Agent 要實現真正的智能,它也應具備遞歸架構。例如,一個接收「賺 500 萬」這樣宏大任務的 Agent,會逐步將其分解為具體的子任務:分析商業機會、搭建網站、制作視頻、集成支付、社交媒體推廣等。每個子任務最終都能追溯到可執行的「原子 Agen」。
這種遞歸架構的關鍵在于實現自我繁衍。就像人類文明的傳承依賴于一代代人的探索與知識積累,Agent 亦應如此。更重要的是,Agent 必須具備修改自身源代碼的能力。
這與當前 Agent 僅僅調整計劃不同,它意味著 Agent 能夠像修改自身基因一樣,根本性地改變自身運行邏輯。
我相信,如果一個 Agent 能夠:
持續執行并優化其計劃。
在遇到無法解決的問題時,自主修改其核心源代碼。
最終通過這種機制形成知識庫,甚至能夠反向修改大型模型本身。
那么,這將是通向通用人工智能(AGI)至關重要的一步。
另外,真正的 AI 源代碼可能極其簡潔,核心代碼也許不超過百行,但其中蘊含著多層遞歸,使其能在不同環境中探索、學習反饋并自我迭代。
我曾有過信仰崩塌。2023 年我有了 AI 信仰,但做了一段時間,主要是因為沒有資金支持,覺得燒不起,所以就放棄了。去年,別人跟我講 AI,我都不想聽。
但最近我重新找到了對 AI 的信仰,甚至信仰了 AGI,信仰了超級智能。這是一個難以想象的轉變。我希望我對這份信仰能夠這次持續更久一點。
個性化環境與上下文的重要性
那么,除了大模型之外,最重要的是什么?最重要的是你要有個性化的環境和 Context(上下文)。
如果在美國,我做了一個大模型,我可能就被 Google 收購了,賺了很多錢。或者我做了一個硬件,我可能被蘋果收購了,賺了很多錢。所以這種反饋一定會造就你這個人的行為是完全不一樣的。同樣一個創業者,同樣的智商,在中國和美國不一樣的創業環境下,得到的反饋不一樣。最后你的行為,你的思考模式就會完全不一樣。這就是我想說的,什么是個性化的環境,個性化的上下文。
上下文更多是一個歷史的記錄。
所以回到我之前講的,在大模型時代,我是第一批站出來說要做大模型的,但可能也是第一批意識到這不是我的菜。然后,基本上沒有全身心投入去做這件事,就是因為我不知道如何參與。
今年上半年時,我更覺得除了全世界那三四個巨頭,其他公司都沒有資格談論模型,不要湊熱鬧,不要浪費你的生命。更不要浪費你的情緒在這里面。因為你根本就沒有機會,那完全是在燒錢,而且事實上大模型本身這個東西,我覺得已經變得超級無趣,反正就是燒錢。我找不到切入點,我更不能理解絕大部分 AI 公司到底還有什么價值。
但是這一次,通過實踐和重新審視,我覺得哪怕是高大上的 AGI,至少我自己覺得我好像又可以參與了。
所以,這就是 Agent 的 Planner 和 Executor 這個循環迭代的事情。如果你投入足夠清晰,你能讓智能產生智能,我認為你是可以參與整個 AGI 的過程的。
而大模型本身對你來說就是一個芯片一樣。大家想象高通的芯片、蘋果的手機,到上面的 TikTok。這是完全不一樣的東西。最后反而是做 TikTok 的那家公司獲得了最大的價值。
我發現,即使是雄心勃勃的 AGI 目標,也并非遙不可及。通過構建我所設想的遞歸 Agent 體系,所需資金可能并不龐大,更依賴于創新的智慧。我相信,只要擁有足夠深入的思考和技術能力,即便不是行業巨頭,也能參與到 AGI 的進程中。
出門問問的歷程也印證了我的這些思考。我們自 2012 年起便成為中國首批 AI 公司,從語音助手起步,隨后探索智能硬件(如 TicWatch、TicMirror)。雖然經歷了市場競爭和技術不成熟的挑戰,但我們始終走在最前沿。
2019 年后,我們轉向軟件,成為中國乃至全球首批 AIGC 軟件公司之一。例如,魔音工坊曾為抖音等平臺貢獻了大量配音內容,我們還開發了奇妙元(數字人視頻生成)等產品。
在中國這樣的競爭環境中,一家科技公司就像一個不斷迭代、自我修正的 Agent。
正如出門問問的「源代碼」已與 2012 年初創時大相徑庭,這是我們持續進化的體現。