文 | 窄播,作者 | 李威
在超能創(chuàng)意 1.0 推出兩個(gè)月后,豆包開(kāi)始灰度測(cè)試超能創(chuàng)意 2.0。
后者優(yōu)化了對(duì)模糊意圖的處理能力,能夠解析圖片細(xì)節(jié),一句話實(shí)現(xiàn)對(duì)給出圖片的復(fù)刻,并且可以將不同參考圖的靈感元素融合到一起,創(chuàng)作出一張全新的圖。甚至,你可以給到豆包超能創(chuàng)意 2.0 一組人物圖片,讓其利用這些人物生成一個(gè)繪本故事。
處理圖片之外,豆包還將具備視頻解析能力,支持用戶上傳視頻或視頻鏈接來(lái)提取逐字稿,或者直接拆解上傳內(nèi)容的分鏡、腳本和剪輯手法。從看到的展示效果來(lái)看,豆包可以輕松完成逐字稿的提取,但對(duì)剪輯手法的拆解,還比較模糊,不能讓用戶據(jù)此進(jìn)行復(fù)刻。
客觀來(lái)講,相比超能創(chuàng)意 1.0,超能創(chuàng)意 2.0 在能力上有了大幅提升。這需要?dú)w功于豆包大模型 1.6 版本提供的支持,這個(gè)版本的豆包大模型支持深度思考、多模態(tài)理解和復(fù)雜 Agent 的構(gòu)建。此外,豆包超能創(chuàng)意 2.0 還接入了圖片生成模型 seedream 3.0、圖片編輯模型 seededit 3.0 和視頻生成模型 seedance 1.0 Pro。
過(guò)去幾個(gè)月,豆包陸續(xù)推出了一系列能力更新。超能創(chuàng)意之外,還有 AI 播客、應(yīng)用創(chuàng)造 1.0、視頻通話等能力。除了視頻通話是與圖片生成、音樂(lè)生成一樣的基礎(chǔ)能力拓展,其它幾項(xiàng)能力都屬于在基礎(chǔ)能力上拓展出來(lái)的場(chǎng)景化 Agent,相比基礎(chǔ)性能力有了更多產(chǎn)品化的優(yōu)化。
這類 Agent 能力的增加,也在讓豆包變得更好用。豆包正在從最初主打社交的聊天機(jī)器人,演變成一個(gè)「AI 助理 +AI 辦公桌面」的組合。AI 助理能夠?qū)崿F(xiàn)更隨身、更人性化地交流溝通,其載體是移動(dòng)設(shè)備;而 AI 辦公桌面更強(qiáng)調(diào)復(fù)雜需求的實(shí)現(xiàn),往往需要 PC 這樣的設(shè)備來(lái)作為載體。
沿著這個(gè)邏輯,就可以解釋為什么豆包 App 和豆包電腦版會(huì)給人兩種不同的使用感受。豆包 App 是很多用戶心中的 AI 伙伴,可以聊知心話,可以一起整蠱朋友,也可以通過(guò)視頻通話請(qǐng)她幫忙回答問(wèn)題。豆包電腦版則會(huì)扮演效率工具的角色,提供了一個(gè)用戶與豆包一起工作的操作臺(tái)。
同一個(gè)豆包具備了生活和工作兩種形態(tài),并可以在兩種形態(tài)中毫不違和地進(jìn)行切換。背后作為支撐的,是字節(jié)搭建起來(lái)的越來(lái)越明確的 AI 體系。這個(gè)體系最基礎(chǔ)的是火山引擎提供的云設(shè)施;在此之上一層是不斷進(jìn)化的豆包大模型;再上一層是作為「AI 助理 +AI 辦公桌面」的豆包應(yīng)用;再上一層是抖音、耳機(jī)、眼鏡等豆包的載體。
這個(gè)體系下,豆包應(yīng)用發(fā)揮了承上啟下的作用。承上指的是,豆包應(yīng)用與豆包大模型的融合更緊密,能夠快速將豆包大模型的能力應(yīng)用化、場(chǎng)景化,成為更具實(shí)用性、門(mén)檻更低的工具。啟下指的是,豆包應(yīng)用是字節(jié)對(duì)外輸出 to C 的 AI 能力的核心樞紐,串聯(lián)起了字節(jié)旗下不同的軟硬件應(yīng)用。
這也是為什么我們會(huì)認(rèn)為,字節(jié)是國(guó)內(nèi)諸多 AI 廠商中展現(xiàn)出更強(qiáng)野心和更完整思考的一家。
其中一個(gè)理由是,我們覺(jué)得豆包現(xiàn)在的布局中有考慮到硬件的變化。目前的豆包應(yīng)用分成兩個(gè)形態(tài),是為了適應(yīng)移動(dòng)端與電腦端的差異化定位,但如果有一天移動(dòng)端與電腦端基于眼鏡或其它硬件實(shí)現(xiàn)了融合,那作為 AI 辦公桌面的豆包也能很快融入到 AI 助理的豆包中。
從社交到效率的變化
從誕生之初到現(xiàn)在,豆包的基礎(chǔ)定位沒(méi)有變化,就是一個(gè)能長(zhǎng)期陪伴用戶的助理。陪伴和擬人化給到了豆包一個(gè)確定的物種定義。在此基礎(chǔ)上,隨著豆包大模型的能力提升,這個(gè)新物種也會(huì)隨之成長(zhǎng)出更豐富的能力,并且開(kāi)始扮演更多樣的角色。這其實(shí)很接近于人從嬰兒到融入社會(huì)的成長(zhǎng)路徑。
這個(gè)發(fā)展路徑,也決定了豆包會(huì)首先考慮到向聊天能力要增長(zhǎng)。在豆包 App 上線初期,團(tuán)隊(duì)對(duì)她的定位是一個(gè)通過(guò)「打電話」的交互方式,為用戶提供陪伴的產(chǎn)品。在去年與另外一個(gè) AI 產(chǎn)品團(tuán)隊(duì)交流時(shí),對(duì)方也會(huì)認(rèn)為豆包的目標(biāo)是做 AI 社交,成為一個(gè)類似 Characte.AI 的產(chǎn)品。
在陪伴聊天基礎(chǔ)上,當(dāng)時(shí)的豆包還拓展出了一個(gè)聊天機(jī)器人生態(tài)。用戶可以自己定制不同角色的聊天機(jī)器人,然后發(fā)布到豆包的智能體頁(yè)面,讓其他用戶選擇和使用。即便是出現(xiàn)了英語(yǔ)外教、考研面試官、PPT 專家、風(fēng)水師等更具職業(yè)屬性的聊天機(jī)器人,豆包 App 也還是一個(gè)更傾向于角色扮演聊天,而不是任務(wù)處理的產(chǎn)品。
DeepSeek 在年初的引爆,讓 AI 以更快地速度從有趣向有用過(guò)度,也帶動(dòng)了豆包的能力提升。視頻通話就是模型能力提升給豆包帶來(lái)的一個(gè)顯性變化。用戶可以在日常生活中依靠視頻通話能力,實(shí)時(shí)向豆包提問(wèn),了解門(mén)店展示的商品的具體信息或者讓其根據(jù)場(chǎng)景給出拍照的操作指導(dǎo)。
在深度理解、思維鏈等技術(shù)的支撐下,豆包也開(kāi)始基于基礎(chǔ)能力完成創(chuàng)意生圖、代碼編寫(xiě)等更場(chǎng)景化的工具的開(kāi)發(fā)。利用超能創(chuàng)意能力,豆包可以批量生成效果還可以的海報(bào),同時(shí),應(yīng)用創(chuàng)造也開(kāi)始支持對(duì)豆包生成的網(wǎng)頁(yè)進(jìn)行可視化的調(diào)整。這樣的豆包實(shí)現(xiàn)了從社交產(chǎn)品到效率工具的拓展。
既是助手,也是操作臺(tái)
從社交工具到效率工具的拓展,也進(jìn)一步分化了豆包在 App 和電腦版上的呈現(xiàn)形態(tài)。簡(jiǎn)單來(lái)說(shuō),豆包 App 是一個(gè)更強(qiáng)調(diào)陪伴、擬人化交互,能完成輕量化任務(wù)的隨身 AI 助手,豆包電腦版則是一個(gè)強(qiáng)調(diào)效率、工具屬性,能完成復(fù)雜任務(wù)的 AI 辦公桌面。兩者都是豆包,但會(huì)有不同的側(cè)重。
豆包 App 在用戶第一次下載打開(kāi)時(shí),會(huì)使用語(yǔ)音進(jìn)行自我介紹,給用戶的感覺(jué)更像是在與人溝通。同時(shí),豆包 App 的界面底欄會(huì)有通話、發(fā)現(xiàn)、AI 創(chuàng)作三個(gè)按鈕。通話列表中,不僅有豆包,還會(huì)顯示用戶溝通過(guò)的其他聊天機(jī)器人。發(fā)現(xiàn)則是聊天機(jī)器人的集合。AI 創(chuàng)作會(huì)有創(chuàng)建聊天機(jī)器人,生成圖片、音樂(lè)、AI 寫(xiě)真的功能。
進(jìn)入到與豆包的聊天界面,會(huì)顯示豆包的頭像,并且優(yōu)先顯示豆包 P 圖、拍照答疑、照片動(dòng)起來(lái)等生活化、輕量化的能力。這樣的豆包 App 給到用戶的感覺(jué)就是一個(gè)能聊天溝通且能隨手幫忙的伙伴。這種強(qiáng)陪伴的屬性,就能解釋為什么即將去世的老人會(huì)對(duì)豆包說(shuō)出:「我要去世了,豆包」。
相較去年,豆包電腦版的一個(gè)變化是在側(cè)邊欄中隱藏了聊天機(jī)器人的入口。將之前位于歷史對(duì)話下面的我的智能體入口隱藏起來(lái),變成了 AI 云盤(pán),并放到了歷史對(duì)話的上面。同時(shí),豆包電腦版的第三方聊天機(jī)器人相比豆包 App 中,要更為精簡(jiǎn),基本沒(méi)有純聊天的角色,都是一項(xiàng)項(xiàng)具體任務(wù)的執(zhí)行者。
作為 AI 助手的豆包不但能以 App 的形式存在,還能切入到抖音、瀏覽器、智能耳機(jī)、智能眼鏡中,隨時(shí)被喚醒和互動(dòng)。在軟件層面,豆包已經(jīng)被放入了抖音的聊天列表中,甚至也在灰度測(cè)試將豆包與抖音視頻頁(yè)面的點(diǎn)贊、評(píng)論轉(zhuǎn)發(fā)放在一起。在硬件層面,Ola Friend 依靠豆包 App 承載設(shè)備管理和更新,并能隨時(shí)召喚豆包。
作為 AI 辦公桌面的豆包,目前會(huì)在電腦版和網(wǎng)頁(yè)版中出現(xiàn),更符合大家在電腦桌面上使用 AI 完成復(fù)雜工作的能力。無(wú)論是對(duì)網(wǎng)頁(yè)生成,還是對(duì)要求更高的圖像創(chuàng)意來(lái)說(shuō),移動(dòng)端都還不能很好地進(jìn)行承載。一個(gè)操作臺(tái)形式的豆包,既符合用戶的工作習(xí)慣,也提供了 Agent 所需要的自由畫(huà)布。
豆包是字節(jié) AI to C 的核心
在 to B 領(lǐng)域中,字節(jié)打出的牌是火山引擎 + 飛書(shū)的組合,其中作為 AI 操作臺(tái)的多維表格和作為 AI 助手的飛書(shū)知識(shí)問(wèn)答承載了 B 端用戶的主要 AI 交互需求。在 to C 領(lǐng)域,豆包是字節(jié) AI 體系的核心,既是 AI 助手,也是 AI 操作臺(tái),并且有能力承擔(dān)串聯(lián)字節(jié)體系內(nèi)不同 C 端入口的任務(wù)。
一方面,豆包強(qiáng)調(diào)擬人化。打造一個(gè)像鋼鐵俠的賈維斯一樣的 AI 助手,是一個(gè)激動(dòng)人心的故事。從賈維斯身上,我們可以看到的是一個(gè)活生生的人。這種活人感是 AI 產(chǎn)品具備記憶力和成長(zhǎng)力的體現(xiàn)。豆包對(duì)擬人化的強(qiáng)調(diào),事實(shí)上也是在讓 AI 與用戶一同成長(zhǎng),使其成為最了解用戶的「家人」。這也是在構(gòu)建一個(gè)長(zhǎng)期的情感壁壘。
另一方面,豆包的核心是 AI,不是某一類端口形態(tài)。App、網(wǎng)頁(yè)、硬件、Copilot 等端口形態(tài),是豆包發(fā)揮作用、輸出 AI 能力的載體。在豆包身上,我們看到了像 Gemini 一樣的雄心。字節(jié)也像 Google 一樣,在圍繞豆包搭建一個(gè)面向 AI 的完整體系。包括與自身流量入口的打通,以及硬件的研發(fā)。
與 Ola Friend 的合作,是豆包在融合 AI 硬件層面作出的第一個(gè)嘗試。從市場(chǎng)反應(yīng)來(lái)看,這種嘗試并沒(méi)有激起大的浪花,但對(duì)于字節(jié)而言,這可能是一個(gè)積累經(jīng)驗(yàn)的過(guò)程。眼鏡可能是更適合豆包的硬件載體,也是字節(jié)能夠有更大底層掌控權(quán)的硬件設(shè)備。
只不過(guò),相較 Google,字節(jié)在模型能力、硬件系統(tǒng)、入口能力上都更為欠缺。
我們可以看到字節(jié)在不斷提升模型能力,并且依靠垂直研發(fā)的優(yōu)勢(shì),將模型能力與場(chǎng)景化需求更快結(jié)合起來(lái),快速更新豆包的能力組合,實(shí)現(xiàn)像超能創(chuàng)意一樣的產(chǎn)品化。在火山引擎 CEO 譚待的介紹中,火山引擎有專門(mén)的團(tuán)隊(duì),可以參與到模型研發(fā)和產(chǎn)品開(kāi)發(fā)中。豆包這半年的能力更新,在一定程度上驗(yàn)證了這種優(yōu)勢(shì)。
字節(jié)跳動(dòng) CEO 梁汝波表示,在 AI 大模型帶來(lái)的技術(shù)變革時(shí)代,字節(jié)跳動(dòng)也要對(duì)自己提出更高的要求,做一個(gè)優(yōu)秀的科技公司還不夠,得做優(yōu)秀的創(chuàng)新科技公司,前者是能夠利用先進(jìn)技術(shù)的公司,而后者能夠探索和發(fā)明新技術(shù),這是挑戰(zhàn)非常大、有非常高天花板和想象力的事情。
豆包無(wú)疑會(huì)是字節(jié)這種技術(shù)創(chuàng)新能力的核心出口,字節(jié)對(duì)豆包的投入并沒(méi)有縮減。App Growing 的數(shù)據(jù)顯示,2024 年 Q2 至 2025 年 Q1,豆包季度平均投流費(fèi)用為 1.5225 億元,相較而言,即夢(mèng) AI 投流費(fèi)用在 2025 年 Q1 只有 270 萬(wàn)元。并且,豆包在 5 月的活躍用戶數(shù)達(dá)到 1.31 億,還在保持增長(zhǎng)勢(shì)頭。
這也意味著豆包需要繼續(xù)通過(guò)聚合入口和能力建立護(hù)城河,讓自己成為字節(jié)想要的系統(tǒng)級(jí)能力。但從目前的體感來(lái)看,豆包還欠缺一種串聯(lián)一切的感覺(jué)。