作者|陳伊凡
編輯|苗正卿
頭圖|視覺中國
在 AI 芯片領域,英偉達憑借強大的訓練芯片性能牢牢占據市場霸主地位,短期內難逢敵手。然而,隨著 AI 推理市場的爆發式增長,這塊利潤驚人的 " 蛋糕 " 吸引了眾多科技巨頭與初創公司入局。
Rivos 是其中一個。8 月 13 日,這家位于美國加州的初創公司被曝正在尋求一筆 4 億美元到 5 億美元的融資。如果這筆融資敲定,那么 Rivos 自其 2021 年成立以來,融資總金額將超過 8.7 億美元,也是迄今為止尚未大規模量產,卻獲得最大融資額的芯片初創公司之一。而這家芯片公司的背后投資者之一,是英特爾首席執行官陳立武。
這些初創公司和科技巨頭,為何選擇從推理側狙擊英偉達?它們又如何憑借差異化技術與成本優勢撕開壟斷缺口?
推理需求暴漲
在人工智能的世界里,訓練與推理猶如驅動行業發展的雙引擎,共同塑造著技術演進與市場競爭的格局。
訓練,堪稱 AI 系統的 " 啟蒙教育 " 階段。它如同培育一個懵懂孩童,通過海量數據投喂與高強度的算法訓練,讓 AI 模型從一無所知成長為能夠應對復雜任務的 " 智能體 "。這一過程不僅成本高昂,往往需要強大的算力支撐與巨額資金投入。這個過程耗時漫長,一次完整的訓練周期可能長達數月甚至數年。更關鍵的是,它具有明顯的一次性特征,每一次訓練都是全新的探索,難以復用。
而推理,則是 AI 技術的 " 實戰應用 " 環節。當 AI 模型完成訓練、積累了足夠的知識后,推理便負責將這些知識轉化為實際生產力,用于解決現實世界中的各類問題。
在生成式 AI 時代,技術架構迎來重大變革。以 Transformer 為代表的 AI 架構,讓基礎模型訓練趨向穩定和固化。就像搭建好一座堅固的大廈,后續只需進行局部修繕與優化,無需頻繁重建,極大降低了重復訓練的成本。在這種情況下,推理成為持續創造價值的關鍵,如同永不停歇的生產線,不斷調用模型能力,滿足不同的場景和服務。
從商業視角看,訓練階段如同高風險的 " 資本賭局 "。巨額的研發投入與漫長的回報周期,使得只有少數科技巨頭具備入場資格,且投入產出比充滿不確定性。
而推理階段則搖身一變,成為 AI 產業的 " 現金印鈔機 "。廣為人知的 AI 應用,無一不是通過向用戶收取推理服務費實現盈利。
根據第三方機構 Verified Market Research 的數據,AI 推理芯片市場正在經歷爆發式增長,2023 年市場規模為 158 億美元,預計到 2030 年規模將達到 906 億美元。
市場需求與商業收入在此形成良性循環,推理需求越旺盛,企業營收越高,進而吸引更多資源投入,推動技術迭代升級。這也不難理解,為何英偉達數據中心 40% 的收入都源自推理業務。
推理成本的大幅下降是市場增長的最主要驅動力之一,根據斯坦福大學 2025 年 AI 指數報告,在短短 18 個月內,AI 推理成本從每百萬 token 20 美元暴跌至 0.07 美元,下降了 280 倍。硬件層面,企業 AI 硬件成本每年下降 30%,能源效率每年提高 40%。
算法優化技術如量化、稀疏化和蒸餾等顯著降低了模型的計算復雜度和內存需求。有資深投資人就曾向虎嗅表示,現在有效的互聯網數據存量已經被使用得差不多了,它的更新是有限的,最終的增長肯定是推理,推理是要把訓練好的模型應用到不同的場景。再加上 MOE(專家混合模型架構)出現,對于新的信息,只需要局部訓練。所以最終爆發的市場肯定是推理,推理是要把訓練好的模型應用到不同的場景。
推理市場利潤驚人、巨頭爭搶
摩根士丹利近期發布的一份深度報告,通過構建精細的財務模型,揭示 AI 推理工廠的驚人利潤,將 AI 推理工廠的盈利密碼層層解開。
以 100 兆瓦電力消耗為標尺,涵蓋基建、硬件與運營的全成本核算顯示,無論采用哪家巨頭的芯片方案,AI 推理工廠的平均利潤率竟普遍突破 50%。其中,英偉達 GB200 以 77.6% 的 " 恐怖 " 利潤率笑傲群雄,盡管其搭載 72 顆 GB200 芯片和 NVL72 系統售價高達 300 萬美元,但超高的利潤回報,仍讓科技巨頭們 " 眼紅 "。
" 生成式 AI 時代,只有英偉達賺到錢了。" 一位算法人士告訴虎嗅。
推理,是一份可以測算得出來的生意。當訓練端已被英偉達銅墻鐵壁牢牢穩住,推理,反而具備了突破英偉達的可能性。推理對生態和性能的要求沒有訓練苛刻,重點是性價比,也就是成本低,關鍵的是推理的暴利。
" 天下苦英偉達已久。" 主要來自對英偉達 CUDA 生態的依賴,但推理對于 CUDA 生態系統的依賴通常比訓練小一些。原因是,部署靈活性,因為推理階段可以使用更多樣化的硬件和軟件平臺,包括 CPU、邊緣設備、WebGPU 等,而不一定需要英偉達的 CUDA 環境,另外,訓練過程需要大量的矩陣運算、梯度計算和反向傳播,這些操作在 CUDA 上有高度優化的實現;而推理只需要前向傳播,計算量相對較小。
因此,科技巨頭選擇在推理端逐漸滲透英偉達雄霸的市場。
比如說,根據 The Information 報道,為了減少對英偉達的依賴,AWS 向其客戶推銷租用自研推理芯片—— Trainium 提供支持的服務器,并提供了 25% 的折扣,這個服務器提供的計算能力與英偉達的 H100 芯片相當。
虎嗅從硅谷科技公司人士、AWS 的客戶處獲知,目前這款服務還沒有在 AWS 的客戶中廣泛推廣,主要是針對 Anthropic,2023 年亞馬遜宣布向這家人工智能初創公司投資 40 億美元并獲得部分股權。Anthropic 發布 Claude 系列模型,使其躋身全球頭部領先模型公司行列。
今年 6 月,OpenAI 也開始通過租用谷歌的 TPU,降低推理計算的成本以及在推理側對英偉達的依賴。
盡管,業內人士表示這并不是一蹴而就的過程,甚至現階段這個舉動從外界看來只是 " 隔靴搔癢 ",生態依然是最大的問題,這涉及背后一整個軟件棧的適配,但對于這些科技巨頭而言,這確實不得不開始做的一件事——沒人希望自己的錢都被英偉達掙了。
初創公司的 " 蠶食 "
在 AI 推理市場的利潤盛宴中,科技巨頭的博弈只是冰山一角,一眾初創公司更是摩拳擦掌,試圖分一杯羹。
隨著人工智能推理邁入高級學習和決策階段,對算力的需求呈現出多元化、精細化的特點,通用 GPU 的靈活性優勢不再是唯一選擇,新興的芯片初創公司另辟蹊徑,聚焦 AI 專用芯片(ASIC)的研發。相較于通用 GPU,ASIC 以更低的成本實現高效運算,盡管應用場景相對單一,但其在特定推理任務中的卓越性能,成為初創公司撬動市場的支點。
在這場初創勢力的突圍戰中,Rivos 無疑是備受矚目的 " 黑馬 "。從戴爾、臺積電到英特爾、聯發科,眾多行業巨頭紛紛為其注資。據 The Information 援引知情人士的話,Rivos 正在開發軟件,該軟件可以將英偉達的 CUDA 軟件代碼,翻譯成在 Rivos 的語言,在其芯片上高效運轉。這意味著其芯片可無縫承接英偉達生態的軟件資源,極大降低用戶遷移成本。
除了 Rivos,另一家英偉達的挑戰者 Groq 也在籌集資金。
虎嗅根據公開信息以及 The Information 上公布的人工智能芯片初創公司的名單,25 家英偉達的挑戰者,一共從投資者那里籌集了超過 70 億美元的資金,總估值達到 290 億美元。
初創芯片公司 Groq 由前谷歌 TPU 團隊成員成立,開發了獨特的語言處理單元 ( Language Processing Unit ) 架構,這是其最大的技術差異化優勢,專門針對 AI 推理任務進行了優化,號稱能提供 " 世界最快推理 " 性能。Groq 提供了遠低于傳統 GPU 的 token 處理成本的解決方案,這使其在推理市場具有明顯的經濟優勢。如今,Groq 已從貝萊德、思科、三星等處累計籌集超過 10 億美元,并與沙特阿拉伯達成了價值 15 億美元的芯片合作協議,在英偉達滲透率還不算高的中東市場開始拓展自己的芯片生意。
Groq 的 CEO 在一次播客采訪中也表示,英偉達可以制造他們原本要制造的每一個 GPU,并將其用于高利潤的訓練業務,而他們則可以接手低利潤但高體量的推理業務。
還有的地方是英偉達的視線尚未看到的微小角落——比如一些邊緣側,小型分散的推理需求正悄然爆發。例如從智能家居設備到智能穿戴產品,AI 智能硬件的廣泛應用催生海量邊緣推理場景。
此外,一些新型算法架構以及與之相結合所開發的芯片正在誕生。在過去幾年里,英偉達是 " 算力越大越好 "(Scaling Law)敘事下,最大的受益者,其依靠這套暴力美學,兜售其 GPU。
只是 Scaling Law 到底是不是真正通往通用人工智能的道路?并沒有定論,起碼 Meta 首席人工智能科學家楊立昆 ( Yann LeCun ) ,并不這么認為," 我們不能使用像 ChatGPT 或 GPT4 這樣的技術來訓練機器人清理桌子或者填滿洗碗機,即使這對一個孩子來說是一件微不足道的任務,我們還是做不到。"
對于在生成式 AI 時代處于絕對壟斷地位的英偉達而言,GPU 的 " 越多算力越好 " 的故事還能說多久,不好說,科技界永遠在上演顛覆與被顛覆的故事。