文 | 融中財經
一個登頂,一個起跳,4.2 萬億美元與 60 億美元的落差,為 AI 芯片戰局埋下新變量。
一邊是英偉達市值沖破 4.2 萬億美元,成為歷史上首家達到這一規模的科技公司——這個數字超過了英國所有上市公司的市值總和,堪稱商業史上 " 大象級 " 的存在。
7 月 15 日,英偉達 CEO 黃仁勛年內第三次訪華,宣布美國批準恢復向中國出口定制的 H20 芯片,重啟占其總營收 13%(約 170 億美元)的中國市場,彰顯其鞏固 AI 時代統治地位的雄心。
另一邊,2016 年成立的加州初創公司 Groq 正洽談新一輪融資:以 60 億美元(約 430 億人民幣)的投后估值募集 3-5 億美元的資金,用于履行與沙特阿拉伯的重磅合同。
當黃仁勛在東方意氣風發之際,Groq 創始人喬納森 · 羅斯正盯著沙特的數據中心屏幕——那里由 1.9 萬顆自研芯片組成的 AI 推理集群,從 2024 年 12 月搭建到投入運行僅用了 8 天,成為中東加速 AI 基建的核心引擎。
60 億對 4.2 萬億,Groq 以不足英偉達 0.2% 的體量,展開了一場 " 不對稱 " 的芯片競賽。
這家公司被視為英偉達最強的競爭對手之一。它以 LPU 芯片的 SRAM 架構和 TSP 流式計算專攻推理,靠 80TB/s 片上帶寬和靜態調度砍掉延遲,瞄準英偉達 H100 的推理短板;英偉達則憑 CUDA 生態和 HBM 顯存壟斷,一邊用 H200 強化推理能效,一邊通過供應鏈控制(如買斷 HBM 產能)壓制對手。
前者借沙特布局和開源模型突圍,后者靠開發者綁定和全棧優勢死守,在推理市場上演 " 精準狙擊 " 與 " 生態護城河 " 的攻防戰。
創企中的 " 金湯玩家 "
這家 2016 年誕生于硅谷的公司,從誕生就自帶 " 明星基因 "。
創始人喬納森 · 羅斯(Jonathan Ross)的履歷本身就是塊金字招牌——他是谷歌第一代張量處理單元(TPU)的核心研發成員,親歷了 AI 芯片從實驗室走向產業化的關鍵階段。公司的另一位創始人是谷歌 Alphabet 的 X 實驗室工程師道格拉斯 · 懷特曼(Douglas Wightman)。同樣值得關注的是 Groq 的硬件工程副總裁吉姆 · 米勒(Jim Miller),這位行業老兵既主導過亞馬遜 AWS 云計算硬件的開發與交付,也曾在英特爾領銜 Pentium II 處理器項目,橫跨消費電子與企業級硬件兩大領域。
羅斯和米勒的履歷吸引了前谷歌 TPU 團隊 80% 的核心成員加入 Groq,這種人才聚集效應在 2024 年 Groq 的沙特投資后進一步放大—— Groq 與 Meta 合作,為其官方 Llama API 提供推理加速服務;Meta 首席 AI 科學家 Yann LeCun 以技術顧問身份支持 Groq; 英特爾前晶圓廠負責人 Stuart Pann 則出任 Groq 首席運營官(COO)。
頂級團隊自然吸引頂級資本。
2024 年 8 月,黑石集團(BlackRock)領投了 Groq 6.4 億美元的 D 輪融資,思科、三星 Catalyst 基金等機構跟投,讓 Groq 的估值一舉沖到 28 億美元。短短一年后,其估值即將翻倍至 60 億美元,成為 AI 芯片賽道成長最快的獨角獸之一。
此次 Groq 募資 3-5 億美元,除了履行和沙特的合同,幫助其 AI 推理數據中心項目快速落地外,還包括構建北美本土供應鏈、擴張 GroqCloud 開發者生態,以及應對英偉達 H200 芯片量產帶來的競爭壓力。盡管沙特協議帶來長期收入預期,但里程碑式付款條款導致 2025 年上半年需補充流動資金以應對產能爬坡前的資金缺口。
Groq 的融資帶著明確的戰略意圖。
2024 年底,Groq 以閃電般的速度開啟在沙特的戰略布局。早在 2024 年 9 月,Groq 便與沙特阿美的數字與技術子公司 Aramco Digital 簽署諒解備忘錄,計劃在沙特達曼建設全球最大規模的 AI 推理數據中心。
作為落地的第一步,Groq 于 2024 年 12 月在達曼快速部署了包含 1.9 萬個 LPU(語言處理單元)的推理集群,僅用 8 天時間即完成上線,每日可處理數十億 Tokens(詞元),展現出驚人的執行效率。
為適配沙特的高溫環境,Groq 對硬件設計進行了針對性優化,同時啟動阿拉伯語 NLP 模型的本地化開發,以滿足中東市場的特定需求。
該項目被納入沙特 "2030 愿景 ",沙特阿美為此提供了上億美元的資金支持,目標在 2025 年將處理能力提升至每日數千億 Tokens,并最終部署 10.8 萬個 LPU 芯片,形成全球最大的 AI 推理基礎設施之一。這一布局依托沙特的地緣優勢、低廉的能源成本和充足的建設空間。Groq 的快速行動為其后續獲得沙特 15 億美元投資承諾奠定了基礎。
2025 年 2 月,沙特主權基金通過沙特阿美旗下 Aramco Digital 向其拋出 15 億美元投資承諾,條件是協助沙特建設本土 AI 基礎設施。這筆錢不僅讓 Groq 的現金流底氣十足,更讓其業績預期飆升:2025 年營收有望實現跨越式增長,達到 5 億美元,使 Groq 邁入 " 億級營收俱樂部 "。
不碰 " 訓練 " 主戰場,專啃 " 推理 " 硬骨頭
Groq 從沒想過與英偉達在 AI 訓練芯片市場正面交鋒。
當英偉達的 GPU 憑借 CUDA 生態在訓練領域占據超 80% 市場份額時,它選了條差異化路線:專注于 AI 推理芯片。
這步棋精準踩中了行業痛點。AI 計算的 " 訓練 " 與 " 推理 " 環節有著本質區別:訓練像 " 教學生 ",需要海量數據反復調整模型參數,對算力的通用性和精度要求極高;推理則像 " 學生答題 ",需要在毫秒級時間內給出結果,更強調低延遲、高并發和低成本。
英偉達的 GPU 本是為圖形渲染設計的,改造后用于 AI 訓練合適,但拿來做推理卻有些 " 大材小用 " ——其硬件資源中,有相當一部分是為支持訓練時的復雜梯度計算而設計,在推理階段反而成了冗余負擔。
Groq 的核心產品 LPU(Language Processing Unit)就是沖著推理場景的痛點來的。它不追求 " 全能型 " 算力,而是聚焦 " 推理專項優化 ":讓 Meta 的 Llama、谷歌的 Gemma 等已訓練完成的大模型,在執行文本生成、語義理解等任務時跑得更快、更省電。
根據 Groq 官方在 2024 年底發布的基準測試結果,搭載 LPU 芯片的 Llama 模型,在大模型推理任務中每秒能生成 500 個 Tokens(文本詞元),對比英偉達 H100(FP16)的 150 個 Tokens 每秒的速度快了約 3 倍,對比英偉達 H200 的 200 Tokens 每秒的速度,也快了兩倍多。
在商業模式上,Groq 也與英偉達走出了完全不同的路徑。
英偉達靠 " 硬件銷售 + 軟件生態 " 的組合拳盈利——既賣 GPU 芯片和 DGX 服務器等硬件,又通過 CUDA 平臺綁定開發者;
Groq 則另辟蹊徑,采用 " 芯片即服務 " 模式:自己建設數據中心,將 LPU 芯片組成服務器集群,向客戶提供云端推理算力租用服務。這種模式讓客戶無需直接采購硬件,直接通過 API 調用就能體驗其芯片性能,大大降低了嘗試門檻。
今年 7 月,Groq 宣布在歐洲芬蘭建設新的數據中心,進一步擴大云端服務版圖,顯然是想通過 " 服務先行 " 策略快速占領市場。
Groq 的技術手冊里藏著不少 " 反套路 " 設計。
當行業巨頭們比拼 4nm、5nm、7nm 先進制程時,它反其道而行之,選擇相對成熟的 14nm 工藝;當英偉達的 H100 GPU 依賴 HBM 高帶寬顯存提升性能時,Groq 在 LPU 芯片里塞進了 230MB SRAM 高速緩存,靠架構創新彌補制程差距。
這步險棋意外走通了。大帶寬 SRAM 讓 LPU 的片上內存帶寬達到 80TB/s,數據可以在芯片內部高速流轉,不必頻繁訪問板載顯存,直接將推理延遲砍掉一半以上。
更關鍵的是,這種設計讓 Groq 避開了 HBM 顯存的供應鏈瓶頸——英偉達的 H100 之所以常年缺貨,很大程度上受制于 HBM 顯存的產能,而 SRAM 的供應相對穩定,讓 LPU 的量產更有保障。
架構層面的差異更具顛覆性。
英偉達 GPU 采用 "SIMD" 架構,擅長同時處理大量相似任務,但需要動態調度線程,存在一定算力閑置;Groq 的 TSP(Tensor Streaming Processor)架構則采用 " 流式計算 " 模式,將推理任務拆解成固定流水線,通過靜態調度讓每個時鐘周期的算力都得到充分利用。這種設計讓單顆 LPU 芯片的算力達到 1000 萬億次運算每秒(1000 TOPS),在部分機器學習模型上,速度比常規 GPU 甚至谷歌 TPU 快 10 到 100 倍。
Groq 的技術路線雖在推理場景展現優勢,但也存在顯著短板。
LPU 芯片內置 230MB SRAM 雖能實現高帶寬,但單芯片內存遠低于英偉達 H100 的 80GB HBM 顯存,導致運行大模型時需大規模集群拆分。
正如原阿里技術副總裁賈揚清的推算,運行 Llama-70b 模型理論上需 572 顆 LPU(單芯片 2 萬美元,總成本超 1100 萬美元),而 8 顆 H100(總成本約 30 萬美元)即可實現相當性能,硬件成本差距達 30 倍以上。盡管實際部署中可通過模型分片優化,但大規模集群的運維復雜度和能耗(576 顆 LPU 集群功耗約 100kW,8 卡 H100 約 30kW)仍顯著高于 GPU 方案。
更關鍵的是專用架構的場景局限性:專用硬件的靜態調度優勢在算法迭代頻繁時反而成為劣勢,難以像 GPU 通過軟件更新快速適配新模型。
生態破局與市場裂縫
技術再強,沒有生態支撐也難成氣候。英偉達的 CUDA 平臺已積累超 400 萬開發者,形成 " 硬件 - 軟件 - 開發者 " 的穩固三角,這是任何挑戰者都繞不開的高墻。Groq 的破局策略是 " 借船出海 ":盡可能對接現有開源生態,降低開發者的遷移成本。
它首先瞄準了開源大模型社群。Groq 團隊花了大量精力優化 Meta 的 Llama 系列、谷歌的 Gemma 等熱門開源模型在 LPU 芯片上的運行效率,這些模型本身已積累數百萬開發者,只要證明 LPU 能讓模型跑得更快,自然能吸引開發者嘗試。更關鍵的是,Groq 在 2025 年推出了開發者控制臺,通過友好的編程接口和免費算力(每月 1000 萬 Tokens 的額度)試用政策,目前吸引了 7.5 萬名開發者注冊。
價格策略同樣服務于生態擴張。LPU 芯片 2 萬美元出頭的定價,不僅比英偉達 H100 的 2.5-3 萬美元低,也比部分中端 GPU 更具吸引力。Groq CEO 喬納森 · 羅斯曾表示,到 2025 年底,Groq 計劃部署 150 萬顆推理芯片,占據全球一半的 AI 推理計算能力。這番話雖有營銷成分,卻精準點出了行業趨勢—— AI 算力投入的重心正從模型訓練階段向推理階段傾斜。
英偉達當然不會坐視 "Groq 們 " 蠶食市場。
面對推理芯片的崛起,它已迅速調整策略:推出基于安培架構的 A30/A10 等推理專用 GPU,優化 TensorRT 軟件庫的推理延遲,并通過 Triton 推理服務器提供端到端加速方案,試圖將訓練領域的優勢延伸到推理市場。
更難撼動的是 CUDA 生態的 " 慣性 "。開發者在 CUDA 平臺上積累了大量代碼和工具鏈,遷移到新平臺需要重新學習和調試,這種 " 路徑依賴 " 讓很多企業寧愿忍受 GPU 的高成本,也不愿冒險嘗試新方案。
有行業人士透露,部分企業在與 Groq 接觸時異常謹慎,生怕消息走漏后被英偉達 " 穿小鞋 " ——比如延遲交付 GPU,這種隱形壓力客觀上抬高了新芯片的推廣門檻。
然而,市場永遠存在裂縫。
2024 年以來的 "GPU 荒 " 讓客戶苦不堪言:云計算廠商為了搶購英偉達芯片,不得不提前幾個月下單,否則就可能排不上產能。這種供需失衡讓企業開始主動尋找 " 第二供應商 ",降低對單一廠商的依賴,這為 Groq 創造了窗口期。
更重要的是,AI 芯片市場并非 " 二元對立 "。除了英偉達和 Groq,英國的 Graphcore、中國的寒武紀、美國的 Cerebras 等玩家都在各自的技術路線上發力,形成 " 一超多強 " 的競爭格局。
Groq 的優勢在于,它抓住了沙特等新興市場的需求——中東國家正雄心勃勃地建設 AI 基礎設施,既有錢又有場景,還樂于扶持非美國主流的技術供應商以實現技術自主,這種地緣需求為 Groq 提供了理想的 " 試驗田 "。
然而,面對新興市場的爭奪,初創公司如 Groq 需加速布局——因為巨頭們也沒有停下腳步。繼去年 12 月 Groq 在沙特布局后,今年 5 月,英偉達與 AMD 也發現了這一新興市場,相繼宣布在沙特建設芯片制造及 AI 基礎設施基地,直接切入中東 AI 算力核心市場,這無疑給后來者增添了競爭壓力。
全球 AI 芯片的競合態勢,在中國市場呈現出更復雜的張力。
近期,英偉達宣布 H20 芯片將重新在中國市場銷售,雖 H20 受限于算力閾值(較 H100 略有下調),但憑借成熟的 CUDA 生態和高性能,短期內仍會分流部分對高端算力有迫切需求的企業(如大模型訓練機構、云端服務商),給華為昇騰、寒武紀、壁仞科技等國內芯片企業帶來直接競爭壓力——尤其在需要兼容國際主流框架的場景中,國產芯片的生態適配成本仍需時間抹平。
這種壓力也在迫使中國 AI 芯片市場加速 " 場景化突圍 "。
不同于國際市場聚焦通用算力,中國市場的核心機會藏在垂直場景的深度綁定中:在智慧城市領域,海光芯片支撐的邊緣計算節點,能高效處理交通攝像頭的實時視頻流(每秒解析 30 路 4K 畫面),適配國內復雜的路況算法;自動駕駛賽道,地平線系列芯片已搭載于比亞迪、長城、理想等車企的多款車型,在輔助駕駛系統中負責視覺感知任務。
中國 AI 芯片市場的突圍路徑,正通過垂直場景的深度綁定逐步清晰——避開通用算力的正面競爭,在本土特色場景中打磨技術與生態。
結語
這場 60 億對 4.2 萬億的較量,才剛剛開始。
它的結局大概不是 " 你死我活 " 的零和游戲,而是形成 " 多元共生 " 的生態平衡:英偉達繼續主導高端 AI 訓練市場,Groq 等新銳在推理細分賽道分得一杯羹。
這一格局恰似行業演進的常態:正如智能手機時代,蘋果、三星錨定高端市場,小米、傳音則在中低端與新興市場開辟空間,彼此并非替代而是互補;又如 AI 領域,通用大模型與垂直場景的 AI Agent 各司其職——前者支撐基礎能力,后者深耕具體需求。
對整個行業來說,這種競爭是好事。Groq 的出現至少能迫使英偉達優化推理芯片的成本和性能,讓更多企業用得起 AI 算力。畢竟,AI 應用的場景豐富——從智能客服到自動駕駛,從醫療診斷到工業質檢,不同場景對算力的需求千差萬別,既需要英偉達這樣的 " 全能選手 ",也需要 Groq 這樣的 " 專精玩家 "。
" 某種程度上,我們的存在對英偉達反而是一種利好,"Groq CEO 羅斯說。" 他們可以繼續生產那些高利潤訓練用的 GPU,而我們則接手他們不太想做、低利潤但高產量的推理業務。"
當年沒人能想到,一家顯卡公司能成為 AI 時代的 " 賣鏟人 ";同理,今天估值 60 億美元的 Groq,十年后或許會在 AI 芯片版圖中占據重要一席。
羅斯直言:" 你的工作不是跟隨浪潮,而是要提前站位,準備好迎接它。"
無論 Groq 最終能否撼動英偉達,它所代表的創新精神和差異化打法都為行業帶來了新的思考:在巨頭林立的 AI 時代,小團隊依然有機會憑借卓越的洞察和執行,實現對大象的 " 螞蟻撼樹 " ——或許不能將之推倒,卻足以令大象為之側目,不得不改變方向。
這正是技術進步最迷人的地方,也是市場競爭的價值所在。