
要說上個月誰是科技巨頭里最大的贏家,提名谷歌應該沒人有意見吧?
靠著性能炸裂的 Gemini 3,短短半個月,股價蹭蹭漲不說,還在競技場內(nèi)拳打 OpenAI,競技場外腳踢英偉達。
回撤一點,問題不大

至于賣鏟子的老黃怎么也跟著躺槍,原因很簡單,谷歌表示,Gemini 3 Pro 是在自研 TPU(Tensor Processing Unit)上訓練的,至少在字面上,是沒提英偉達一個字兒。
緊跟著,媒體和吃瓜群眾開始紛紛猜測,說什么谷歌這回,可能真要終結(jié) CUDA 護城河了。

那么問題來了,看似讓英偉達好日子到頭的 TPU,到底是個啥?
從名字上也能看得出,它其實是一類芯片,和 GPU 是近親,只不過做成了 AI 特供版。
雖然 TPU 最近才引起大伙兒的注意,但這是一個從 2015 年延續(xù)到現(xiàn)在的老項目。
第一代 TPU 長這樣

那時候谷歌正經(jīng)歷技術轉(zhuǎn)型的陣痛,想把傳統(tǒng)的搜推算法全換成深度學習。結(jié)果他們發(fā)現(xiàn),這 GPU 不止不夠用,還巨耗電,根本用不起。
GPU 的問題,在于它太想全能了。為了什么都能干,不得不搞了一套硬盤、內(nèi)存、顯存、核心,層層疊疊的復雜架構。
這帶來一個大麻煩,在芯片的世界里,搬運數(shù)據(jù)的成本,遠比計算本身高得多。數(shù)據(jù)從顯存跑到核心,物理距離可能只有幾厘米,電子卻要翻山越嶺。
GPU 工作方式

于是,電費大半沒花在算數(shù)上,全花在送快遞的路費上了。最后變成熱量,還得拜托風扇吹一吹。
這在做圖形渲染時沒毛病,因為畫面高度隨機,要啥素材沒法預料,只能回顯存現(xiàn)取。
但 AI 的矩陣運算,每個數(shù)怎么算,和誰算,算幾次都是固定的。我明知道這個數(shù)算完了,一會兒還要接著用,GPU 硬是得把它存回去,等著別人再取進計算單元,這不純純浪費嗎?

核心思路,是專門對 AI 最常用的矩陣乘法做優(yōu)化,搞了一個叫 " 脈動陣列 " 的方法。
用上這一招,每個數(shù)據(jù)一旦開算,就會在密集排列的計算單元之間傳遞,沒用完不許回存儲單元。這樣,就不需要頻繁讀寫了。

就這樣,TPU 每個周期的計算操作次數(shù)達到了數(shù)十萬量級,是 GPU 的近十倍。初代 TPU v1 能效比達到同時期 NVIDIA Tesla K80 的 30 倍,性價比極高。
當然,最開始谷歌也是邊緣試探,沒玩那么大。TPU 也還只搞推理,不會訓練,功能單一,完全沒法和 GPU 比。
從第二代起,谷歌才開始往內(nèi)存上堆料,提升容量和數(shù)據(jù)傳輸速度,讓 TPU 能一邊計算,一邊快速記錄和修改海量的中間數(shù)據(jù)(比如梯度和權重),自此點亮了訓練的技能樹。
隨著 TPUv3 規(guī)模增加,模型訓練速度提升

事實上,真不是大伙兒不饞,而是谷歌壞,一直在硬控。所有的 TPU 只租不賣,綁定在谷歌云里。大公司不能把 TPU 搬回家,相當于把身家性命都交給谷歌云,心里總毛毛的。生怕英偉達沒卡死的脖子,在谷歌這直接快進到掐斷了。
即使這樣,蘋果也沒架住便宜大碗的誘惑,多多少少租了點兒。
而這回熱度這么高,一方面是 Gemini 3 證明了 TPU 的成功,品質(zhì)放心;另一方面,是因為第七代 TPU Ironwood,谷歌終于舍得賣了。

根據(jù) The Information 的報道,Meta 已經(jīng)在和谷歌洽談數(shù)十億美元的大合同,準備從 2027 年開始,在機房部署 TPU,還計劃最早明年就要從谷歌那租用 TPU。
消息一出,谷歌股價立漲 2.1%,英偉達下跌 1.8%。
甚至有谷歌內(nèi)部人士放話,我們這一波大開張,可能會搶走英偉達幾十億美元的大蛋糕,直接切掉他們 10% 的年收入哦。

但是,要說 TPU 會取代 GPU,真不至于。
TPU 是一種 ASIC(Application-Specific Integrated Circuit),又名專用集成電路。人話來講,TPU 除了擅長 AI 那幾個矩陣計算,別的啥都不太行。
這是它的優(yōu)點,也是它的痛點。
TPU 工作方式

而且 TPU 因為太專精,一旦在計算上沒有性能優(yōu)勢,就徹底失去價值。四年前的 TPU v4,咱們已經(jīng)很難見到它了。
相比之下,GPU 就不一樣了。以五年前誕生在大模型浪潮前的 3090 為例,它硬是靠著 24G 超大顯存,和 CUDA 不拋棄不放棄的向下兼容生態(tài),直到現(xiàn)在還是普通人玩 AI 的超值主力卡,跑個 Llama 8B 小模型不成問題。
退一步講,就算 AI 這碗飯不香了,大不了回去接著伺候游戲玩家和設計師,照樣活得滋潤。
另外,CUDA 生態(tài)依然是英偉達最大的殺招。
這就好比你用慣了 iOS,雖然安卓也很好,但讓你把存了十年的照片、習慣的操作手勢、買的一堆 App 全都遷移過去,你大概率還是會選下次一定。
現(xiàn)在的 AI 開發(fā)者也是一樣,大家的代碼是基于 CUDA 寫的,調(diào)用的庫是英偉達優(yōu)化的,甚至連報錯怎么改都只會搜 CUDA 的。
想轉(zhuǎn)投 TPU?行啊,先把代碼重構一遍,再適應新的開發(fā)環(huán)境。
即使強兼了 PyTorch,很多底層的優(yōu)化、自定義算子,換到 TPU 上還是得重新調(diào)試。專門指定的 JAX 語言,也給人才招聘墊高了門檻。
對于大多數(shù)只想趕緊把模型跑起來的中小廠來說,與其費勁巴拉地去適配 TPU,甚至根本搞不到,直接買英偉達芯片,反而是最省事的選擇。

不說別的,谷歌自己還在大量采購英偉達的 GPU,就算自己不用,谷歌云那么多客戶還得用呢。
所以,TPU 這波開賣,確實在大模型訓練這一畝三分地上,用經(jīng)濟劃算給英偉達上了一課。但也絕對沒有被吹的,要搶 GPU 飯碗那么神。
未來的算力市場,更大概率是 TPU 占據(jù)頭部大廠的專用需求,而 GPU 繼續(xù)統(tǒng)治通用市場。
但只要巨頭們競爭起來,就有可能把算力價格打下來,這怎么看,都是個好事啊。
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:萱萱
圖片、資料來源:
Google Cloud 官網(wǎng)
EITC、FUTUBULL、雅虎金融、The informaiton、Reddit、X、CNBC
https://arxiv.org/abs/1704.04760
本文來自微信公眾號" 差評 X.PIN",作者:世超,36 氪經(jīng)授權發(fā)布。