據 Trend Force 預測,全球數據中心液冷采用率有望從 2024 年的 14% 提升到 2025 年的 26%。而在中國,據預計,2024 年中國液冷數據中心市場將同比增長 53%,市場規模將增長至 236 億元;預計到 2027 年,隨著 AI 系列應用的規模化落地以及液冷生態的日趨成熟,市場規模將突破千億大關。
液冷在數據中心中的應用已經是不可逆的趨勢。
從 " 要不要 " 到 " 如何用好 "
時間撥回到 2020 年前后,彼時,數據中心主要供冷手段還是風冷,用戶對于液冷的態度,一方面是 " 沒必要 ";另一方面,對于技術持相對保守態度的數據中心行業,因為對業務穩定性要求極高,所以對新技術的接受度并不是很高。那時業內常有聲音表示," 寧可不用,也不能因為應用新技術而帶來附加的風險。" 亦有聲音認為,這些理念都是在炒概念,并不看好液冷在數據中心中應用的場景。
盡管如此,一些服務商卻始終堅定液冷路線,提前布局了液冷設備,這其中就包括了網宿科技。據網宿科技副總裁、綠色云圖 CEO 胡世軒向筆者介紹,網宿科技早在 2010 年前后就開始嘗試在數據中心中應用液冷的布局,并在 2015 年將液冷的部門單獨成立了全資子公司——綠色云圖。
當時間來到大模型元年,2022 年,隨著 ChatGPT 的問世,AI 的浪潮又一次席卷全球、全行業。AI 對于 GPU 的需求,進一步推高單機柜的功率。2.5KW 標準機柜已經是過去式,8kW、10kW,甚至 20、50kW 的機柜不斷出現。
英偉達發布的 Blackwell GB200 GPU 異構計算,其單機柜功耗更是高達 120kW。而隨著摩爾定律逐漸失效,在后摩爾定律時代下,芯片算力與其功耗仍將大幅提升。傳統的風冷已經不足以支撐高功耗設備的散熱需求,液冷成為高密度部署、并且降低能耗的最佳選擇。
一方面,風冷散熱的增益開始衰減," 如果要進一步提升散熱功能的話,(風冷)性價比會越來越低," 英特爾資深技術專家曾對筆者表示," 并且風扇的可靠性也會越來越低。"
另一方面,隨著液冷技術的不斷迭代與成熟,其對數據中心節能減排愈發重要," 應用液冷技術相較風冷可節能 30%,減少 30% 的碳排放。" 綠色云圖高級總監徐明微曾告訴筆者。
作為數據中心行業發展的 " 國家隊 ",中國移動、中國聯通、中國電信三大運營商在 2023 年聯合發布的《電信運營商液冷技術白皮書》中曾明確,2025 年開展(液冷)規模應用,50% 以上項目應用液冷技術,共同推進形成標準統一、生態完善、成本最優、規模應用的高質量發展格局。
從國家政策層面,液冷也成為未來評價數據中心是否具備綠色化能力的一個指標。今年 6 月 1 日起正式實施的《綠色數據中心評價》中就突出了液冷、高效 IT 設備等先進適用技術產品應用。
以數據中心市場發展的 " 黃金 " 地帶——上海為例,《上海市智能算力基礎設施高質量發展 " 算力浦江 " 智算行動實施方案(2024 — 2025 年)》中曾明確,力爭到 2025 年上海市新建智算中心 PUE 值達到 1.25 以下 ........ 液冷機柜數量占比超過 50%。此外,《上海市工業節能降碳 " 百一 " 行動計劃》也鼓勵數據中心采用液冷等方式升級改造。
除此之外,胡世軒還特別向筆者強調,對于液冷發展有一個至關重要的因素——硬件廠商的背書," 諸如芯片、服務器的廠商對液冷設備的背書,也就是用戶應用液冷之后,這些硬件廠商之前不太愿意提供維保," 胡世軒進一步指出," 不過這種現象已經明顯有所改觀,諸如英特爾這樣的硬件廠商已經開始布局液冷方面的應用。"
如何用更好?
既然業內已經就 " 要不要用 " 達成了統一意見,下一步就該討論 " 如何用更好 " 的話題。以原先的經驗來看,用戶對于液冷存在比較大質疑的兩個點是:部署成本和安全性。
安全性一直是液冷所面臨的最大挑戰(甚至沒有之一)。眾所周知,論比熱容、流動性、性價比,目前市面上沒有一種液體比水更適合用作液冷媒介。但導電性也是在機柜里應用水為媒介的液冷安全性方面帶來的最大阻礙。
機柜內部的電子元器件與機柜不間斷通電的特性,讓位于液冷設備中的水一旦泄露,就會給用戶帶來不能挽回的損失,輕則燒毀服務器,重則損失本臺服務器的全部數據。這點是用戶不能接受的。
如何解決這個問題,就成為了在推進液冷應用的過程中,眾多服務商所要面對的挑戰。目前市面上有兩種路徑,一種是研發新的媒介;另一種是從機制上做好漏液后的響應。
新媒介方面,除了原本因不太環保而逐漸被淘汰的氟化液之外,合成油成為了當下比較普遍的選擇。前不久的 IDCE 上,網宿科技旗下的綠色云圖就發布了基于全新的碳基合成油的冷板式液冷解決方案。據胡世軒介紹,與傳統的水 + 乙二醇 / 丙二醇的媒介相比,綠色云圖與山西潞安集團太行潤滑油合作研發的全新碳基合成油在規避了導電性的缺點的同時,在流動性、導熱性,甚至成本方面都無限接近于水,可以作為最新的冷板式液冷的導熱媒介選擇。
" 全新的合成油并不會因為漏液導致服務器短路,漏液后,運維人員僅需將漏出的液體擦掉,更換漏液的管道即可,安全性大幅提升。" 胡世軒向筆者介紹道。
不僅于此,徐明微還告訴筆者,綠色云圖此次結合新媒介全新推出的冷板式液冷解決方案還提供了恒溫差與恒壓差兩種控制方式," 兩種模式不僅能滿足客戶的定制化選擇需求,還可以根據實際服務器的負載率變化靈活切換控制,以求達到最適合當下的控制方式。" 徐明微指出。
除了采用新媒介以外,還有一些服務商通過采用 " 新機制 " 來對漏液之后做出快速響應。在機制層面,將 " 水管 " 內部抽真空的負壓液冷方式創新萌芽。以浪潮信息為例,首創了一種可以使得液冷系統二次側均為負壓的動力單元——液環式真空 CDU,由于管路內均為負壓,因此徹底杜絕了漏液隱患。同時,這項技術創新突破了液冷循環系統只能采用高壓水泵,才能實現液體循環流動的 " 定律 ",實現了僅依靠真空泵通過不同傳感器控制多腔室功能切換,即可實現流體的循環流動,在技術極簡化同時也實現了可靠性的大幅提升。
如果說安全性的問題決定了液冷能否在數據中心中應用,那么部署成本的高低就決定了液冷能否在數據中心中普及。原先因為技術壁壘較高,且零部件制造成本高昂的情況下,使得即便有的用戶想應用液冷,也在高額的成本面前望而卻步。
再加之原先企業對于高性能算力的需求并不大,機柜功率基本穩定在 10kW 以內,而以 CPU 為主導的通用算力部署液冷后,與傳統風冷相比,節能效果并不很明顯。
但隨著生成式 AI 的興起,GPU 在企業部署應用過程中的地位越來越重要,機柜功率也在不斷攀升,原本幾千瓦,最多 10kW 的標準通用算力機柜不在能滿足當下的需求。GPU 的應用將單機柜功率提升至了幾十千瓦,甚至可以突破 100kW。這也讓液冷成為企業不得不的選擇。
與此同時,隨著需求的增加,供應鏈不斷完善,也讓液冷的部署成本有了明顯的下降。據了解,目前比較常見的風冷解決方案單千瓦成本大概在 1.8 萬 ~2 萬之間,有些極端的用戶會要求壓縮到 1.2 萬,應用液冷的解決方案的成本目前基本可以控制在 2 萬以內。對此,胡世軒對鈦媒體 APP 表示,現階段,大規模應用液冷與傳統風冷相比,建設成本差別并不大,但是后期液冷能夠顯著所節省的電費,讓大規模應用液冷的數據中心在運營過程中比傳統風冷數據中心降低不少,整體降低了使得運營成本降低不少。
風液混合會持續下去
即便當前應用液冷解決方案的成本已經與風冷相當,但在胡世軒看來,企業也沒必要所有機柜都應用液冷的解決方案。
胡世軒告訴筆者,雖然液冷正在漸漸成為數據中心供冷主流方式之一,但用戶還是需要按需制宜,也不是所有的場合都是適合應用液冷," 比如,相較于計算的場景,存儲的場景下,機柜功耗并不是很大,選擇傳統風冷 / 水冷的方式更為合適," 胡世軒進一步指出," 還有一些傳統的,使用 CPU 的計算場景下,機柜功率基本維持在 10kW 以下,這些場景下,選擇傳統的供冷方式也就可以滿足服務器的散熱需求了。"
從目前業內的一貫做法也可以看出,液冷雖然發展速度快,且市場占有率越來越高,但其并不會成為數據中心供冷的 " 唯一 "。" 任何一個數據中心內部,不可能全部都是高功率、高算力的機柜 / 服務器,一定會有一部分相對功率不太高的機柜,以及一部分功率較高的機柜,一定是一種高、低(相對)功率并存的狀態," 胡世軒表示," 從算力服務器出貨量上看,雖然目前高功率服務器出貨在不斷增加,但標準的(相對較低)功率的服務器仍然占據市場主導,而這些服務器應用傳統的供冷模式,或者間接蒸發冷等技術就能滿足散熱需求,并不是所有都需要應用液冷。"(本文首發于鈦媒體 APP,作者|張申宇,編輯丨蓋虹達)