以下為演講實錄:
很高興來到這里。我的父母也在觀眾席上,他們是Thumbs和Ari,他們今天也在。英偉達來到中國臺灣已經有30多年了。這里是我們許多珍貴的合作伙伴和親愛的朋友的故鄉。這些年來,你們見證了NVIDIA的成長,見證了我們完成了許多激動人心的事情,并與我一路相伴。
今天,我們主要聊一聊我們在行業里的位置,還有即將推出的一些新產品。這些新東西肯定會讓大家眼前一亮,能幫我們開拓新的市場,帶來新的增長機會。我們還會聊聊偉大的合作伙伴,以及我們將如何共同開發這個生態系統。眾所周知,我們處于計算機生態系統的中心,是世界上最重要的行業之一。因此,當需要創造新市場時,我們必須從這里開始,從計算機生態系統的中心開始,創造新市場。我還會給你們帶來一些驚喜,一些你們可能想不到的東西。當然,肯定得說說人工智能和機器人技術這些熱門話題。
英偉達的故事,其實也是計算機行業和我們公司不斷發展變化的過程。正如我所說,我來到這里已經30年了。在座的不少朋友可能聽過我的好多次演講,甚至有人從頭到尾都跟著聽了。要是大家回顧一下這些年我在演講里講的內容,就會發現變化真的太大了。我們最初是一家芯片公司,目標是創建一個新的計算平臺。2006年,我們推出了CUDA,徹底改變了計算方式。十年后的2016年,我們意識到新的計算方式來了,而且要對技術棧的每一層都進行重塑,處理器、軟件堆棧、系統都得變。于是,我們發明了DGX-1這樣一個新系統,當時在GTC大會上公布的時候,沒有人明白我在說什么,也沒有人給我PO。這套系統被稱為DGX-1。我把第一個系統捐贈給了一家名為OpenAI的非營利公司,人工智能革命就是從這兒開始的。
再往后,我們發現這種新的軟件運行方式,也就是現在所說的人工智能,跟傳統的軟件運行方式不一樣。許多應用程序都是在大型數據中心的幾個處理器上運行的,我們稱之為超大規模。這種新型應用需要許多處理器協同工作,為數百萬人提供查詢服務,而數據中心的架構將從根本上改變。我們意識到有兩種網絡:一種是南北網絡,因為你仍然需要控制存儲,仍然需要有一個控制平面,仍然需要與外部連接。但最重要的網絡將是東西向的,即計算機之間相互對話,試圖解決問題。我們認識到,在高性能計算、大規模分布式處理的東西向流量方面,有一家最好的網絡公司——一家與我們公司非常親近的公司,名為Mellanox,五年前,也就是2019年,我們收購了他們。我們將整個數據中心轉換成了一個計算單元。
現在說起來,現代計算機就是一個完整的數據中心,數據中心就是一個大計算單元,不再是簡單的個人電腦或者一臺服務器。整個數據中心都在運行一項工作,操作系統也會隨之改變。英偉達的數據中心之旅現在已經非常有名了。在過去的三年中,大家已經看到了我們正在形成的一些理念,以及我們是如何開始以不同的方式看待我們的公司的。歷史上沒有任何一家公司,當然也沒有任何一家技術公司,會一次披露五年的路線圖。沒有人會告訴你接下來會發生什么。他們將其視為秘密,極度保密。然而,我們意識到,英偉達不再僅僅是一家技術公司。事實上,我們是一家重要的基礎設施公司。你如何規劃你的基礎設施、你的土地、你的外殼、你的動力、你的電力以及全球所有必要的融資?如果你不了解我要做什么,你怎么可能做到呢?因此,我們非常詳細地描述了公司的路線圖。詳細到世界上每個人都可以去開始建設數據中心。我們現在意識到,我們是一家人工智能基礎設施公司。一家在全世界都至關重要的基礎設施公司。
每個地區、每個行業、每家公司都會建立這些基礎設施。這些基礎設施是什么?事實上,這種基礎設施與第一次工業革命的情況很像,當時人們意識到GE、Westinghouse、西門子,意識到有一種新型技術叫做電力,必須在世界各地建設新的基礎設施。這些基礎設施成為社會基礎設施的重要組成部分。這種基礎設施現在被稱為"電力"。再過些年,到了我們這一代,人們發現又有一種新的基礎設施出現了,剛開始挺難理解的,這種基礎設施就是信息。
最早描述信息基礎設施的時候,大家也覺得沒什么意義,但現在大家都知道,那就是互聯網,互聯網無處不在,一切都與之相連。現在有了新的基礎設施。這種新的基礎設施建立在前兩種基礎設施之上。這個新的基礎設施就是智能基礎設施。我知道,現在當我們說有一個智能基礎設施時,這毫無意義。但我向你們保證,10年后,你們回過頭來看,就會發現人工智能已經融入了一切。
事實上,我們到處都需要人工智能。每個地區、每個行業、每個國家、每家公司都需要人工智能,因為它已成為基礎設施的一部分。而這種基礎設施,就像互聯網、電力一樣,也需要工廠。而我們現在建的這些人工智能工廠,和過去的數據中心不一樣。過去的數據中心是為了提供信息和存儲,支持企業的ERP系統和員工,是一個價值一萬億美元的產業,那是過去的數據中心。從這點來講,它和同行業里的數據中心有點像。其實它是我們所有人共同努力的結果,但以后會變成一個完全不同的新形態,和現在常見的數據中心完全不一樣。
如果說一定要給這些人工智能數據中心找個名字的話,其實叫"人工智能工廠"更合適。你對它施加能量,它就會產生一些非常有價值的東西。這些東西被稱為代幣,以至于公司開始談論上個季度生產了多少代幣,上個月生產了多少代幣。很快,我們就會像每家工廠一樣,談論我們每小時生產了多少代幣。所以說,世界已經發生了根本性的變化。從公司成立的第一天起,我就好奇1993年我們的商機有多大。我當時的結論是英偉達的商機是巨大的,3億美元?我們要發財了!從3億美元的芯片產業到代表約萬億美元的數據中心機會,再到現在以萬億美元計的人工智能工廠和人工智能基礎設施產業。這就是我們正在開展的令人興奮的未來。現在,我們所做的一切都建立在幾項重要技術的基礎之上。
說到加速計算和人工智能,NVIDIA真正與眾不同的地方在于融合了這些能力,尤其是算法和那些我們稱之為CUDA-X庫的庫文件。事實上,我們是世界上唯一一家不停談論庫的技術公司。因為庫就是一切工作的根基,就像圖書館是知識的起點一樣。今天我打算給大家介紹一些新庫,不過在這之前,我想先給大家大致講講我今天要分享的內容。
大家今天看到的所有東西,都是模擬科學和人工智能的結晶。你們在這里看到的都不是藝術,都是模擬出來的,只是恰好很美而已。拿我眼前的實時計算機圖形來說,這不是視頻,而是由GeForce生成的計算機圖形,而且用的是全新的GeForce RTX 5060。華碩和微星的產品都采用了這個非常厲害的GPU,你們感覺怎么樣?
先來看看這個,是不是很驚艷?這是一臺裝有5060的微星筆記本電腦。GeForce為世界帶來了CUDA。現在,你看到的每一個像素都是光線追蹤的。可能會好奇,在這么高的分辨率下,我們怎么可能實時模擬光子,還保證這么流暢的幀率?原因在于人工智能。我們只渲染10個像素中的一個像素。所以你看到的每一個像素,只有十分之一是真正計算出來的。其他九個是人工智能猜測的。有趣嗎?這就是我們的DLSS神經渲染技術,我們花了很多年才開發出來。從我們開始研究人工智能的那一刻起,我們就開始研發它了。因此,我們走過了10年的歷程,人工智能徹底改變了計算機圖形學的發展。GeForce為世界帶來了人工智能,如今人工智能徹底改變了計算機圖形學的走向。GeForce當年把人工智能帶給了世界,現在人工智能又回過頭來,把GeForce推上了新的高度。各位,這魔法般的科技是不是很讓人驚嘆?
讓我們來談談庫。當然,一切都以CUDA為核心。通過使CUDA的性能盡可能高,盡可能普及,使其安裝基礎遍布全球,這樣應用程序就能很容易地找到CUDA GPU。安裝基數越大,就會有越多的開發人員想要創建庫。庫越多,所做的事情就越驚人,應用就越好,用戶就越受益;他們就會購買更多的電腦,電腦越多,CUDA就越多。這種反饋路徑至關重要。
然而,加速計算并不是通用計算。每個人都會編寫軟件;每個人都會用Python或C或C++編寫軟件,然后進行編譯。通用計算的方法始終如一:編寫應用程序、編譯應用程序、在CPU上運行。然而,這種方法在加速計算中根本行不通。因為如果你能做到這一點,它就會被稱為CPU。如果不改變CPU,就可以編寫軟件、編譯軟件并在CPU上運行,這有什么意義呢?
事實上,你必須做一些不同的事情,這是很合理的,原因是這么多人致力于通用計算——數萬億美元的創新。怎么突然間在芯片里裝幾個小部件,計算機的速度就一下子快了50倍、100倍?這根本說不通。因此,我們應用的邏輯是,如果你對它有更多的了解,我們就能加速應用。如果你能創建一個更適合加速的架構,在99%的運行時間內以光速運行,你就能加速應用。盡管這只占代碼的5%,但大多數應用程序,代碼的一小部分就消耗了大部分的運行時間,這一點非常令人驚訝。
我們就是這么做的,一個領域接著一個領域地突破。我剛剛給你們展示了計算機圖形學,我們還有數值庫,我們有CuNumeric,它是最普及的數值庫。Aerial和Shona Aerial是世界上首個針對5G和6G的GPU加速無線電信號處理技術。一旦我們實現了軟件定義,就可以在其基礎上進行人工智能。
因此,現在我們可以將人工智能引入5G和6G。用于基因組學分析的Parabricks。用于醫學成像的MONAI。用于天氣預測的Earth-2。用于量子、經典計算機架構和計算機系統的cuQuantum。用于張量收縮的cuEquivariance和cuTensor。
我們的深度學習離不開威震天,它包含了所有深度學習訓練和推理所需的庫,徹底改變了計算模式。這一切始于 CUDA 和 cuDNN,后來又有了 Megatron、TensorRT-LLM,最近又推出了用于大型人工智能工廠的全新工具 Dynamo Coupf。CuPy 能加速數據框架,比如 Spark 和 SQL,連結構化數據處理也能加快。Warp 是個 Python 框架,用來描述 CUDA 內核,非常方便。
cuOpt 也很成功,能優化數學運算,比如旅行推銷員問題,還能解決供應鏈優化這類變量多、限制多的問題。cuDSS 和 cuSparse 用于稀疏結構模擬器,在 CAE 和 CFD 領域,比如流體動力學和有限元分析中非常重要,對 EDA 和 CAE 行業幫助很大。還有 cuLitho,它是計算光刻技術的關鍵庫,以前掩膜制作要一個月,計算量極大,現在 cuLitho 能把速度提升 50 到 70 倍,為人工智能在光刻技術中的應用鋪平了道路。臺積電已經在廣泛使用 cuLitho,ASML 和 Synopsys 也是合作開發 cuLitho 的優秀伙伴。
這些庫讓我們在眾多應用領域、科學領域和物理學領域能加速應用,也助力我們開拓市場。我們會關注特定地區和市場,推動向新計算方式的轉型。通用計算雖然發展多年,但在很多行業還沒走到頭,這值得我們深思。
電信業無疑是關鍵行業之一。就像現在全球的云數據中心已經變成軟件定義的一樣,電信業也應該是軟件定義的。為此,我們花了整整六年時間,不斷打磨和優化完全加速的無線接入網絡堆棧。現在,這個堆棧在每兆瓦數據傳輸率或每瓦特數據傳輸率方面,性能已經達到令人驚嘆的水平,和最先進的專用集成電路(ASIC)不相上下。一旦達到這樣的性能和功能水平,我們就可以在此基礎上疊加人工智能技術。
在這個領域,我們和眾多優秀伙伴攜手共進。像軟銀、T-Mobile、Indosat和沃達豐等,正在進行相關試驗。諾基亞、三星、京瓷等公司則和我們一起開發全棧解決方案。富士通和思科也在積極開發配套系統。如今,我們已具備引入5G人工智能、6G人工智能以及計算人工智能概念的能力。
我們正在借助量子計算來推動這一切。雖然量子計算現在還處于"嘈雜中等規模量子"(NISQ)階段,不過,我們已經可以開始做很多很好的應用,我們對此感到很興奮。我們正在開發一個量子經典或量子GPU計算平臺。我們稱之為Q2Q,與世界各地的優秀公司合作。在這個平臺上,GPU可以用于預處理和后處理,還能用于糾錯和控制。所以我預測,未來所有的超級計算機都會配備量子加速器,都會連接到量子QPU。到那時,超級計算機將集QPU、GPU和CPU于一體,成為現代計算的標桿。在這個領域,我們和眾多優秀的企業展開了緊密合作。
人工智能12年前,我們從感知人工智能模型起步,那時的模型能夠理解模式、識別語音和圖像。這是人工智能的開端。過去五年,生成式人工智能成為熱點,它不僅能夠理解,還能自主生成內容。比如從文本生成文本,這在ChatGPT中得到了廣泛應用;還能實現文本到圖像、文本到視頻、圖像到文本的轉換,幾乎可以實現任何事物到任何事物的生成,這就是人工智能真正令人驚嘆的地方。我們發現了一個通用函數近似器,一個通用翻譯器。只要我們能對信息進行標記化和比特化,它就能將任何事物翻譯成其他任何事物。現在,我們的人工智能已經達到了一個全新的高度。
生成式人工智能為我們提供了非常精準的人工智能。你發一條短信,它就會給你回短信。這是兩年前我們第一次使用ChatGPT時取得的重大突破。你發一條短信,它就會給你回短信。它能預測下一個單詞,預測下一個段落。不過,真正的智能不僅是從一大堆數據里學東西那么簡單。真正的智能是要能推理,能解決那些你從來沒遇到過的問題。就像你遇到一個復雜的難題,智能系統能夠把它一點點拆開,一步一步去解決。它可能還會用到一些規則或者定理,就像我們上學時解數學題一樣,一步步推導出答案。更厲害的是,它還能模擬出好多種解決方案,然后權衡哪個更好。你們可能聽說過一些相關的技術,比如"思維鏈",就是把問題一步步拆解;還有"思維樹",就是像樹杈一樣,想出好多條解決問題的路徑。這些技術讓人工智能有了真正的推理能力。
現在更神奇的是,當一個人工智能既有推理能力,又有感知能力,比如它能看懂PDF文件,還能上網搜索、用各種工具,它就已經變成了一個"代理人工智能"。這種代理人工智能就像我剛才說的,就像我們每個人一樣。你給它一個目標,它就會自己一步一步地去分解,去推理怎么做最好,還會考慮后果。然后就開始行動,這個過程可能包括做研究、干活,甚至和其他人工智能合作。
理解、思考和行動是機器人學的循環。代理人工智能基本上就是數字形式的機器人。這些在未來幾年將非常重要。我們正看到這一領域的巨大進步。除此之外的下一波浪潮是能夠理解世界的物理人工智能。它們能理解慣性、摩擦力、因果關系等事物。如果我滾動一個球,它從汽車下面滾過,根據球的速度,它可能會滾到汽車的另一邊,但球并沒有消失,物體永存。你也許可以推理出,如果你面前有一張桌子,而你必須走到桌子的另一邊,最好的辦法不是直接穿過桌子。最好的辦法也許是繞過它或從它下面走過去。能夠對這些物理事物進行推理,對人工智能的下一個時代至關重要。我們稱之為物理人工智能。
具體來講,你可以想象一下:我們只要簡單地給AI一些提示,它就能生成視頻,然后在各種不同場景里訓練自動駕駛汽車。一會兒我會給大家展示更多這方面的內容。比如我們有個狗的模擬,生成的場景里有鳥和人。一開始是左邊的圖片,后續階段,我們會用推理系統、生成系統和物理人工智能來實現。總之,這種能力最終會轉化為我們所說的機器人實體,讓機器人也能像理解物理世界一樣去行動。
如果你能想象你能促使人工智能生成一段視頻,讓它伸手拿起一個瓶子,當然,你也可以想象告訴機器人伸手拿起瓶子。如今的人工智能已經具備了做這些事情的能力。這正是我們在不久的將來要做的事情。為了實現這一目標,我們正在制造的計算機具有與以往計算機截然不同的特性。大約三年前,名為"Hopper "的革命性計算機問世。它徹底改變了我們所知的人工智能。它可能成為世界上最流行、最知名的計算機。在過去的幾年里,我們一直在研究一種新的計算機,使我們能夠進行推理時擴展。基本上,我們的思維速度快得令人難以置信。因為當你思考時,你會在腦中產生大量的標記--你的世界--你會產生大量的想法,你會在大腦中反復推敲,然后得出答案。因此,過去的一次性人工智能現在將成為思考型人工智能、推理型人工智能、推理時間擴展型人工智能。而這需要更多的計算。因此,我們創建了一個名為格蕾絲-布萊克韋爾(Grace Blackwell)的新系統,它能夠做到以下幾點。
它具有擴展能力,即把一臺計算機變成一臺巨型計算機。擴展是指把一臺計算機連接到許多臺計算機上,讓工作在許多不同的計算機上完成。擴大規模很容易。擴大規模則難上加難。建造超越半導體物理學極限的大型計算機難上加難。格蕾絲-布萊克韋爾就是這樣做的。格蕾絲-布萊克韋爾幾乎打破了一切。所有在座的各位,你們中的許多人都在與我們合作構建格蕾絲-布萊克韋爾系統。
我很高興地告訴大家,我們正在全面投入生產,但我們也可以說,這是一項極具挑戰性的工作。雖然基于HGX的布萊克韋爾系統從去年年底就開始全面投產,并且從今年2月起就可以使用,但我們現在才剛剛將所有格雷斯布萊克韋爾系統上線。它們每天都在不斷上線。它在CoreWeave中的使用時間已達數周。許多CP已經在使用它,現在你開始看到它從各個地方出現。每個人都開始在推特上發布格蕾絲-布萊克韋爾(Grace Blackwell)將于今年第三季度全面投產的消息。
正如我每年都承諾的那樣,我們每年都會提高平臺的性能。今年第三季度,我們將升級到格雷斯-布萊克韋爾GB200。GB200將提高相同的架構,相同的物理尺寸,相同的電子機械,但內部芯片已經升級。它升級了新的Blackwell芯片,推理性能提高了1.5倍,HBM內存提高了1.5倍,網絡性能提高了2倍。因此,系統整體性能更高。接下來讓我們來看看格雷斯-布萊克韋爾的內部結構。
格蕾絲-布萊克韋爾的計算節點是整個系統的基礎。這是其中一個節點,上一代產品的設計。注意中間這里,它現在是100%液冷的,但其他部分基本沒變。所以它可以輕松插入現有的系統和機箱中。格雷斯-布萊克韋爾GB200系統的推理性能提升了1.5倍。雖然訓練性能和之前差不多,但推理性能可提高了一大截。現在,這臺系統能達到40 petaflops的算力,這相當于2018年Sierra超級計算機的水平。要知道,當年的Sierra超級計算機用了18000個Volta GPU。如今,一個節點就頂替了整臺超級計算機。六年間,性能直接提升了4000倍,這就是極端的摩爾定律。
如我之前所說,英偉達每隔十年就能把計算能力提升一百萬倍,我們依然在這條路上穩步前行。但僅靠提升芯片速度是不夠的,因為芯片的速度和尺寸都有物理極限。以 Blackwell 為例,我們通過將兩個芯片相連來突破單一芯片的限制。為此,臺積電與我們合作開發了先進的 CoWoS-L 工藝,這才讓制造如此巨型的芯片成為可能。
但即便如此,我們對芯片尺寸的需求仍在增長,這就促使我們開發了 NVLink 技術。NVLink 是全球最快的交換機,它的傳輸速度高達每秒 7.2 太比特。一個機架上部署了九臺這樣的交換機,它們相互連接構成了一個強大的網絡。別看我把它舉起來好像很輕松,其實它特別沉,差不多有70磅重。它就好比是NVLink的脊柱,里面有兩英里長的電纜,總共5000根,設計得非常科學合理,全都是同軸電纜,針腳還對得嚴絲合縫。通過名為 NVLink Switch 的網絡,它能將 72 個 GPU 與其他 72 個 GPU 連接起來。
NVLink 的核心優勢在于其高達每秒 130 太比特的帶寬。作為對比,整個互聯網的峰值流量僅為每秒 900 太比特。簡單計算一下,NVLink 的帶寬相當于互聯網流量的八分之一還多。這意味著在一個由九個 NVLink 交換機構成的系統中,每個 GPU 都能與其他 GPU 實現即時通信。
這就是 GB200 的神奇之處。由于 SerDes 的驅動距離有限,我們把所有組件都集成在一個機架內,從芯片到開關,再到脊柱和其他組件,全靠電氣驅動連接。一個機架的功率高達 120 千瓦,因此所有設備都得用液體冷卻。現在,我們能將 GPU 從一塊主板擴展到整個機架,整個機架就像一塊巨大的主板,這就是創新所在。
如今,GPU 的性能、內存和網絡帶寬都非常驚人,我們完全可以將這些能力擴展到更大的系統中。英偉達的很多產品都體積龐大,因為我們建造的是人工智能工廠,而不是傳統數據中心。像 CoreWeave 和甲骨文云這樣的設施,機架功率密度很高,必須加大機架間距來散熱。總之,我們建造的是人工智能工廠,而不是普通數據中心。
這就是xAI巨像工廠,代號"星際之門",面積達400萬平方英尺,功率高達1千兆瓦。所以,想象下這座工廠吧。這座1千兆瓦的工廠造價大概在600到800億美元之間,其中電子、計算部分--這些系統占400到500億美元。因此,這些都是巨大的工廠投資。為什么要建工廠呢?其實大家都懂,買得越多,做得也越多,這就是工廠的規模效應。技術太復雜了。事實上,光是在這里看,你還是無法深刻體會到我們所有的合作伙伴和中國臺灣觀眾席上的所有公司所做的了不起的工作。因此,我們為大家制作了一部電影。
Blackwell 的誕生堪稱工程界的奇跡。一切始于臺積電的一塊空白硅晶圓,經過數百道芯片加工和紫外線光刻工序,在一個 12 英寸的晶片上,一層一層地集成了 2000 億個晶體管。隨后,晶圓被切割成獨立的 Blackwell 芯片,經過嚴格測試和篩選,優質的芯片被挑選出來繼續后續流程。
在接下來的步驟中,臺積電、矽品和 Amkor 采用先進的基板上芯片工藝,將 32 個 Blackwell 芯片和 128 個 HBM 堆疊在一個定制的硅內插晶片上。通過直接蝕刻在晶片上的金屬互連線,Blackwell GPU 和 HBM 堆棧被連接到每個系統級封裝單元中,確保所有部件精準鎖定到位。組件經過烘烤、成型和固化等工序后,最終形成 Blackwell B200 超級芯片。每塊 Blackwell 芯片還需在 125 攝氏度的環境下進行數小時的壓力測試,以確保其性能達到極限。
在富士康,機器人 24 小時不間斷地工作,將 10,000 多個元件精準地放置到 Grace Blackwell PCB 上。與此同時,全球各地的工廠也在緊鑼密鼓地準備其他元件。來自 Cooler Master、ABC Auras 和 Delta 的定制液體冷卻銅塊,確保芯片始終處于最佳工作溫度。在富士康的另一家工廠,ConnectX-7 和 SuperNIC 正在制造中,以實現擴展通信。BlueField 3 DPU 則用于卸載和加速網絡、存儲和安全任務。
當所有部件準備就緒后,它們被精心集成到 GB200 計算托盤中。NVLink 是英偉達發明的一種突破性高速鏈路技術,用于連接多個 GPU 并擴展為一個龐大的虛擬 GPU。NVLink 交換機托盤由 NVLink 交換機芯片構成,提供每秒 14.4 TB 的全對全帶寬。NVLink spines 構成一個定制的盲配背板,集成 5,000 根銅纜,提供每秒 130 TB 的全對全帶寬。這使得所有 72 個 Blackwell 或 144 個 GPU 芯片能夠連接成一個巨大的 GPU。
來自富士康、緯創、廣達、戴爾、華碩、技嘉、HPE、超微等合作伙伴的零部件從世界各地匯聚而來,由熟練的技術人員組裝成一臺機架規模的人工智能超級計算機。總計 120 萬個組件、兩英里長的銅纜、130 萬億個晶體管,最終組裝成重達 18 公斤的人工智能超級計算機。從第一個晶體管在晶圓上蝕刻,到最后一個螺栓固定在 Blackwell 機架上,每一步都凝聚著合作伙伴的心血、精度和工藝。它不僅僅是一個技術奇跡,也是中國臺灣科技生態系統奇跡的見證。
我們對大家攜手取得的成就感到無比自豪,謝謝大家!聽起來是不是很不可思議?但這就是你們的實力!中國臺灣不僅為全球制造超級計算機,今天,我特別激動地宣布,我們也在為中國臺灣打造人工智能。今天,中國臺灣富士康、中國臺灣政府、英偉達(NVIDIA)、臺積電(TSMC)將聯手在這里構建中國臺灣的人工智能基礎設施和生態系統,并打造中國臺灣的第一臺巨型人工智能超級計算機。謝謝大家!
有人需要人工智能計算機嗎?臺下有人工智能研究人員嗎?每個學生、每個研究人員、每個科學家、每個初創公司、每個大型公司......臺積電本身已經做了大量的人工智能和科學研究。富士康在機器人方面也做了大量工作。我知道在座的還有很多其他公司,我馬上就會提到你們,它們都在進行機器人研究和人工智能研究。因此,在中國臺灣擁有世界一流的人工智能基礎設施非常重要。
所有這些都是為了讓我們能夠構建一個非常大的芯片和NVLink。這一代的Blackwell讓我們有可能創造出這些令人難以置信的系統。這是和碩、QCT、緯創和Wiwynn的產品。這是富士康、技嘉和華碩的產品。你可以看到它的正面和背面。它的整個目標就是把這些你可以看到有多大的Blackwell芯片,變成一個巨大的芯片。當然,NVLink讓這一功能成為可能。但這也低估了系統架構的復雜性,以及將其連接在一起的豐富的軟件生態系統。由150家公司組成的整個生態系統共同打造了這一架構,整個行業的技術和軟件生態系統歷時三年。這是一項巨大的產業投資,現在我們希望讓任何想建立數據中心的人都能做到這一點。
可能是一大批英偉達GB200或英偉達的其他加速計算系統。也可能是其他人。因此,今天我們將發布一些非常特別的產品。我們將發布NVIDIA NVLink-Fusion。NVLink-Fusion可以讓你構建半定制的人工智能基礎架構,而不僅僅是半定制芯片,因為那是美好的過去。你想要構建人工智能基礎設施。而每個人的人工智能基礎架構都可能有些不同。有些人可能有更多的CPU,有些人可能有更多的英偉達GPU,有些人可能是定制的ASIC。而這些系統的構建難度可想而知。
它們都缺少一個不可思議的要素,這個不可思議的要素就是NVLink。有了NVLink,你就可以擴展這些半定制系統,構建真正強大的計算機。今天發布的NVLink-Fusion就是這樣,這就是英偉達的平臺,有CPU、GPU、NVLink交換機,還有譜系-X或InfiniBand網絡,涵蓋了網絡互聯、交換機和整個系統,是完整的端到端基礎設施。當然,你要是愿意,也可以混搭別的東西。現在,我們甚至可以在計算層面進行混合和匹配。
這就是用定制ASIC要做的事。我們有很棒的伙伴,馬上要宣布了,他們正跟我們合作,把你的特殊TPU或其他特殊組件、加速器整合進來。不一定是變壓器加速器,你想集成到大型擴展系統的任何加速器都行。我們創建了一個NVLink Triplet。它基本上是一個開關,可以直接連接到你的芯片,你可以將IP集成到您的半定制ASIC中。一旦你做到了這一點,它就能與我提到的計算板相匹配,并與我向你展示的人工智能超級計算機生態系統相匹配。
比如,如果你自己有CPU,而且已經構建了龐大的CPU生態,想把英偉達集成進去,現在完全可以實現。我們為你的ASIC提供NVLink芯片到芯片接口,并通過NVLink Triplet連接,讓它直接連到Blackwell芯片和下一代Rubin芯片上,完美融入整個生態。現在這個體系靈活又開放,大家都能參與進來。所以你的人工智能基礎架構里可以有少量英偉達芯片、大量CPU和ASIC,當然也可以有很多英偉達GPU。
總之,你可以把NVLink基礎設施用在NVLink生態里,并且能和Spectrum-X完美對接,這些技術和合作背后都有強大的工業實力撐腰。這就是NVLink-Fusion;無論你是否完全從我們這里購買,這都非常棒。沒有什么比你從英偉達購買所有產品更讓我高興的了;我只是想讓你們知道這一點。但是,如果你只從英偉達公司購買一些東西,也會給我帶來極大的快樂。
我們有一些很棒的合作伙伴:L-Chip、Astera、Marvell以及我們的合作伙伴聯發科都將與我們合作,為ASIC或半定制客戶提供服務。超大規模廠商或CPU供應商希望構建這些產品,他們將成為半定制ASIC供應商。富士通(Fujitsu)和高通(Qualcomm)也在使用NVLink構建他們的CPU,以融入我們的生態系統。此外,我們還與Cadence和Synopsys合作,將IP轉移給他們,這樣他們就可以與你們所有人合作,將IP應用于你們的所有芯片。因此,這個生態系統是令人難以置信的,而這恰恰突出了NVLink-Fusion生態系統。一旦你與他們合作,你就會立即融入整個更大的英偉達生態系統,使你有可能擴展到這些人工智能超級計算機。
接下來,我想給大家介紹一些全新的產品類別。之前給大家展示過幾款不同的電腦,但為了滿足全球大多數用戶的需求,還有一些電腦有待補充。但在此之前,我想告訴大家一個最新消息,事實上,我們稱之為DGX Spark的新計算機已經全面投入生產。DGX Spark將準備就緒,很快就會上市,大概在幾周內。
我們的合作伙伴非常強大:戴爾、HPE、華碩、微星、技嘉、聯想,難以置信的合作伙伴與我們一起工作。這是DGX Spark,這實際上是一個生產單元。不過,我們的合作伙伴正在構建一些不同的版本。這是為人工智能原生開發者設計的。如果你是開發人員、學生、研究人員,你不想不停地打開云并做好準備,然后,當你完成后,再刷新它。,基本上是你自己的人工智能云,就在你身邊,它一直開著,一直等著你。它允許你進行原型設計和早期開發,就是神奇之處。這是DGX Spark,它有1 petaflop和128 gigabytes。
2016年我交貨DGX-1時,光機箱就重達300磅,我連整臺電腦都舉不起來。這就是DGX-1。這是1 petaflop和128千兆字節。當然,這是128千兆字節的HBM內存,這是128千兆字節的LPDDR5X內存。事實上,兩者的性能相當接近。但最重要的是,你能做的工作,你能在這上面做的工作,與你能在這里做的工作是一樣的。這是在短短10年時間內取得的驚人成就。好了,這就是DGX Spark,適合任何想擁有自己的人工智能超級計算機的人。 我們的合作伙伴可以自己定價。但有一點可以肯定,每個人都可以擁有一臺作為圣誕禮物。
我還有一臺電腦要給大家看看。要是DGX Spark還不夠看的話,這還有個大家伙!感謝珍妮,這就是珍妮和保羅,要是剛才那臺還不夠大,這還有一臺更大的!戴爾、HPE、華碩、技嘉、微星、聯想全都有售,PNY和Leada馬上也會推出,這些工作站公司都很出色。這臺電腦就是你的個人 DGX 超級計算機,它的性能已經達到了普通墻壁插座所能支持的極限。你可以把它放在廚房里,不過要是有人開了微波爐,估計就快到它的極限了。這就是墻壁插座的極限了。
這臺電腦叫 DGX 站,它的編程模型和我之前給大家展示的巨型系統一模一樣,這就是它的神奇之處。一個架構,就能提供足夠的能力和性能,運行 1 萬億個參數的人工智能模型。記住,Llama 是 70B 參數,而 1 萬億參數的模型在這臺機器上運行得非常棒!所以,這就是 DGX 站,這些系統都是為新一代軟件打造的人工智能原生計算機。
這些計算機其實不用非得兼容x86架構,也不一定要運行傳統的IT軟件。它們不需要運行虛擬機管理程序,也不一定要運行Windows系統。這些計算機完全是為現代人工智能原生應用量身打造的。當然了,這些人工智能應用也可以通過API被傳統的經典應用調用。但是,為了將人工智能帶入一個新世界,我們必須追根溯源,我們必須重塑計算,將人工智能引入傳統的企業計算。我們知道,企業計算實際上有三個層次。它不僅僅是一個計算層,它包括計算、存儲和網絡,它始終是計算、存儲和網絡,正如人工智能改變了一切,人工智能也理所當然地改變了企業IT的計算、存儲和網絡。下層必須徹底重塑,而我們正在這樣做,我將向大家展示一些新產品,這些產品將打開、釋放企業IT。
對我們來說,必須和傳統IT行業合作,同時還得增加一種新能力,那就是代理人工智能(Agentic AI)。基本上是:數字營銷活動經理、數字研究員、數字軟件工程師、數字客戶服務、數字芯片設計師、數字供應鏈經理。我們過去所做的所有工作都是數字化版本,人工智能版本。正如我之前提到的,Agentic AI具有推理、使用工具、與其他AI合作的能力。因此,在很多方面,這些都是數字化工人,他們是數字員工。
世界勞動力短缺到2030年,我們將缺少3000萬到5000萬名工人。這實際上限制了世界的發展能力。因此,現在我們有了這些可以與我們一起工作的數字代理。現在,100%的英偉達軟件工程師都有數字代理與他們一起工作。這樣他們就能幫助他們,協助他們開發出更好的代碼,提高工作效率。未來,大家都會有一層代理人工智能,這是我們的愿景。以后,每個人都能擁有自己的人工智能代理。
那么世界會發生什么變化?企業會發生什么變化?我們的人力資源是為人類員工服務的,而IT將成為數字員工的人力資源。因此,我們必須為今天的IT行業、今天的IT員工創造必要的工具,使他們能夠管理、改進和評估在公司內部工作的一整套人工智能代理。這就是我們的愿景。但首先,我們必須重塑計算。
企業 IT 現在大多還是基于 x86 架構的,跑的也都是傳統的軟件,比如 VMware 或者 IBM、Red Hat、Nutanix 的虛擬化軟件,各種經典的老舊應用一大堆。簡單來說,就是我們現在的計算機還要能跑這些老東西,同時還得加上新的"代理人工智能"功能。接下來我帶大家看看我們是怎么做到的。
這是全新的 RTX Pro Enterprise,它是一款功能強大的Omniverse服務器。這臺服務器可以運行一切。當然,作為x86,它可以運行所有經典的管理程序。它可以運行所有經典的管理程序,像Kubernetes這樣的工具也毫無壓力。IT部門管理網絡、集群,以及協調工作負載的方式,和以前完全一樣。它甚至能把Citrix和其他虛擬桌面流暢地傳送到你的PC上。簡單來說,現在世界上所有運行的東西,理論上都能在這臺服務器上跑起來。
Omniverse可以在這里完美運行。除了這些,RTX Pro Enterprise還是企業人工智能代理的得力助手。這些人工智能代理可以是文本形式,也可以是圖形形式,甚至可以是視頻形式。你可以想象一下,小JT或者"小玩具詹森"這樣的數字形象會來到你身邊,幫助你完成工作。無論是文本、圖形還是視頻,這些工作負載都可以在這個系統上運行。不管是哪種模式,所有的模型和應用程序都能在這臺機器上順利運行。甚至像《危機》這樣的大型游戲也能在這里暢玩。各位GeForce玩家應該很期待吧?在座的有沒有GeForce玩家?
連接這些AGPU的是全新的RTX Pro 6主板,它其實是一個交換網絡。CX8是一種新型芯片,它既是交換機,又是網絡芯片,是目前世界上最先進的網絡芯片之一。現在已經開始批量生產了。在CX8中,你可以插入GPU,它連接在PCI Express上,所有的GPU都能通過CX8與其他GPU進行高速通信,網絡帶寬高達每秒800千兆比特。這種架構的性能簡直令人難以置信。
我在GTC上跟大家講過,我們在人工智能工廠的世界里,衡量性能的關鍵是吞吐量。吞吐量就是每秒的"代幣數",也就是Y軸。工廠的產出越多,生產的代幣也就越多。簡單來說,吞吐量就是每秒的代幣數量。然而,每個人工智能模型都不一樣。有些模型需要大量的推理,這就要求每個用戶的性能都非常高,也就是每個用戶每秒的代幣數必須很高。這就是工廠的挑戰:你要么追求高吞吐量,要么追求低延遲,但很難兩者兼得。我們的目標是創建一個操作系統,既能實現高吞吐量,又能保持極低的延遲,這樣每個用戶都能獲得出色的體驗。
這張圖表展示了計算機的整體性能,以及廠的整體能力。不同的顏色代表不同的GPU配置方式,比如流水線并行、專家并行、批處理、投機解碼等。不同的工作負載和應用場景需要不同的算法,我們必須根據這些需求來優化系統。這張圖表的外部區域,也就是曲線的整體區域,代表了工廠的最終能力。再給大家介紹一下,這是Hopper H100,它是世界上最著名的計算機之一,采用HGX架構,價格高達225,000美元。而剛剛大家看到的我們的企業服務器,性能是它的1.7倍,簡直太驚人了!這是Llama 70B模型,還有DeepSeek R1。DeepSeek R1的性能是H100的四倍,這得益于它的優化設計。DeepSeek R1是獻給世界人工智能產業的一份厚禮,它在計算機科學領域取得了重大突破,為研究人員開辟了新的研究方向。無論我走到哪里,DeepSeek R1都對人工智能、推理技術產生了深遠影響。
如果你正在構建企業級人工智能,我們為你準備了一款性能卓越的服務器。這可能是我們有史以來最大規模的系統上市,我們的RTX Pro服務器正在和業內所有合作伙伴進行批量生產。計算平臺和存儲平臺現在走的是不同的路。因為人類用SQL這類結構化數據庫來查東西,但人工智能得靠非結構化數據,它需要語義和意義。因此,我們必須創建一種新型的存儲平臺。這就是英偉達人工智能數據平臺。在這個平臺上,和SQL服務器、文件存儲軟件一樣,會有一套非常復雜的軟件。基本上,大多數存儲公司其實都是軟件公司,這層軟件復雜到讓人難以想象。
在新型存儲系統的基礎上,我們要建立一個新的查詢系統,叫做IQ,也就是英偉達AIQ。這玩意兒非常先進,基本上和存儲行業的所有人都有合作。未來的存儲不再是CPU放在存儲機架上,而是GPU放在存儲機架上。因為要在非結構化數據和原始數據里找意義,得編制索引、搜索、排序,這些都很耗費計算資源。所以,未來大多數存儲服務器前面都會有一個GPU計算節點。
這一切都是從我們建立的人工智能模型開始的。我們投入了大量精力和技術去訓練這些模型,而且我們用的數據完全透明,安全可靠,完全可以用來訓練。我們會把數據和訓練后的模型展示給你們,這些模型的性能絕對令人驚嘆。比如Llama Nemotron推理模型,現在就可以下載,它是目前世界上最好的推理模型,下載量非常高。
除了這個,我們還有很多其他模型,用來完成所謂的IQ,也就是檢索部分。這些模型的速度比現有的快15倍,查詢結果提升50%,而且這些模型都可以使用。IQ藍圖是開源的,我們和存儲行業合作,把這些模型集成到他們的存儲堆棧和人工智能平臺中,這就是VAST。VAST 利用英偉達IQ藍圖和Nemo Retriever加速人工智能數據平臺,只用了三天時間就構建了一個銷售研究人工智能代理。這個平臺可以持續提取、嵌入和索引數據,實現快速語義搜索。首先,代理會起草大綱,然后接入客戶關系管理系統、多模態知識庫和內部工具。最后,它用Llama Nemotron把大綱變成一步步的銷售計劃,這在過去可能需要好幾天的時間,現在幾分鐘就能搞定。有了VAST的加速人工智能數據平臺,企業可以為每位員工創建專門的代理。
這就是VAST。戴爾作為世界領先的存儲廠商之一,擁有一個出色的人工智能平臺。日立也打造了一個優秀的人工智能數據平臺。IBM正在和英偉達Nemo合作構建人工智能數據平臺,而NetApp也在開發自己的NetApp AI平臺。這些平臺都是開放的。如果你正在開發人工智能平臺,并且想在前面加上語義查詢人工智能,那么英偉達Nemo是全球最好的。這就是現在的企業計算和企業存儲。
接下來,我們聊聊一個新的軟件層,叫AI Ops。就像供應鏈有運營部門,人力資源也有運營部門一樣,未來IT部門也會有專門的AI運營部門。他們的工作就是整理數據、微調模型、評估模型,確保模型的安全和防護。我們有很多必要的庫和模型,可以集成到AI Ops生態系統里。為了實現這個目標,我們已經和一些優秀的伙伴合作,把產品推向市場。
比如CrowdStrike、Dataiku、DataRobot都在和我們合作。這些伙伴都在做人工智能操作,包括創建、微調模型,以及在企業中部署人工智能模型。英偉達的庫和模型都集成在里面。還有DataStacks、Elastic(聽說它們的下載量高達4000億次)、Nutanix、Red Hat,以及中國臺灣的趨勢科技。簡單來說,我們就是要給全球企業IT帶來這樣的能力:在保留現有系統的基礎上,加入人工智能。我們已經有了企業就緒的系統和強大的生態系統合作伙伴。戴爾和其他公司會把這些平臺推向全球企業IT。
先說說企業IT吧。我們希望能把人工智能融入到企業IT的很多面面,但絕不是要推翻現有的系統,畢竟企業還得正常運轉。我們要做的是,在現有的基礎上加入人工智能,讓它們相輔相成。現在,我們有了完備的企業級系統,還有一系列強大的生態合作伙伴,比如戴爾、Jeff Clark的公司(他可是我們長期合作的好伙伴,來中國臺灣的時間和我一樣長)等等,他們會幫我們把這些先進的平臺推向全球的企業IT市場。
接下來聊聊機器人。代理人工智能也好、人工智能代理也好,其實本質上就是數字機器人。機器人之所以能被稱為機器人,關鍵在于它們能感知、理解和規劃,這也就是代理的核心功能。不過,我們不僅僅滿足于數字層面,還希望制造出實體機器人。要想做到這一點,機器人得先學會怎么當機器人,但這在現實世界里很難實現。
所以,我們得創造一個虛擬世界,讓機器人在里面學習怎么成為一個出色的機器人。這個虛擬世界得遵循物理定律才行。問題是,大多數物理引擎都做不到高保真地處理剛體和軟體的模擬。如何做呢?我們和DeepMind、谷歌DeepMind以及迪士尼研究院合作,開發出了"牛頓"——目前世界上最先進的物理引擎,它將在七月份開源。這玩意兒功能強大得令人咋舌,完全由GPU加速,還能通過微分從經驗中學習,保真度極高,實時性超強。我們可以把牛頓引擎集成到MuJoCo和英偉達的Isaac Sim里,不管你想用哪種模擬環境或框架,它都能完美適配。
有了它,我們就能讓這些機器人栩栩如生。誰不想家里有個小機器人追著狗跑,把狗逗得團團轉?你看到的不是動畫,而是模擬。機器人在模擬環境里學本事,比如在沙子和泥巴里靈活移動。將來,我們會把訓練好的人工智能模型放進模擬機器人里,讓它成為優秀的機器人。
我們為機器人行業做了不少事。在自動駕駛汽車領域,我們有三個系統:一是用GB200、GB300這樣的系統訓練人工智能模型;二是在Omniverse里模擬這些模型;三是把模型應用到自動駕駛汽車上。今年,奔馳汽車全球部署我們的自動駕駛堆棧,我們的合作模式很靈活,合作伙伴可以自由選擇用我們的計算機、庫或運行時,非常方便。
我們的Isaac-Grunt平臺也一樣,模擬用Omniverse,計算和訓練系統也一樣。完成模型后,放到Isaac-Grunt平臺,由新計算機"捷森雷神"驅動,它是個強大的機器人處理器,適用于自動駕駛汽車和各種機器人系統。上面有英偉達Isaac操作系統,負責神經網絡處理和傳感器管道,提供執行結果。我們還和機器人團隊一起創建預訓練模型,提供所有創建模型的工具。Isaac ROS 1.5已經開源,很受歡迎。
機器人技術的最大挑戰在于數據策略。我們用人工智能放大人類演示系統,收集更多數據訓練模型。GR00T項目用Cosmos基礎模型生成大量合成數據,從人類演示中學習,讓機器人掌握新動作。這解決了機器人數據難題,讓少量人類演示者完成大量工作。
人類機器人技術很重要,因為勞動力短缺,而這種技術可部署范圍廣。它可能成為數萬億美元的產業,技術革新速度快。這種應用需要三臺計算機:學習用的人工智能、模擬引擎和部署機器人。所有移動設備都將成為機器人。
將機器人投入工廠時,記住工廠本身也是機器人。臺達的生產線正在為機器人未來做準備。未來工廠里的機器人需要在數字孿生中協同工作。數字孿生系統,如臺達、Wiwynn等,都是模擬生成的。和碩、富士康、技嘉、廣達、緯創等公司正在Omniverse上開發數字孿生,用于制造流程。臺積電與MedAI合作,優化工廠布局,開發人工智能工具。Pegatron模擬焊膏點膠,減少生產缺陷。富士康、緯創和廣達利用數字孿生測試數據中心效率,開發實體機器人。數字孿生成為機器人訓練基地,連接物聯網后,成為實時交互式儀表盤。
中國臺灣是軟件定義制造的先驅,英偉達的很多工作都來自這里。中國臺灣是世界電子制造之都,人工智能和機器人技術將改變一切。歷史上首次,你們的工作改變了所有行業,現在又將改變你們自己。GeForce曾為世界帶來人工智能,現在人工智能又改變了GeForce。感謝與大家的合作。
最后,我們要宣布一款新產品。我們在華盛頓特區太空中心建設已久,現在要揭曉我們有史以來最大的產品之一。我們將建造一個名為"英偉達星座"的新辦公區,它將落戶北投石林。我們已與現有業主談妥租約轉讓,但市長想知道市民是否同意建造這座大樓。如果同意,請給他打電話。讓我們開始建造"英偉達星座",為員工提供新空間。
我要感謝大家多年來的合作。我們正面臨著一個千載難逢的機遇,毫不夸張地說,這個機遇非常獨特。這是我們第一次不僅要創造下一代IT,從PC到互聯網,到云計算,再到移動云計算,我們已經做過好幾次了。但這一次,我們不僅要創造下一代IT,實際上,我們還要創造一個全新的行業。這個全新的行業將為我們帶來巨大的機遇。我期待著與大家合作,共同打造人工智能工廠、企業代理和機器人。你們這些了不起的合作伙伴將與我們一起圍繞一個架構構建生態系統。
因此,我要感謝大家今天的光臨。祝大家在Computex上不僅玩得開心,而且收獲滿滿。謝謝大家!非常感謝你們的到來!