作者: 兆光科技 發(fā)布時間: 2024/08/09 點擊: 631次
1849 年,美國(guó)加州發(fā)現金礦的消息傳開(kāi)後(hòu),淘金熱開(kāi)始了。無數人湧入這(zhè)片新土地,他們有的來自東海岸,有的來自歐洲大陸,還(hái)有來到美國(guó)的第一代華人移民,他們剛開(kāi)始把這(zhè)個地方稱爲「金山」,後(hòu)來又稱爲「舊金山」。
但不管如何,來到這(zhè)片新土地的淘金者都(dōu)需要衣食住行,當然最關鍵的還(hái)是淘金的裝備——鏟子。正所謂「工欲善其事(shì),必先利其器」,爲了更高效地淘金,人們開(kāi)始瘋狂地湧向(xiàng)賣鏟人,連帶著(zhe)财富。
一百多年後(hòu),舊金山往南不遠,兩(liǎng)家矽谷公司掀起(qǐ)了新的淘金熱:OpenAI 第一個發(fā)現了 AI 時代的「金礦」,英偉達則成(chéng)爲了第一批「賣鏟人」。和過(guò)去一樣(yàng),無數人和公司開(kāi)始湧入這(zhè)片新的熱土,拿起(qǐ)新時代的「鏟子」開(kāi)始淘金。
不同的是,過(guò)去的鏟子幾乎不存在什麼(me)技術門檻,但今天英偉達的 GPU 卻是所有人的選擇。今年以來,僅字節跳動一家就向(xiàng)英偉達訂購了超過(guò) 10 億美元的 GPU,包括 10 萬塊 A100 和 H800 加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這(zhè)些大公司今年至少都(dōu)向(xiàng)英偉達訂購了上萬塊 GPU。
H100 GPU,圖/英偉達
但這(zhè)依然不夠。曠視科技 CEO 印奇 3 月底在接受财新采訪的時候表示,中國(guó)隻有大約 4 萬塊 A100 可用于大模型訓練。随著(zhe) AI 熱潮的持續,英偉達上一代高端 GPU A100 的閹割版——A800 在國(guó)内一度也漲到了 10 萬元一塊。
6 月的一場非公開(kāi)會議上,OpenAI CEO Sam Altman 再次表示,GPU 的嚴重短缺,導緻了很多優化 ChatGPT 的工作被(bèi)迫推遲。按照技術咨詢機構 TrendForce 的測算,OpenAI 需要大約 3 萬塊 A100 才能(néng)支持對(duì) ChatGPT 的持續優化和商業化。
就算從今年 1 月 ChatGPT 的新一輪爆發(fā)算起(qǐ),AI 算力的短缺也持續了近半年,這(zhè)些大公司爲什麼(me)還(hái)缺 GPU 和算力?
借用一句廣告語:不是所有 GPU 都(dōu)是英偉達。GPU 的短缺,實質是英偉達高端 GPU 的短缺。對(duì) AI 大模型訓練而言,要麼(me)選擇英偉達 A100、H100 GPU,要麼(me)也是去年禁令後(hòu)英偉達專門推出的減配版 A800、H800。
AI 的使用包括了訓練和推理兩(liǎng)個環節,前者可以理解爲造出模型,後(hòu)者可以理解爲使用模型。而AI 大模型的預訓練和微調,尤其是預訓練環節需要消耗大量的算力,特别看重單塊 GPU 提供的性能(néng)和多卡間數據傳輸能(néng)力。但在今天能(néng)夠提供大模型預訓練計算效率的 AI 芯片(廣義的 AI 芯片僅指面(miàn)向(xiàng) AI 使用的芯片):
不能(néng)說不多,隻能(néng)說非常少。
大模型很重要的一個特征是至少千億級别的參數,背後(hòu)需要巨量的算力用來訓練,多個 GPU 之間的數據傳輸、同步都(dōu)會導緻部分 GPU 算力閑置,所以單個 GPU 性能(néng)越高,數量越少,GPU 的利用效率就高,相應的成(chéng)本則越低。
英偉達 DGX H100 AI 超級計算機,圖/英偉達
而英偉達 2020 年以來發(fā)布的 A100 、H100,一方面(miàn)擁有單卡的高算力,另一方面(miàn)又有高帶寬的優勢。A100 的 FP32 算力達到 19.5 TFLOPS(每秒萬億次浮點運算),H100 更是高達 134 TFLOPS。
同時在 NVLink 和 NVSwitch 等通信協議技術上的投入也幫助英偉達建立了更深的護城河。 到 H100 上,第四代 NVLink 可以支持多大 18 個 NVLink 鏈接,總帶寬達 900GB/s,是 PCIe 5.0 帶寬的 7 倍。
面(miàn)向(xiàng)中國(guó)市場定制的 A800 和 H800,算力幾乎不變,主要是爲了避開(kāi)管制标準,帶寬分别削減了四分之一和一半左右。按照彭博社的說法,同樣(yàng)的 AI 任務,H800 要花比 H100 多 10% -30% 的時間。
但即便如此,A800 和 H800 的計算效率依然超過(guò)其他 GPU 和 AI 芯片。這(zhè)也是爲什麼(me)在 AI 推理市場會出現「百花齊放」的想象,包括各大雲計算公司自研的 AI 芯片和其他 GPU 公司都(dōu)能(néng)占據一定的份額,到了對(duì)性能(néng)要求更高的 AI 訓練市場卻隻有英偉達「一家獨大」。
H800「刀」了帶寬,圖/英偉達
當然,在「一家獨大」的背後(hòu),軟件生态也是英偉達最核心的技術護城河。這(zhè)方面(miàn)有很多文章都(dōu)有提及,但簡而言之,最重要的是英偉達從 2007 推出并堅持的CUDA 統一計算平台,時至今日已經(jīng)成(chéng)爲了 AI 世界的基礎設施,絕大部分 AI 開(kāi)發(fā)者都(dōu)是以 CUDA 爲基礎進(jìn)行開(kāi)發(fā),就如同 Android、iOS 之于移動應用開(kāi)發(fā)者。
不過(guò)照理說,英偉達也明白自己的高端 GPU 非常搶手,春節後(hòu)就有不少消息指出,英偉達正在追加晶圓代工訂單,滿足全球市場的旺盛需求,這(zhè)幾個月時間理應能(néng)夠大幅提高代工産能(néng),畢竟又不是台積電最先進(jìn)的 3nm 工藝。
然而問題恰恰出在了代工環節。
衆所周知,消費電子的低潮以及還(hái)在繼續的去庫存,導緻晶圓代工大廠的産能(néng)利用率普遍下滑,但台積電的先進(jìn)制程屬于例外。
由于 ChatGPT 引發(fā)的 AI 熱潮,基于台積電 7nm 工藝的 A100、4nm 的 H100 都(dōu)在緊急追加訂單,其中台積電 5/4nm 的産線已經(jīng)接近滿載。供應鏈人士也預估,英偉達大量湧向(xiàng)台積電的 SHR(最急件處理等級)訂單將(jiāng)持續 1 年。
換言之,台積電的産能(néng)并不足以應付英偉達短期内的旺盛需求。不怪有分析師認爲,由于 A100、H100 GPU 始終供不應求,不管從風險控制還(hái)是成(chéng)本降低的角度,在台積電之外尋找三星乃至英特爾進(jìn)行代工都(dōu)是題中應有之義。
半導體矽片上造芯片,圖/台積電
但事(shì)實證明,英偉達至少在短期内沒(méi)有這(zhè)個想法,也沒(méi)有辦法離開(kāi)台積電。就在 Sam Altman 抱怨英偉達 GPU 不夠用之前,英偉達創始人兼 CEO 黃仁勳才在 COMPUTEX 上表示,英偉達下一代芯片還(hái)是會交由台積電代工。
技術上最核心的原因是,從 V100、A100 到 H100,英偉達的高端加速卡都(dōu)采用台積電 CoWoS 先進(jìn)封裝技術,用來解決高算力 AI 背景下芯片的存算一體。而 CoWoS 先進(jìn)封裝核心技術:沒(méi)有台積電不行。
2012 年,台積電推出了獨家的 CoWoS 先進(jìn)封裝技術,實現了從晶圓代工到終端封裝的一條龍服務,客戶包括英偉達、蘋果等多家芯片大廠在高端産品上都(dōu)全線采用。爲了滿足英偉達的緊急需求,台積電甚至采用部分委外轉包的方法,但其中并不包括 CoWoS 制程,台積電仍專注在最有價值的先進(jìn)封裝部分。
按照野村證券預估,2022 年底台積電 CoWoS 年化産能(néng)大概在 7-8 萬片晶圓,到 2023 年底有望增至 14-15 萬片晶圓,到 2024 年底有望挑戰 20 萬片産能(néng)。
但遠水解不了近火,台積電先進(jìn) CoWoS 封裝的産能(néng)嚴重供不應求,去年起(qǐ)台積電 CoWoS 的訂單就在翻番,今年來自谷歌、AMD 的需求同樣(yàng)強勁。即便是英偉達,也要通過(guò)黃仁勳與台積電創始人張忠謀的私人關系,進(jìn)一步争取更高的優先級。
台積電,圖/
過(guò)去幾年由于疫情和地緣政治的變化,所有人都(dōu)意識到了一種(zhǒng)建立在沙子之上的尖端技術——芯片是如此重要。ChatGPT 之後(hòu),AI 再度舉世矚目,而連帶對(duì)人工智能(néng)和加速算力的渴望,無數芯片訂單也紛至沓來。
高端 GPU 的設計和制造都(dōu)需要很長(cháng)研發(fā)投入和積累,需要面(miàn)對(duì)難以逾越的硬件和軟件壁壘,這(zhè)也導緻了在這(zhè)場「算力的盛宴」之中,英偉達和台積電可以拿到大部分的蛋糕以及話語權。
不管是今天關心生成(chéng)式 AI,還(hái)是上一輪以圖像識别爲主的深度學(xué)習浪潮,中國(guó)公司在 AI 軟件能(néng)力上的追趕速度都(dōu)有目共睹。然而中國(guó)公司花費巨資,調轉船頭開(kāi)向(xiàng) AI 的時候,很少著(zhe)眼于更底層的硬件。
但 AI 加速背後(hòu),最重要的四款 GPU 已經(jīng)有兩(liǎng)款在國(guó)内受限,另外兩(liǎng)款閹割的 A800、H800 不僅拖慢了中國(guó)公司的追趕速度,同時也無法排除受限的風險。比起(qǐ)在大模型上的角逐,或許,我們更需要看到中國(guó)公司在更底層的競争。
标簽: AI
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司