国产成人高清亚洲,日韩无码一区二区,国产精品亚洲综合专区片高清久久久,欧美日韩国产区在线观看,sese在线,亞洲綜合久久精品無碼色欲,日韩亚洲av三级片

  • 正文
    • █ 昇騰芯片的演進
    • █ 昇騰硬件體系
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

一文看懂華為昇騰芯片

06/05 09:45
1008
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

最近這幾年,網(wǎng)上關于華為昇騰的討論很多,關注熱度也很高。

我們經(jīng)常說的昇騰,其實有兩層定義。

一層是狹義的定義,特指華為昇騰芯片

另一層是廣義的定義,是指圍繞昇騰芯片的整個全棧計算生態(tài)。既包括硬件,也包括軟件、算法以及應用服務。

來自《昇騰計算產(chǎn)業(yè)發(fā)展白皮書》

今天這篇文章,小棗君主要說說昇騰芯片和硬件體系。

█ 昇騰芯片的演進

昇騰(Ascend)芯片是華為(海思)自研的、專門面向高性能AI計算的NPU(神經(jīng)網(wǎng)絡處理器)芯片。

現(xiàn)在AI浪潮風起云涌,到處都在搞AI大模型,還有AI應用落地。這些工作涉及到巨量的AI訓練和推理計算需求,就會用到昇騰這樣的AI芯片。

昇騰的對標對象,毫無疑問就是英偉達的GPU系列。

因為眾所周知的原因,英偉達的GPU對我們禁售(現(xiàn)在連閹割版的H20都不賣給我們了),所以,昇騰作為國產(chǎn)AI芯片,就發(fā)揮了重要的替代作用,也迎來了巨大的市場機遇。

昇騰芯片是一個大系列,主要包括昇騰310和昇騰910兩個子系列。

在2018年的華為全聯(lián)接大會上,華為輪值CEO徐直軍首次闡述了他們的AI戰(zhàn)略,并正式公布了昇騰910和昇騰310兩款AI芯片。當時,實體展示的,是昇騰310。

一年后,2019年8月,華為又正式推出了昇騰910。

昇騰310是SoC小芯片,和我們手機芯片差不多,只有指甲蓋那么大,功耗僅有8W。

它集成了多個運算單元,包括CPU(8個ARM A55 Core)、AI Core、數(shù)字視覺預處理子系統(tǒng)等,主要面向邊緣計算低功耗終端,以完成AI推理任務為主。

AI Core是計算核心,采用了華為自研的達芬奇(DaVinci)架構,復雜執(zhí)行矩陣、向量、標量計算的算子任務。CPU負責非矩陣類復雜計算。

昇騰310架構

根據(jù)海思官網(wǎng)的披露,昇騰310的FP16算力為8TOPS,INT8算力為16TOPS,采用12nm工藝制造。

昇騰910是大芯片,和我們的掌心差不多大,功耗在300W以上,主要面向云端高性能計算。它的算力更強,既能用于AI推理任務,也能用于AI訓練任務。

華為早期發(fā)布的昇騰910,其實應該算是910A。

當時,因為華為還沒有被完全禁售,所以910A仍然采用了臺積電的7nm增強版EUV工藝。

芯片內(nèi)建了32顆達芬奇Max核心(達芬奇核心分為Max/Lite/Tiny三種,Max最完整),支持混合精度計算(FP16/FP32/INT8),F(xiàn)P16算力為256TFOPs,最大功耗350W(一開始說是350W,后來變成了310W)。

2020年華為被列入實體清單后,臺積電那邊的先進工藝就用不了。于是,華為與中芯國際(SMIC)合作,采用他們的N+1工藝(等效7nm),推出了910B。

910B優(yōu)化了架構設計,提升了能效比,芯片尺寸為21.32mm×31.22mm,F(xiàn)P16算力約320TFLOPS,INT8算力約640TOPS。顯存為64GB HBM2e,顯存帶寬400GB/s。

910B也分為B1/B2/B3。910B3引入了HBM3e內(nèi)存,帶寬提升至1.2TB/s,支持萬億參數(shù)模型訓練。

最近這兩年,華為又推出了昇騰910C。

昇騰910C采用中芯國際的7nm(N+2)工藝,晶體管數(shù)量達到530億。

910C采用了類似B200的雙die封裝設計(將兩顆獨立的芯片die分別放置在各自的中介層,再通過有機基板將兩個中介層連接起來),通過把兩顆昇騰910B整合到一起,實現(xiàn)了性能的提升。

這種封裝方式雖然在芯片間互聯(lián)帶寬上可能低于英偉達的先進封裝方案,但具有更低的成本、更高的良率以及更快的量產(chǎn)速度。

業(yè)界估測,910C在FP16精度下的單卡算力能達到800TFLOPS左右,大概是英偉達H100芯片(2022年推出)的80%。

值得一提的是,910C的芯片邏輯面積大約比H100多60%。這意味著910C在架構效率和設計優(yōu)化方面, 與H100依然存在差距。

910C的HBM高帶寬內(nèi)存仍然來自海外廠商(國內(nèi)DRAM制造商長鑫存儲HBM2e相關技術還需要再等等)。芯片的整體國產(chǎn)化比例據(jù)說已經(jīng)達到90%以上。

910C的各方面參數(shù)以及進展信息都比較神秘。

根據(jù)網(wǎng)絡上的不可靠信息,910C于2024年四季度推出樣片,2025年一季度開始量產(chǎn),目前已經(jīng)處于大規(guī)模出貨階段,全年銷量大概在70-80萬顆。

也有不可靠消息指出,2024年910B的出貨量約四十萬張,今年910B出貨量可能與去年持平或略低(約30萬張),而910C的出貨量預計可能超過40萬張。因此,華為今年910B+910C的整體出貨量可能是70-100萬張。

出貨量和產(chǎn)能也有很大關系。中芯國際N+2工藝良率去年只有20%,今年據(jù)說已經(jīng)達到40-50%,分配給910C的產(chǎn)能貌似是2.6萬片晶圓/月(數(shù)據(jù)不靠譜,僅供參考,與我無關)。

價格方面,910B的均價據(jù)說大約是11萬/片,910C可能是18-20萬/片。網(wǎng)上很多文章說910C價格是1800美元,我覺得不靠譜。相比之下,英偉達H100的市場價格,大約是2.5-3萬美元/張。

值得一提的是,華為前段時間推出的CloudMatrix 384超節(jié)點,由384顆昇騰910C芯片構建,系統(tǒng)性能比英偉達的GB200 NVL72更強。

這屬于典型的“群毆”模式。雖然單芯片的性能打不過,但通過系統(tǒng)層面的創(chuàng)新,組成更大規(guī)模的集群,也能一定程度彌補差距,滿足算力需求。

在連接方面,需要提一下華為自研的HCCS高速互連接口。

昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,可以靈活高效地實現(xiàn)橫向擴展(Scale Out)和縱向擴展(Scale Up)。

HCCS對標的是英偉達的NVLINK,能夠給內(nèi)核、設備、集群提供系統(tǒng)內(nèi)存的一致訪問。在單一鏈路的單向/雙向互聯(lián)帶寬上,HCCS有顯著優(yōu)勢,可以有效提升多個Al芯片協(xié)同訓練的能力。

910C之后,據(jù)說還有910D,采用5nm制程,4Die封裝,支持FP8。今年5-6月份回片,預期2026Q2-Q3大規(guī)模量產(chǎn)。這個消息的來源不可靠,同樣僅供參考。

再往后,華為可能就會推出昇騰920系列,采用下一代工藝,更先進制程,努力縮小和英偉達的差距。

哦,對了,差點忘了說,華為除了昇騰310和910之外,其實還有昇騰610。

昇騰610也稱為MDC610,是智能駕駛芯片,用于華為自己的智能駕駛平臺(MDC)。根據(jù)資料顯示,昇騰610采用了7nm制程,AI算力達到200TOPS@INT8或100TFLOPS@FP16,目前已經(jīng)實現(xiàn)量產(chǎn)。

█ 昇騰硬件體系

基于昇騰芯片,華為開發(fā)了AI算力板卡、服務器、集群等一系列硬件產(chǎn)品,如下圖所示:


這些硬件覆蓋了邊緣推理、云端推理、云端訓練三大場景,可以滿足不同行業(yè)用戶的AI計算需求。

Atlas 200I DK A2,是面向開發(fā)者的高性能AI開發(fā)套件,集成了昇騰310芯片,內(nèi)置2個Al core,可支持128位寬的LPDDR4X,最大算力為22TOPS。

Atlas 300T訓練卡,基于昇騰910芯片,集成32個達芬奇AI核+16個TaiShan核,能夠提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2網(wǎng)卡,支持PCIe 4.0和1*100G RoCE高速接口。內(nèi)存規(guī)格方面,包括32GB的HBM和16GB的DDR4。

Atlas 300T A2訓練卡,強化了高速接口和對PCIe 5.0的支持,集成20個AI 核、8個CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。

Atlas 300I推理卡,采用了4個昇騰310,可以實現(xiàn)快速高效的推理計算、圖像識別及視頻處理等工作,支持多種規(guī)格的H.264、H.265視頻編解碼。

Atlas 300I Pro推理卡,采用24GB LPDDR4X,單卡最大提供140TOPS INT8 算力。

Atlas 300I Duo推理卡,采用48GB LPDDR4X,總帶寬 408GB/s,從表觀上看是兩顆昇騰310的組合產(chǎn)品,單卡最大提供280TOPS INT8 算力。

Atlas 500 A2智能小站,是面向邊緣應用的產(chǎn)品。

Atlas 800訓練服務器,采用了8顆昇騰910(NPU)+4顆鯤鵬920(CPU),廣泛應用于深度學習模型開發(fā)和訓練,

Atlas 800推理服務器,最大可支持8個Atlas 300l推理卡,廣泛應用于數(shù)據(jù)中心側的AI推理場景。

Atlas 900是Al智算集群,包括了數(shù)千顆昇騰芯片,總算力達到256~1024P FLOPS@FP16,相當于50萬臺PC的計算能力。

Atlas 900集群由Atlas 900 PoD集群基礎單元組成。每個單元就是一個機柜,搭載超了32顆鯤鵬920,47U高度可最大提供20.4PFLOPS@FP16的算力。機柜采用液冷散熱,最大功耗為46KW。

好啦,以上就是關于華為昇騰硬件體系的全部介紹。

歡迎糾錯,也歡迎補充更多信息!謝謝!

參考資料:

1、《昇騰計算產(chǎn)業(yè)發(fā)展白皮書》,華為&信通院;

2、《昇騰發(fā)力鑄造國產(chǎn)算力基石》,國投證券;

3、《昇騰萬里,力算未來》,華安證券;

4、《華為昇騰:國產(chǎn) AI 算力“扛旗者”》,民生證券;

5、《華為昇騰服務器研究框架》,浙商證券;

6、《“鯤鵬”展翅,“昇騰”萬里》,東莞證券;

7、科技分析師Lennart Heim (@ohlennart) 在X平臺發(fā)布的分析文章

8、《華為發(fā)布全球算力最強 AI 處理器,達芬奇架構巨無霸芯片昇騰 910 問世!》,新智元;

9、《解讀神秘的華為昇騰910》,周博洋,知乎;

10、華為官網(wǎng)、華為云社區(qū)。

華為

華為

華為創(chuàng)立于1987年,是全球領先的ICT(信息與通信)基礎設施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務遍及170多個國家和地區(qū),服務全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權利,成為智能世界的前提和基礎;為世界提供最強算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強大的數(shù)字平臺而變得敏捷、高效、生機勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。

華為創(chuàng)立于1987年,是全球領先的ICT(信息與通信)基礎設施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務遍及170多個國家和地區(qū),服務全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權利,成為智能世界的前提和基礎;為世界提供最強算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強大的數(shù)字平臺而變得敏捷、高效、生機勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關技術領域方面的研究,曾擔任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經(jīng)驗和積累。