英特爾將推出中國特供版AI加速晶片Gaudi 3
英特爾日前公布新一代AI加速晶片Gaudi 3之後,最新消息指出,英特爾將推出兩款中國獨家型號的AI加速晶片 Gaudi 3,但為了適應美國的制裁,它們將受到嚴重削弱。
中媒半導體行業觀察報導,英特爾的Gaudi 3白皮書詳細介紹兩種獲准在中國銷售的型號。這兩款專為中國製造的處理器分別為HL-328和HL-388,分別採用 OAM 和 PCIe 外形規格,前者於6月推出,後者於9月推出,與其他 PCIe 外形規格的Gaudi 3一起推出。
總體而言,HL-328和HL-388看起來或多或少與其他產品相同,具有相同的128GB HBM2e VRAM,帶寬為 3.7TB/s、96MB 緩存、PCIe 5.0 x16 介面和解碼標準。
唯一的區別在於熱設計功耗,OAM和PCIe卡型號均為450瓦。這與其他型號相比大幅減少。非中國PCIe HL-338 的TDP為 600 瓦,OAM外形規格HL-325L和HL-335 的TDP為900瓦。China Gaudi 3型號的TDP相對較低,這可能是沒有液冷版本的原因。
儘管白皮書中沒有明確說明,但幾乎可以肯定的是,為了遵守美國政府對處理器的出口管制,做出這些改變是必要的,該管制禁止美國公司根據性能向中國出口晶片。
陸媒分析,無法真正知道英特爾對Gaudi 3做了什麼來使其相容,以及這些批准用於中國的晶片在這些變化中的執行速度有多快,但有一些線索。與其他Gaudi 3變體一樣,HL-328和 HL-388仍然使用兩個晶片,因為記憶體和緩存配置未更改。使用兩個晶片而不是一個晶片有助於降低性能密度,使晶片能夠達到 4,800 總處理能力 (TPP) 的更高出口限制。
4,800 TPP限制意味著沒有晶片可以擁有150 TFLOPS或更多的 16 位元性能,並且由於Gaudi 3在BF16 下可以達到 1,835 TFLOPS,因此英特爾需要大幅降低性能。這必須通過真正大規模削減核心數量和時鐘速度或其他一些性能限制方法來實現。
中媒預期HL-328 和 HL-388 的性能與Nvidia 的 H20類似,H20 是最快的GPU,已獲准在中國銷售。它具有148 TFLOPS的FB16和FP16性能,略低於150 TFLOPS限制。
由於H20和Gaudi 3的中國型號之間的原始核心性能或多或少相同,因此主要區別將歸結為記憶體(英特爾的容量更大但帶寬略少)和軟體(這一直是一個賣點)適用於Nvidia晶片。
FB留言