快訊

人腦裝電腦透過AI 中風失語18年病患「說出自己的話」

對等關稅砲口 瞄準所有國家 川普:沒聽說什麼15國

繞過CUDA框架?DeepSeek或準備適配中國產GPU

聽新聞
test
0:00 /0:00
深度求索(DeepSeek)開發大語言模型時,據傳「繞過」了輝達的技術護城河CUDA框架,能讓訓練模型速度加快。 (路透資料照)
深度求索(DeepSeek)開發大語言模型時,據傳「繞過」了輝達的技術護城河CUDA框架,能讓訓練模型速度加快。 (路透資料照)

近期引發各界關注的中國AI新創公司深度求索(DeepSeek),外媒指出,其研發大語言模型時,或繞過了美國人工智慧巨頭輝達的CUDA框架,為DeepSeek在未來適配中國國產晶片做好準備。

新加坡《聯合早報》3日報導,由輝達開發的軟硬體整合技術「統一運算架構」(Compute Unified Device Architecture,CUDA)是一種通用程式框架,允許開發者利用輝達的圖形處理器(GPU)進行運算。

報導指,由於CUDA大幅降低了研發大模型的難度,因此全球大模型開發商,都傾向於選擇使用輝達的CUDA技術,助力輝達占據全球人工智慧領域的壟斷地位。

不過,美國科技網站Tom's Hardware報導,指模型建構的效率比Meta等巨頭高出10倍以上,引述南韓未來資產證券一位分析師談DeepSeek技術的文章形容,「他們從頭開始重建了一切」。

該分析指出,DeepSeek在使用輝達的H800晶片進行訓練時,使用了輝達的底層硬體指令PTX(Parallel Thread Execution)語言,而不是高階程式語言CUDA。

由於CUDA是通用型程式框架,會導致訓練模型時損失一些彈性。中國網媒「快科技」分析,DeepSeek的做法相當於繞過了硬體對訓練速度的限制,意味著其他模型需要訓練10天,而DeepSeek只需要5天。然而,這種程式設計非常複雜、難以維護,業界通用的做法是使用CUDA這類高階程式語言。

快科技與騰訊網引述的消息人士指出,DeepSeek內部擁有一些擅長寫PTX語言的內部開發者,假如DeepSeek未來有意改適配中國中國國產的GPU,在硬體適配方面將會更得心應手。

DeepSeek 輝達 晶片

上一則

李文亮逝世5年 父母憶醫院不准見兒子「太沒人性」

下一則

加徵關稅在即 白宮:川普、習近平最快在本周通話

延伸閱讀

超人氣

更多 >

世界新聞網為提供更佳的網站體驗,採cookies分析。如繼續瀏覽本網站即表示您同意我們使用cookies。
更多cookies、隱私權聲明可參考我們的「 隱私權與條款more > Worldjournal.com use cookies to improve your experience on our site. By using this site, you agree to our use of cookies.To find out more, read our update privacy policy.

我知道了