傳聞稱基於AMD硬件方案的Frontier Exascale超算的啟動進展不順

橡樹嶺國家實驗室(ORNL)的 Frontier 超算,使用了 AMD EPYC Trento CPU 和 Instinct MI550X GPU 加速卡。為構建這套百億億級(Exascale)超算系統,ORNL 還選用了 HPE 的 Slingshot 連接方案。據悉,HPE 的 Cray EX 架構,是專為大型應用程序而創建的。如果一切順利,Frontier 將於 2023 年起向研究人員開放訪問,以協助其開展相關科學研究。

1.png

(via WCCFTech)

尷尬的是,由於硬件內部頻繁出現故障,Frontier 超算甚至無法在一整天內保持良好運行。

據悉,在啟動初期,這套超算最高只能達成 1 ExaFLOPS 的 FP64 性能 —— 距 1.685 ExaFlops 的預設目標想去甚遠。

雖然官方尚未披露確切信息,但有傳聞稱 —— 為 HPE Cray 超算打造的 Slingshot 網絡互聯,與 HPE 集群發生了衝突。

此外據說 AMD Instinct MI250X GPU 加速卡,也和 EPYC Trento CPU / Slingshot 互連方案水土不服。

2.jpg

ORNL Frontier 超算項目負責人或研究人員,尚未就上述兩則傳聞發表任何意見。

美國能源部(DOE)百億億次計算項目團隊的 Mike Bernhardt 指出 ——“隨着 ORNL Frontier 的全面集成,該超算將於明年開始向研究人員開放訪問”。

至於拖累 Frontier 超算全面啟動的任何擔憂或問題,他同樣沒有給出直接的回應。

3.jpg

Mike Bernhardt 補充道:

作為 Exascale 計算項目的合作夥伴,HPE 和 AMD 已於今秋提前向 ORNL 交付了 Frontier 新系統。

然而超算的安裝和集成,是個相當龐大且複雜的工作、目前仍在進行之中。

現階段的進展表明,一切都在按計劃進行,且有望如期在明年向科學用戶開放。

此外需要指出的是,AMD 的 MI250X GPU 計算卡僅適用於特定客戶,因而缺乏橫向基準來支持相關傳聞。

美國能源部正與 ORNL 密切合作,以在錯過了最初定下的 2022 年期限之後,於 2023 年 1 月 1 日全面投入運行。

(0)
上一篇 2022-10-10 11:45
下一篇 2022-10-10 12:30

相关推荐