利用 RDMA over Thunderbolt 5,工程師打造出驚人的 M3 Ultra Mac Studio AI 叢集,展現強大效能。即使是超大型 AI 模型,也能透過此 AI 叢集順利運行。知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio,打造出一個擁有 1.5TB 利用 RDMA over Thunderbolt 5,工程師打造出驚人的 M3 Ultra Mac Studio AI 叢集,展現強大效能。即使是超大型 AI 模型,也能透過此 AI 叢集順利運行。知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio,打造出一個擁有 1.5TB

神操作!工程師用四台 Mac Studio 打造 AI 叢集,1.5TB 記憶體效能逆天,硬體成本近 128 萬台幣

知名工程師 Jeff Geerling 成功串聯四台 M3 Ultra Mac Studio,打造出一個擁有 1.5TB 統一記憶體的 AI 運算叢集。這個叢集利用 macOS 26.2 的新功能 RDMA over Thunderbolt 5,在 Geekbench 6 測試中表現出色,甚至能執行其他系統無法運作的超大型 AI 模型,不過硬體成本也高達約新台幣 128 萬元。

哇賽!又有新玩法了!知名工程師 Jeff Geerling 最近完成了一項超狂的挑戰,他利用 macOS 26.2 最新的系統特性,成功把四台 M3 Ultra Mac Studio 串聯起來,打造出一台擁有 1.5TB 統一記憶體的 AI 運算叢集。

這次叢集能成功,關鍵就在於 macOS 26.2 導入了一項核心功能:「RDMA over Thunderbolt 5」。透過 Thunderbolt 5 介面,這項技術允許一台 Mac 直接讀取另一台的記憶體,而且還不需要 CPU 介入,聽起來是不是很厲害!

在 Geekbench 6 的多核心測試中,這個由 Mac Studio 組成的 AI 叢集,輕鬆就超越了 Dell Pro Max with GB10 和 Framework Desktop。它的雙精度浮點數效能更是達到 1 TFLOPS 以上,而且待機功耗還低於 10W,真的非常節能。

不只如此,在 AI 推論方面,表現也相當亮眼。單機執行 Llama 3.2 3B 模型時,每秒可以處理 154.6 個 token;而執行大型的 Llama 3.1 70B 模型時,每秒也能維持 14.1 個 token。這兩個測試的效能,都遠遠超越了其他競爭對手。

更讓人驚訝的是,當嘗試執行 DeepSeek R1 671B 這種超大型模型時,其他系統都無法正常運作,但 Mac Studio 叢集卻憑藉著它那 1.5TB 的統一記憶體,成功完成了這項艱鉅的挑戰!

RDMA over Thunderbolt 5 在這個 AI 叢集當中真的發揮了關鍵作用。啟用 RDMA 後,記憶體存取延遲從 TCP 的 300 微秒,大幅降到 50 微秒以下,這效能提升簡直是飛躍式成長!

在使用 exo 系統測試 Qwen3 235B 時,四台裝置每秒可以處理 31.9 個 token,比 llama.cpp TCP 快了一倍以上;測試 DeepSeek V3.1 更是達到每秒 32.5 個 token,表現非常突出。

不過,雖然 RDMA 表現出色,但在高負載時偶爾還是會出現系統當機的情況,這點可能還需要進一步優化。

當然,這種頂級效能也是要付出代價的。由 Mac Studio 組成的 AI 叢集,總硬體成本約為 40,000 美元 (約新台幣 128 萬元,人民幣約 28 萬元)。相較於其他兩個平台,這個價格確實更昂貴,但能有這樣的效能,或許對某些專業使用者來說還是很值得的。

市場機遇
Sleepless AI 圖標
Sleepless AI實時價格 (AI)
$0.03877
$0.03877$0.03877
+3.52%
USD
Sleepless AI (AI) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。