【AI 基建革命】OpenAI MRC 超級網路架構 10萬 GPU 時代關鍵技術拆解

Author:

Published:

- 廣告 -

隨著生成式人工智能持續高速發展,AI 模型規模正以前所未有的速度擴張,由數千 GPU 躍升至數萬甚至 10 萬級別。OpenAI 與 AMD、博通 (Broadcom)、英特爾(Intel)、微軟 (Microsoft)和英偉達 (NVIDIA)發表最新超級電腦網路技術 —— MRC(Multipath Reliable Connection),直指現今 AI 訓練最大瓶頸:網路傳輸效率與穩定性問題

為何 AI 訓練會被「網路」拖慢?

現時每週有超過 9 億人使用 ChatGPT,OpenAI 的系統正成為人工智慧的核心基礎設施,幫助世界各地的人們和企業建立功能日益強大的模型。在訓練如 GPT-5 或更大規模的模型時,數萬顆 GPU 需要同時運算並頻繁交換數據。傳統的以太網(Ethernet)即使達到 800G 頻寬,其協議層(TCP/IP)帶來的延遲仍會導致 GPU 處於「等待數據」的閒置狀態。OpenAI 在 MRC 報告中明確指出:「網絡效率就是 AI 的生命線。」

三大技術提升穩定性與效率

MRC 的優勢主要來自三大核心設計。

- 廣告 -

首先是 多路徑並行(Multipath),讓數據可同步經多條路線傳輸,大幅提升整體吞吐量。

其次是 微秒級故障修復能力,相比傳統網路需要數秒恢復,MRC 可在極短時間內完成路徑切換,幾乎做到無感故障。

第三則是 源頭路由(Source Routing),由發送端直接決定數據傳輸路徑,減少對中間網路設備的依賴,從而提升穩定性與可控性。

MRC 對多平面網路的支援,意味著只需兩層交換器即可連接超過十萬個 GPU。與傳統方法相比,這降低了所需的功耗、故障組件的數量以及網路的總成本。
在類似經典 RoCE 部署的單路徑資料流中,單一連結經常會出現擁塞。由於集體通訊對最壞情況下的延遲非常敏感,因此這會對 AI 訓練工作負載造成特別嚴重的干擾。

Multi-Plane 架構打造可擴展 AI 網路

除了傳輸方式革新外,OpenAI 亦引入 Multi-Plane(多平面)網路設計

MRC(多路徑並行)同時將資料包分散到多條路徑上,從而減少可能導致同步AI訓練速度下降的擁塞。
透過將流量分散到多條路徑上,MRC可以避免網路熱點,防止某些事務的耗時遠超其他事務。這可以防止影響同步AI訓練的速度下降。

簡單而言,就是將一個大型網路拆分成多個獨立運作的子網絡(Plane),每個 Plane 負責部分流量。這種設計的好處包括:

  • 降低單點故障風險
  • 提升整體系統穩定性
  • 更容易擴展至超大規模運算環境

支撐 10 萬 GPU 訓練

MRC 架構的最大意義,在於為超大規模 AI 訓練提供穩定基礎。透過更高效的網路設計,不僅可支援 10 萬 GPU 級運算,同時亦可降低訓練中斷風險,提升整體資源利用率。

- 廣告 -

對於需要長時間運行(數星期甚至更久)的 AI 模型訓練而言,這種穩定性尤為重要。

位於德克薩斯州阿比林的 Oracle 雲端基礎設施 (OCI) 建造的 Stargate 超級電腦。

MRC 已部署在用於訓練前沿模型的所有 OpenAI 大型 NVIDIA GB200 超級電腦上,包括位於德克薩斯州阿比林的 Oracle 雲端基礎設施 (OCI) 站點以及微軟的 Fairwater 超級電腦。 MRC 已用於訓練多個 OpenAI 模型,並利用了 NVIDIA 和 Broadcom 的硬體。如今,MRC 規範已作為開放運算專案 (OCP) 的貢獻提供給社區使用和開發。

- 廣告 -
Buy Me a CPM: PCM 讀者會員資助計劃
Lawrence
Lawrence
《PCM》創刊編輯, 見證電腦由 Monochrome 到 3D,9.6Kbps 撥號到 5G 無線上網年代,DIY、攝影、影音、手機樣樣啱玩。
- 廣告 -

Related Articles

- 廣告 -

Recent Articles

- 廣告 -

最新影片

- 廣告 -