【AI 基建革命】OpenAI MRC 超級網路架構　10萬 GPU 時代關鍵技術拆解

- 廣告 -

隨著生成式人工智能持續高速發展，AI 模型規模正以前所未有的速度擴張，由數千 GPU 躍升至數萬甚至 10 萬級別。OpenAI 與 AMD、博通 (Broadcom）、英特爾（Intel）、微軟（Microsoft）和英偉達（NVIDIA）發表最新超級電腦網路技術 —— MRC（Multipath Reliable Connection），直指現今 AI 訓練最大瓶頸：網路傳輸效率與穩定性問題。

為何 AI 訓練會被「網路」拖慢？

現時每週有超過 9 億人使用 ChatGPT，OpenAI 的系統正成為人工智慧的核心基礎設施，幫助世界各地的人們和企業建立功能日益強大的模型。在訓練如 GPT-5 或更大規模的模型時，數萬顆 GPU 需要同時運算並頻繁交換數據。傳統的以太網（Ethernet）即使達到 800G 頻寬，其協議層（TCP/IP）帶來的延遲仍會導致 GPU 處於「等待數據」的閒置狀態。OpenAI 在 MRC 報告中明確指出：「網絡效率就是 AI 的生命線。」

三大技術提升穩定性與效率

MRC 的優勢主要來自三大核心設計。

- 廣告 -

首先是 多路徑並行（Multipath），讓數據可同步經多條路線傳輸，大幅提升整體吞吐量。

其次是 微秒級故障修復能力，相比傳統網路需要數秒恢復，MRC 可在極短時間內完成路徑切換，幾乎做到無感故障。

第三則是 源頭路由（Source Routing），由發送端直接決定數據傳輸路徑，減少對中間網路設備的依賴，從而提升穩定性與可控性。

MRC 對多平面網路的支援，意味著只需兩層交換器即可連接超過十萬個 GPU。與傳統方法相比，這降低了所需的功耗、故障組件的數量以及網路的總成本。

在類似經典 RoCE 部署的單路徑資料流中，單一連結經常會出現擁塞。由於集體通訊對最壞情況下的延遲非常敏感，因此這會對 AI 訓練工作負載造成特別嚴重的干擾。

Multi-Plane 架構打造可擴展 AI 網路

除了傳輸方式革新外，OpenAI 亦引入 Multi-Plane（多平面）網路設計。

MRC（多路徑並行）同時將資料包分散到多條路徑上，從而減少可能導致同步AI訓練速度下降的擁塞。
透過將流量分散到多條路徑上，MRC可以避免網路熱點，防止某些事務的耗時遠超其他事務。這可以防止影響同步AI訓練的速度下降。

簡單而言，就是將一個大型網路拆分成多個獨立運作的子網絡（Plane），每個 Plane 負責部分流量。這種設計的好處包括：

降低單點故障風險
提升整體系統穩定性
更容易擴展至超大規模運算環境

支撐 10 萬 GPU 訓練

MRC 架構的最大意義，在於為超大規模 AI 訓練提供穩定基礎。透過更高效的網路設計，不僅可支援 10 萬 GPU 級運算，同時亦可降低訓練中斷風險，提升整體資源利用率。

- 廣告 -

對於需要長時間運行（數星期甚至更久）的 AI 模型訓練而言，這種穩定性尤為重要。

位於德克薩斯州阿比林的 Oracle 雲端基礎設施 (OCI) 建造的 Stargate 超級電腦。

MRC 已部署在用於訓練前沿模型的所有 OpenAI 大型 NVIDIA GB200 超級電腦上，包括位於德克薩斯州阿比林的 Oracle 雲端基礎設施 (OCI) 站點以及微軟的 Fairwater 超級電腦。 MRC 已用於訓練多個 OpenAI 模型，並利用了 NVIDIA 和 Broadcom 的硬體。如今，MRC 規範已作為開放運算專案 (OCP) 的貢獻提供給社區使用和開發。

- 廣告 -

【AI 基建革命】OpenAI MRC 超級網路架構　10萬 GPU 時代關鍵技術拆解

為何 AI 訓練會被「網路」拖慢？

三大技術提升穩定性與效率

Multi-Plane 架構打造可擴展 AI 網路

支撐 10 萬 GPU 訓練

Related Articles

【STEM 專題】唔使入實驗室！2026 年 5 款中學生必裝 iPad App：虛擬化學反應、AR 解剖、iPad 變身科學記錄儀

Apple 突擊下架 3 款 Mac 配置記憶體短缺成致命傷！

OpenAI 推出 GPT-5.5 Instant：更聰明、更準確、更簡潔的 ChatGPT 新預設模型

iOS 27 最大驚喜！Siri 不只配 Gemini？iPhone 用戶可自選 AI 大腦

Recent Articles

【STEM 專題】唔使入實驗室！2026 年 5 款中學生必裝 iPad App：虛擬化學反應、AR 解剖、iPad 變身科學記錄儀

Apple 突擊下架 3 款 Mac 配置記憶體短缺成致命傷！

OpenAI 推出 GPT-5.5 Instant：更聰明、更準確、更簡潔的 ChatGPT 新預設模型

iOS 27 最大驚喜！Siri 不只配 Gemini？iPhone 用戶可自選 AI 大腦

最新影片

【AI 基建革命】OpenAI MRC 超級網路架構 10萬 GPU 時代關鍵技術拆解

為何 AI 訓練會被「網路」拖慢？

三大技術提升穩定性與效率

Multi-Plane 架構打造可擴展 AI 網路

支撐 10 萬 GPU 訓練

Related Articles

Recent Articles

最新影片

【AI 基建革命】OpenAI MRC 超級網路架構　10萬 GPU 時代關鍵技術拆解