首頁 Biz.IT 雲端 VMware Private AI 僅公共雲 1/3 成本 vGPU 規劃用盡運算資源

VMware Private AI 僅公共雲 1/3 成本 vGPU 規劃用盡運算資源

VMware Private AI
VMware Private AI

VMware 去年發表的 Private AI Foundation with NVIDIA,至今年 5 月正式推出,迎上企業採用生成式 AI 熱潮。Broadcom 全球 AI 主管 Chris Wolf 表示,企業用 Private AI 建立 AI 運算基建,較在公共雲上執行的成本可低至僅約三分之一。其中 vGPU 為重要的技術,幫助企業分配 GPU,在訓練模型與推論生成式 AI 之間有效分配資源。

Private AI 為 VMware Cloud Foundation 的進階服務,讓企業在私有雲基建上建立 AI 服務。Chris Wolf 指出,企業目前使用 AI 技術面對 3 個挑戰:減低成本、加強控制數據私隱和彈性調配資源,正是採用 Private AI 的原因。Broadcom 與 NVIDIA 合作,在 GPU 上建立虛擬化架構,以平台方式提供 Private AI,包括配置 GPU 資源、管理模型等。

Chris Wolf 表示,企業建立 AI 基建,面對減低成本、加強控制數據私隱和彈性調配資源的難題。

按優先次序分配 GPU 資源

VCF 9 之上的 Private AI 將會新增 vGPU Profile、預留 GPU 資源和 GPU 高可用功能。Chris Wolf 指出,這些功能將為企業有效規劃 GPU 資源有序處理 AI 工作負載。畢竟 AI 的工作負載用 GPU 跟傳統雲端用 CPU 的方法截然不同,過往由多個程式共同分享雲端伺服器的 CPU 時間,而 AI 工作獨佔整個 GPU 叢集。

VMware Private AI Foundation with NVIDIA 將兩間公司的技術整合,提供有如裸機伺服器的效能。

現時企業在雲端建立 AI 平台,卻未能有效管理 GPU 運算資源。Private AI 為各項目提供 vGPU 運算資源,每個 AI 項目設計 vGPU Profile,設定需要的 GPU 和記憶體數量。平台同時設預留運算資源功能,讓各項目有效地分配。

Chris Wolf 又提到 GPU 高可用功能切合企業的實際需要,例如為生產環境的推論設優先使用權,以免訓練模型時佔用過多資源。尤其開發人員和數據科學家團隊不時與營運團隊爭逐 GPU 運算資源,甚至影響生產環境的生成式 AI 回應效率,這功能有助分配資源,讓各部門都能適時運用 GPU 支援 AI。

Private AI 將會新增模型商店(Model Store),將語言模型帶入數據中心,讓企業可選擇合適的去使用。Chris Wolf 表示,除了大型語言模型,近來有不同的小型語言模型出現,企業甚至更傾向選用。模型商店為企業管理模型的平台,管理人員可以按照業務需要引入模型,以供開發人員所用,甚至禁止存取不允許的模型,以符合企業採用 AI 的策略。

模型商店讓企業有效管理生成式 AI 所用的模型。

企業陸續將 AI 基建從公共雲搬到私有雲基建,其中用 Private AI 有助降低成本,也能用企業內部數據去訓練屬於她們的 AI 模型。 Chris Wolf 又指,企業正在探索生成式 AI 可用範圍,現時客戶常見的 Private AI 用途:

  • 生成程式碼,加快開發應用程式進度;
  • 客戶服務中心,改善回應客戶的內容和服務水平;
  • IT 營運,自動化管理減少工作量;
  • 進階檢索資訊,準確檢索文件內容。
企業現時引入 Private AI 的 4 個常見用途。

VMware Private AI 現時只支援 NVIDIA 的 GPU,而下一步將擴充合作夥伴生態,加入其他 AI 加速硬件。如今年 VMware Explore 發表 Private for Intel,支援 Gaudi 2 加速 AI 架構。Chris Wolf 表示,由於 Private AI 需要深入整合硬件和軟件,方能提供更進階的效能表現,因此要與各廠商逐一合作,之後會陸續擴展至其他 AI 硬件平台。

結合 Broadcom 建以太網 GPU 叢集

企業運算 AI 由 GPU 叢集支援,將大量 GPU 互相連線正是目前的技術挑戰之一。Broadcom 由設計網絡晶片起家,這次 AI 熱潮將 VMware 與母公司的核心技術有效整合。Broadcom 高級副總裁兼核心交換部門總經理 Ram Velaga 指出,目前裝配逾千個 GPU,甚至上萬 GPU 的大型叢集, 實際上(de-facto) 都用以太網連結,如 AWS、Google、Meta 等,只有微軟用 NVIDIA Infiniband。

Ram Velaga 表示,企業用以太網建 GPU 叢集,正是 Broadcom 與 VMware 整合的優勢。
GPU 叢集用上萬晶片,大部分由以太網連接,甚至可跨地區組成。

Ram Velaga 稱,NVIDIA Infiniband 只限於數據中心內的連線,雖然速度極快,惟容錯能力不足。不過上萬個的 GPU 叢集甚耗電,可能需 200GW,根本不可能在單一數據中心有如此大量供電,必須橫跨幾個地區用以太網組成叢集。Broadcom 連同 VMware,用以太網技術從晶片的硬件做起,以至軟件虛擬化 vGPU,幫助企業建立 GPU 叢集,以更低成本設高可用度 AI 架構。

VMware Explore 2024 相關報道

最新影片

Exit mobile version