首頁 新聞 人工智能 微軟 GitHub 開源 DeepSpeed Chat 簡化訓練類似 ChatGPT 千億級模型

微軟 GitHub 開源 DeepSpeed Chat 簡化訓練類似 ChatGPT 千億級模型

微軟 DeepSpeed Chat

訓練 GPT 般大型語言模型的時間和資金成本極高,並非一般人和企業可負擔。微軟GitHub 開源 DeepSpeed Chat,將千億級大型模型的訓練成本和花費時間驟降 15 倍。以 1,750 億參數模型為例,在 Azure 上 64x NVIDIA A100 GPU 可在 20 小時完成訓練,花費約 5,120 美元。

大型語言模型雖然能力強大,但無法按企業的獨特需要生成內容。大型語言模型亦涉及第三方雲端服務,令企業只能用非敏感數據。企業期望自行訓練模型,更大範圍地用在業務之內。

微軟開源的 DeepSpeed Chat 能幫助用戶自行訓練大型語言模型,基於深度學習優化,具備訓練、推理功能。這方案利用劇本式執行一系列人手反饋的加強學習(Reinforcement Learning from Human Feedback,RLHF),亦即訓練 ChatGPT 模型的核心技術。

DeepSpeed Chat 具備三項功能:

  1. 簡化訓練 ChatGPT 類型模型和加強推論體驗:利用一個劇本完成多個訓練步驟,包括使用 Huggingface 預先訓練的模型、使用 DeepSpeed-RLFH 系統運行 InstructGPT 訓練。
  2. DeepSpeed-RLHF 模組:使用 InstructGPT 論文的訓練模式,包括監督微調(SFT)、獎勵模型微調,以及 RLHF 。
  3. DeepSpeed-RLHF 系統:將 DeepSpeed 的訓練引擎(training engine)和推理引擎(inference engine) 整合成混合引擎(DeepSpeed-HE)用於 RLHF 訓練。DeepSpeed-HE 能夠在 RLHF 中在推理和訓練模式之間切換,亦可利用來自 DeepSpeed-Inference 的各種優化,如以張量並行運算和高性能 CUDA 生成語言,同時對訓練部分還能從 ZeRO- 和 LoRA-based 作記憶體優化。

DeepSpeed-HE 訓練模型快速又成本低,例如在 Azure 上訓練 130 億參數模型,用 8x NVIDIA A100 基建,需時約 9 小時,成本僅 290 美元。若擴大至 300 億參數的模型同樣用 8x NVIDIA A100,亦只需 18 小時和 580 美元。訓練更複雜的模型,如 1,750 億參數,用上 64x NVIDIA A100 ,花耗 200 小時和 5,120 美元。

DeepSpeed Chat 大幅降低企業自行訓練大型模型的門檻。企業可將行業知識和企業獨特需要融入模型之內,支援更多創新 AI 用途。

Exit mobile version