訓練 GPT 般大型語言模型的時間和資金成本極高,並非一般人和企業可負擔。微軟在 GitHub 開源 DeepSpeed Chat,將千億級大型模型的訓練成本和花費時間驟降 15 倍。以 1,750 億參數模型為例,在 Azure 上 64x NVIDIA A100 GPU 可在 20 小時完成訓練,花費約 5,120 美元。
大型語言模型雖然能力強大,但無法按企業的獨特需要生成內容。大型語言模型亦涉及第三方雲端服務,令企業只能用非敏感數據。企業期望自行訓練模型,更大範圍地用在業務之內。
微軟開源的 DeepSpeed Chat 能幫助用戶自行訓練大型語言模型,基於深度學習優化,具備訓練、推理功能。這方案利用劇本式執行一系列人手反饋的加強學習(Reinforcement Learning from Human Feedback,RLHF),亦即訓練 ChatGPT 模型的核心技術。
DeepSpeed Chat 具備三項功能:
- 簡化訓練 ChatGPT 類型模型和加強推論體驗:利用一個劇本完成多個訓練步驟,包括使用 Huggingface 預先訓練的模型、使用 DeepSpeed-RLFH 系統運行 InstructGPT 訓練。
- DeepSpeed-RLHF 模組:使用 InstructGPT 論文的訓練模式,包括監督微調(SFT)、獎勵模型微調,以及 RLHF 。
- DeepSpeed-RLHF 系統:將 DeepSpeed 的訓練引擎(training engine)和推理引擎(inference engine) 整合成混合引擎(DeepSpeed-HE)用於 RLHF 訓練。DeepSpeed-HE 能夠在 RLHF 中在推理和訓練模式之間切換,亦可利用來自 DeepSpeed-Inference 的各種優化,如以張量並行運算和高性能 CUDA 生成語言,同時對訓練部分還能從 ZeRO- 和 LoRA-based 作記憶體優化。
DeepSpeed-HE 訓練模型快速又成本低,例如在 Azure 上訓練 130 億參數模型,用 8x NVIDIA A100 基建,需時約 9 小時,成本僅 290 美元。若擴大至 300 億參數的模型同樣用 8x NVIDIA A100,亦只需 18 小時和 580 美元。訓練更複雜的模型,如 1,750 億參數,用上 64x NVIDIA A100 ,花耗 200 小時和 5,120 美元。
DeepSpeed Chat 大幅降低企業自行訓練大型模型的門檻。企業可將行業知識和企業獨特需要融入模型之內,支援更多創新 AI 用途。