重磅！微軟開源Deep Speed Chat，人人擁有ChatGPT！

來源：AIGC開放社區

4月12日，微軟宣布開源了Deep Speed Chat，幫助用戶輕鬆訓練類ChatGPT等大語言模型，使得人人都能擁有自己的ChatGPT！（開源地址：https://github.com/microsoft/DeepSpeed）

據悉，Deep Speed Chat是基於微軟Deep Speed深度學習優化庫開發而成，具備訓練、強化推理等功能，還使用了RLHF（人工反饋機制的強化學習）技術，可將訓練速度提升15倍以上，成本卻大幅度降低。例如，一個130億參數的類ChatGPT模型，只需1.25小時就能完成訓練。

簡單來說，用戶通過Deep Speed Chat提供的“傻瓜式”操作，能以最短的時間、最高效的成本訓練類ChatGPT大語言模型，這標誌着一個人手一個ChatGPT的時代要來了。

微軟為什麼開源Deep Speed Chat

ChatGPT只用了幾個月的時間便席捲全球，成為史上用戶增長速度最快的消費級應用，對世界的經濟發展、科技研發起到了重要的推動作用。很多企業、個人用戶紛紛想參與到這場AI技術變革中，但由於龐大的資源、資金投入只能望而卻步。

即便開源領域推出了LLaMa、Alpaca、Vicuna、Databricks-Dolly等優秀的類ChatGPT項目，仍缺乏一個支持端到端的基於RLHF的規模化系統，使得訓練強大的類ChatGPT模型非常艱難。

例如，使用上述開源項目訓練一個67億參數的類ChatGPT模型，通常需要昂貴的多卡至多節點的GPU集群，但這些資源對大多數科學家、小型企業、個人開發者而言難以獲取。

即便是擁有這樣的資源，現有的開源系統的訓練效率通常還不到，這些機器所能達到的最大效率的5%。

現在，通過Deep Speed Chat解決資源、算法等難題，輕鬆、高效的訓練數千億參數的最先進的類ChatGPT模型。

Deep Speed Chat技術簡單介紹

ChatGPT模型的訓練是基於InstructGPT論文中的RLHF方式，這使得現有深度學習系統在訓練類ChatGPT模型時存在種種局限。現在，通過Deep Speed Chat可以突破這些訓練瓶頸，達到最佳效果。

Deep Speed Chat擁有強化推理、RLHF模塊、RLHF系統三大核心功能。

簡化 ChatGPT 類型模型的訓練和強化推理：只需一個腳本即可實現多個訓練步驟，包括使用Huggingface 預訓練的模型、使用 DeepSpeed-RLHF 系統運行 InstructGPT 訓練的所有三個步驟，生成屬於自己的類ChatGPT模型。此外，還提供了一個易於使用的推理API，用於在模型訓練后測試對話性能。

Deep Speed-RLHF 模塊：DeepSpeed-RLHF 復刻了InstructGPT 論文中的訓練模式，並確保包括：a) 監督微調（SFT），b) 獎勵模型微調和 c) 基於人類反饋的強化學習（RLHF）在內的三個步驟與其對應。此外，還提供了數據抽象和混合功能，以支持用戶使用多個不同來源的數據源進行訓練。

DeepSpeed-RLHF系統：將DeepSpeed的訓練和推理能力整合到統一的混合引擎（DeepSpeed Hybrid Engine or DeepSpeed-HE）中用於RLHF 訓練。DeepSpeed-HE 能夠在RLHF中無縫地在推理和訓練模式之間切換，使其能夠利用來自 DeepSpeed-Inference 的各種優化。

例如，張量并行計算和高性能CUDA算子進行語言生成，同時對訓練部分還能從 ZeRO- 和 LoRA-based 內存優化策略中受益。DeepSpeed-HE可以自動在 RLHF 的不同階段進行智能的內存管理和數據緩存。

此外，Deep Speed Chat在成本、效率、擴展性等方面非常優秀。

高效且節省成本：在Azure雲上只需9小時即可訓練一個OPT-13B模型，只需18小時即可訓練一個 OPT-30B模型。這兩種訓練分別花費不到300美元和600 美元。