微軟和英偉達今天宣布了由DeepSpeed和Megatron驅動的Megatron-Turing自然語言生成模型(MT-NLG),這是迄今為止訓練的最大和最強大的解碼語言模型。這個模型包括5300億個參數,與現有最大的模型GPT-3相比,參數數量是其3倍。
訓練這樣的大型模型涉及各種挑戰,沿着所有的人工智能軸線進行了許多創新和突破。例如,通過緊密合作,英偉達和微軟將最先進的GPU加速訓練基礎設施與尖端的分佈式學習軟件堆棧相融合,實現了前所未有的訓練效率。
微軟與NVIDIA建立了高質量的自然語言訓練語料庫,其中包含數千億個標記,並共同開發了訓練配方,以提高優化效率和穩定性。
您可以從這裡了解更多:
https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/