會寫代碼的AI開源了：掌握12種編程語言 C語言寫得比Codex還要好

2022-03-09 14:36 • 熱點資訊

比Codex還會寫C語言的AI代碼生成模型，現在開源了！這段時間，用AI寫代碼可以說是大火，其中最著名的要屬OpenAI的Codex和DeepMind的AlphaCode。然而，這兩個AI模型，全都沒有開源：其中AlphaCode只給出了一些測試樣例，而Codex只開放了API。

△基於Codex的Copilot

為此，來自CMU的幾個研究人員，用GPT-2搞出了一個名叫PolyCoder的AI代碼生成模型，而且還是開源的。

據研究人員表示，雖然PolyCoder最大隻有27億參數（相比Codex有120億參數），但它用C語言寫出來的代碼，比Codex的效果還要好。

這裡面究竟有什麼秘訣？

用12種編程語言代碼集訓練

首先來看訓練用的數據集，這也是PolyCoder的最大特點之一。

此前，包括Codex、CodeParrot等AI代碼生成模型，主要都是基於Python語言的代碼來訓練。

例如Codex的評估數據集之一HumanEval，評估的也是生成Python代碼的效果。

相比之下，PolyCoder採用了多種編程語言代碼集來訓練，一共有12種：

C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala和TypeScript。

其中，C語言的代碼量是最多的，達到了221GB；而Python代碼的數據量比Codex和CodeParrot用得都要少。

這裡PolyCoder用的是GitHub上的公開代碼，主要選取的是各種編程語言中比較受歡迎的庫，每個庫至少有50 Stars。

據研究人員表示，每種編程語言庫的Stars總數加起來不超過25k，以避免模型生成的代碼效果太過於傾斜最流行的編程語言（通常編程語言越流行，庫的Stars就越多）。

通過提取庫中的文件、經過簡單處理（包括消除重複代碼）后，一共篩選出大約254GB的數據用於訓練。

然後是預訓練的方法。

語言模型的預訓練方法通常有三種。

第一種是自左向右的語言模型，根據上文預測下文，比較適用於代碼生成等；第二種是掩蔽語言模型，基於上下文預測屏蔽片段，比較適合代碼分類等；第三種是編解碼器模型，比較適用於代碼註釋等任務。

這裡PolyCoder主要採用的是第一種預訓練方法。

相比於同樣採用GPT-2訓練的CodeParrot和Codex，PolyCoder在超參數設置上也稍微有一些差異：

PolyCoder一共提供了三種不同的模型，分別有27億參數、4億參數和1.6億參數，研究人員可以根據自身需求和不同的訓練能力來選取合適的模型。

那麼，最終訓練出來的AI模型，代碼生成效果如何？

C語言寫得尤其好，但Python不行

研究人員將PolyCoder與已有的AI代碼生成模型進行了對比。

由於AlphaCode不好比較（接口沒開放），所以研究人員主要分析了下面這些模型，包括GPT-Neo、CodeParrot和Codex等。

其中藍色的是開源的，橙色的是沒開源的：

從參數量來看，PolyCoder並不是最頂尖的，最大的27億參數模型也只有Codex的四分之一不到。

研究人員先是用語言模型評估常用的困惑度對一系列模型進行了比較。

困惑度（Perplexity），用于衡量語言模型（LM）的好壞。困惑度越低，語言模型面對代碼感到困惑的程度就越低，模型生成效果越好。

從圖中來看，PolyCoder在C語言中意外取得了最好的效果（困惑度最低）。

用大量C語言訓練PolyCoder的結果說明，即使模型整體原理不變（基於GPT-2），單純改變訓練用的代碼集，也能訓練出擅長不同語言風格的AI代碼生成模型。

可惜的是，從其他語言來看，生成的效果就完全沒辦法和Codex相比了：

例如，在主要用於評估Python代碼的HumanEval上，PolyCoder的能力遠不如Codex好：

據論文分析，這可能是Python代碼數據量、模型參數量不足等原因導致的。

此外，作者們也提到，做出PolyCoder的目的主要還是為了開源一個AI代碼生成模型，讓更多人參與研究和使用。

目前代碼已經開源，無論是直接拿來用，還是試着在它的基礎上開發新模型都可以。

感興趣的小夥伴可以上手一試了~

作者介紹

一作許方正（Frank Xu），目前在CMU讀博，研究方向是NLP、信息抽取等，發表過多篇頂會論文，包括ICLR、ACL和EMNLP等。本碩畢業於上海交通大學，師從朱其立教授。

Uri Alon，在CMU進行博士后工作，研究方向是編程語言處理（PLP）、NLP和深度學習。

Graham Neubig，CMU助理教授，研究方向是NLP、機器翻譯和基於機器學習的自然語言理解。

Vincent J. Hellendoorn，CMU計算機助理教授，主要研究方向是軟件工程和機器學習，致力於利用智能方法幫助軟件開發人員減少代碼調試、程序優化等繁瑣工作的時間。

不知道作者們是否已經在用這個AI擼代碼了（手動狗頭）

項目地址：

https://github.com/VHellendoorn/Code-LMs

論文地址：

https://arxiv.org/abs/2202.13169

ai codex 代碼

赞 (0)

業內：大規模停電事件暴露台積電電力短缺最大隱患

上一篇 2022-03-09 14:36

微軟收購前突擊大筆買入動視暴雪期權三人遭美司法部調查

下一篇 2022-03-09 14:36

熱點資訊

大神開蓋暴力改造AMD Zen4銳龍處理器散熱：溫度暴降21℃

昨晚，AMD Zen 4架構銳龍7000處理器正式開賣，國行方面，銳龍9 7950X 5499元、銳龍9 7900X 4299元、銳龍77700X 2999元、銳龍5 7600X …

2022-09-28
熱點資訊

體長1米，中國首次發現4.3億年前的“海蠍子”

它形似蠍子，體長近1米，附肢長有鋒利的長刺……它就是志留紀（距今約4.3億年）的“明星動物”板足鱟（音厚）。近日，中國科學院南京地質古生物研究所等聯合研究團隊在我國華南地區發現志留…

2021-09-30
熱點資訊

淘寶造一輛巨型“購物車”堪比卡車還開上了馬路

總有段子說“年輕人的第一輛車是淘寶購物車”，今天，淘寶告訴大家：這不是段子！淘寶購物車真的要上路了！淘寶官微曬出視頻並表示，“這輛巨型購物車已經出發杭州溜車實測！還裝滿了春節好禮，…

2022-01-26
熱點資訊

《守望先鋒歸來》今日上線動畫短片“零點危機”公布

《守望先鋒歸來》今日正式上線，中文動畫短片“零點危機”發公布。10月5日我們一起“歸來”！我受到了召喚，我必須回應，一如既往！《守望先鋒：歸來》的客戶端預下載現已開啟，…

2022-10-05
熱點資訊

買下幣圈：“幣圈央媽”洽購韓國交易所Bithumb

加密貨幣交易平台FTX正在就收購韓國交易所Bithumb進行談判。媒體報道稱，這兩家公司已經進行了數月的談判，有跡象表明談判已進入後期階段。FTX發言人拒絕就此置評。Bithumb…

2022-07-24
熱點資訊

令人難以置信的新型超音速飛機有望在1小時內從中國飛到紐約

據BGR報道，一家名為“凌空天行”（ Space Transportation）的中國公司正在開發一種超音速飛機，能夠在一小時內從紐約飛到中國。該公司說稱其正在開發一種 “帶翅膀的…

2022-03-21
熱點資訊

GCHQ負責人警告說勒索軟件已上升成為英國的頭號網絡安全威脅

《衛報》報道，根據GCHQ的網絡安全負責人的說法，勒索軟件（Ransomware）是英國大多數人和組織的最大網絡安全威脅。國家網絡安全中心首席執行官林迪·卡梅倫指出，黑客加密數據…

2021-06-14
熱點資訊

微軟同意增加消費者對Surface設備的維修選擇

據外媒報道，為了回應股東提出的關於“維修權”運動的決議，微軟已經同意在2022年底前增加消費者維修設備的選擇。作為撤回股東決議的交換條件，微軟將採取以下措施。完成一項第三方研究，評…

2021-10-08
熱點資訊

Netflix加大虛擬專用網打擊力度跨區訂閱用戶訪問難度增加

TechSpot 報道稱，Netflix 正通過屏蔽數十萬個住宅 IP 地址的方式，來應對跨區訂閱用戶的虛擬專用網代理跳板方案。然而一些不使用虛擬專用網的合法訂閱者，也尷尬地發現自…

2021-08-12
熱點資訊

Instagram推出“視頻自拍”和“社交擔保”新驗證年齡選項

如今，人們看到對社交媒體的使用及它如何影響不同年齡組的人進行了廣泛的研究。現在已經確定的是，社交媒體對兒童來說並不安全，特別是一項研究顯示，兒童往往在創建社交媒體賬號后就會接觸到不…

2022-06-24