谷歌又鬧大烏龍 Jeff Dean參與的新模型竟搞錯Hinton生日

2022-10-22 17:02 • 熱點資訊

最近，谷歌研究員發布了關於指令微調的最新工作！然而卻宣傳圖中出現了可笑的烏龍。幾個小時之前，谷歌大腦的研究員們非常開心地曬出了自己最新的研究成果：“我們新開源的語言模型Flan-T5，在對1,800多種語言的任務進行指令微調后，顯著提高了prompt和多步推理的能力。”

然而，就在這張精心製作的“宣傳圖”上，竟藏着一個讓人哭笑不得的bug！

請注意看Geoffrey Hinton的出生日期：

但實際上，Hinton出生於1947年……

雖然沒有必然聯繫，但是Google自己的模型，竟然會把自家大佬的生日搞錯？

馬庫斯同志看完直接就驚了：你們Google，沒人負責審核的嗎……

理論上，這篇擁有31位作者，外加Jeff Dean這種大佬參與的論文，不應該發生這種“低級錯誤”才對啊。

“複製”的時候“打錯了”而已！

很快，論文的共同一作就在馬庫斯的推文下面進行了回復：“我們都知道，模型的輸出並不總是符合事實。我們正在進行負責任的AI評估，一旦有了結果，我們將立即更新論文。”

沒過多久，這位作者刪除了上面那條推文，並更新留言稱：“這只是在把模型的輸出複製到Twitter上時，『打錯了』而已。”

對此，有網友調侃道：“不好意思，你能不能給我翻譯翻譯，什麼叫『複製』來着？”

當然，在查看原文之後可以發現，“圖1”所示的生日，確實沒錯。

至於在宣傳圖中是如何從“1947”變成“1963”的，大概只有做圖的那位朋友自己知道了。

隨後，馬庫斯也刪除了自己的這條推文。

世界重歸平靜，就像什麼也沒有發生一樣。

只留下Google研究員自己推文下面的這條在風中飄搖——

擴展指令微調語言模型

既然誤會解除了，我們就讓話題重新回到論文本身上來吧。

去年，Google推出了一個參數量只有1370億的微調語言網絡FLAN（fine-tuned language net）。

https://arxiv.org/abs/2109.01652

FLAN是Base LM的指令調優（instruction-tuned）版本。指令調優管道混合了所有數據集，並從每個數據集中隨機抽取樣本。

研究人員稱，這種指令調節（instruction tuning）通過教模型如何執行指令描述的任務來提高模型處理和理解自然語言的能力。

結果顯示，在許多有難度的基準測試中，FLAN的性能都大幅超過了GPT-3。

這次，Google將語言模型進行拓展之後，成功刷新了不少基準測試的SOTA。

比如，在1.8K任務上進行指令微調的Flan-PaLM 540B，性能明顯優於標準的PALM 540B（平均 + 9.4%），並且在5-shot的MMLU上，Flan-PaLM也實現了75.2%的準確率。

此外，作者還在論文中公開發布Flan-T5檢查點。即便是與更大的模型（如PaLM 62B）相比，Flan-T5也能實現強大的小樣本性能。

論文地址：https://arxiv.org/abs/2210.11416

總結來說，作者通過以下三種方式擴展了指令微調：

擴展到540B模型

擴展到1.8K的微調任務

在思維鏈（CoT）數據上進行微調

作者發現具有上述方面的指令微調顯著提高了各種模型類（PaLM、T5、U-PaLM）、prompt設置（zero-shot、few-shot、CoT）和評估基準（MMLU、BBH、 TyDiQA、MGSM、開放式生成）。

這次的微調數據包括473個數據集、146個任務類別和1,836個總任務。

作者是通過結合之前工作中的四種混合（Muffin、T0-SF、NIV2 和 CoT），縮放（scale）成了下圖中的1836個微調任務。

在研究中，微調數據格式如下圖這樣組合。研究者在有樣本/無樣本、有思想鏈/無思想鏈的情況下進行了微調。要注意的是，其中只有九個思維鏈（CoT）數據集使用CoT格式。

第四種微調數據的混合涉及CoT註釋，作者用它來探索CoT註釋的微調是否可以提高看不見的推理任務的性能。

作者從先前的工作中創建了9個數據集的新混合，然後由人類評估者手動為訓練語料庫編寫CoT註釋。這9個數據集包括算數推理、多跳推理（multi-hop reasoning）和自然語言推理等。

作者在廣泛的模型中應用了指令微調，包括T5、PaLM和U-PaLM。對於每個模型，作者都採用了相同的訓練過程，使用恆定的學習率，並使用Adafactor優化器進行了微調。

從下表中可以看出，用於微調的計算量僅占訓練計算的一小部分。

作者根據模型的大小和微調任務的數量，在保留任務的性能上檢測了縮放的影響。

作者從對三種大小的PaLM模型（8B/62B/540B）進行實驗，從任務最少的混合開始，一次添加任務混合，然後再到任務最多的混合（CoT、Muffin、T0-SF 和 NIV2）。

作者發現，擴展指令微調后，模型大小和任務數量的擴展都會大大改善性能。

是的，繼續擴展指令微調就是最關鍵的要點！

不過，在282個任務之後，收益開始略微變小。

從下表中可以看出，對於三種大小的模型，多任務指令微調后，相比沒有微調時，性能有很大的提高，性能增益範圍從9.4%到15.5%。

其次，增加微調數量可以提高性能，儘管大部分的改進來自282個任務。

最後，將模型規模增加一個數量級（8B→62B或62B→540B）會顯著提高微調和非微調模型的性能。

為什麼282個任務之後增益就變小了呢？有兩種解釋。

一是附加任務不夠多樣化，因此沒有為模型提供新知識。

二是多任務指令微調的大部分收益，是因為模型學習更好地表達了它在預訓練中已經知道的知識，而282個以上的任務並沒有太大的幫助。

另外，作者還探討了在指令微調混合中包含思想鏈（CoT）數據的效果。

可以看出，Flan-PaLM在所有評估基準上都優於PaLM。

不過令人驚訝的是，以前的指令微調方法（如FLAN，T0）顯著降低了non-CoT的性能。

對此的解決方案是，只需在微調混合中添加9個CoT數據集，就可以在所有評估中獲得更好的性能。

雖然思維鏈（Chain-of-Thought）prompting通常非常有效，但只能編寫少量樣本，而且零樣本CoT並不總是有效果。

而Google研究者的CoT微調顯著提高了零樣本推理能力，比如常識推理。

為了展示方法的通用性，研究人員訓練了T5、PaLM和U-PaLM。其中參數量的覆蓋範圍也非常廣，從8000萬到5400億。

結果證明，所有這些模型都得到了顯著提升。

在以往，開箱即用的預訓練語言模型可用性通常都很差，比如對輸入的prompt沒有反應。

Google的研究者要求人類評估者來評估開放式生成問題的“模型可用性”。

結果顯示，Flan-PaLM 的可用性比PaLM基礎模型要高79%。

此外，指令微調還補充了其他的模型適應技術，比如UL2R。

同樣的，Flan-U-PaLM取得了很多優秀的結果。

論文地址：https://arxiv.org/abs/2210.11399

Google的另一起“翻車”事件

可以說，剛剛發生的這個劇情，既視感相當強了！

沒錯，就在10月19日，當GooglePixel的官方賬號試圖挖苦蘋果CEO庫克時，被網友抓包：是用iPhone發的推文……

顯然，這種事情早已不是第一次了。

2013年，T-Mobile的CEO就在Twitter上對三星Note 3讚不絕口，但用的是iPhone。

同樣是2013年，黑莓的創意總監Alicia Keys在發布會上說，她已經拋棄了自己之前的iPhone，換了黑莓Z10。隨後，就被發現用iPhone發推，甚至在被抓到后發推狡辯說是因為自己被黑了。

三星，也不例外：

而且，相比於Google的這次刪推，三星當時做得更加決絕：直接刪號！

看來，營銷課程有必要加上這樣的一條戒律了：如果你要推廣一個產品，請不要用競爭對手的產品來做。

這並不是一個難以傳授的信息，甚至還可以做得直白：在推銷其他產品時，手裡請不要拿着iPhone。

hinton 烏龍谷歌

赞 (0)

烹飪自動化初創企業決定轉型為公寓居民提供高性價比新鮮餐食

上一篇 2022-10-22 17:01

《模擬人生》創造者計劃製作區塊鏈元宇宙遊戲

下一篇 2022-10-22 17:02

熱點資訊

油價或將進入“十元”時代家用車加滿一箱油較年初多花近百元

國際油價持續高位運行之下，國內油價或將迎來“十元”時代。6月14日24時，國內成品油將迎來今年的第11輪調整。截至6月7日，本輪10個計價工作日已統計過半，當前第5日的原油變化率為…

2022-06-08
熱點資訊

LISA的引力波觀測將具有前所未有的準確性有望探測到新的基本場

發表在《自然-天文學》雜誌上的一項新研究表明，激光干涉空間天線（LISA）的引力波觀測將具有前所未有的準確性，它將能夠探測到新的基本場。廣義相對論是正確的引力理論嗎？引力可以用…

2022-02-14
熱點資訊

BlueStacks X：一種在瀏覽器中玩Android遊戲的全新免費方式

10多年前，BlueStacks作為Windows的Android模擬器開始了它的生命，允許任何人在WindowsPC和平板電腦上運行基於Arm或x86的原生Android應用程序…

2021-09-30
熱點資訊

在月球能生產氧氣和燃料？月壤或可助一臂之力

如果想在月球上居住和旅行，水、氧氣等物質和交通工具不可或缺。如果在月球能就地取材，為人類提供生存的資源，那星際旅行的願望或許不再遙遠。 5月5日，南京大學、香港中文大學（深圳）、中…

2022-05-07
熱點資訊

美CDC報告表明COVID-19增加了兒童患糖尿病的風險

美國疾病控制與預防中心（CDC）的一份新報告發現，從COVID-19感染中恢復的兒童比沒有病毒感染史的兒童更容易患糖尿病。初步發現是觀察性的，研究人員呼籲對COVID-19和糖尿病…

2022-01-10
熱點資訊

《007：無暇赴死》全球票房破6億美元傳成本2.5億

新一部邦德電影《007：無暇赴死》中國內地首周（三天）票房粗報1.8億元。加上內地收入，該片全球票房也在上周日突破6億美元，其中10月初上映的北美目前以1.33億美元在各票倉中領先…

2021-11-01
熱點資訊

三星堆發現第一件帶翅膀神獸：身馱神樹、腦袋似老虎

三星堆是位於四川省的古蜀文化遺址，有着三千年到五千年文化傳承。2019年10月到2020年10月，三星堆6個新祭祀坑先後被找到，並陸續啟動發掘。新發現的6座坑中，3號到6號坑已經清…

2022-08-15
熱點資訊

5G 消息或於 10 月中下旬全國試商用

在今日的 5G %ignore_a_1%高層論壇上，中國聯通產品中心副總經理黃昌建表示，目前中國聯通的 5G 消息全國運營平台已經完成，5G 消息可能會在 10 月中下旬全國試商…

2021-09-29
熱點資訊

線上每課時20元北京上海義務教育階段學科類校外培訓指導價公布

近日，北京、上海相繼公布了義務教育階段學科類校外培訓政府指導價。北京市市發改委會同市教委、市市場監管局發布《北京市義務教育階段學科類校外培訓收費管理辦法（試行）》，並同步出台線上、…

2022-01-02
熱點資訊

視頻網站，不再是好生意

曾幾何時，中國互聯網公司流傳兩個重要文件，一個是GoogleOKR，另一個是《奈飛文化手冊》。2009年，當《奈飛文化手冊》的“母本”PPT上傳到網絡，被下載1500萬次成為熱門現…

2022-08-16