2022年高考英語AI得分134 復旦武大校友這項研究有點意思

2022-06-25 15:26 • 熱點資訊

在挑戰寫語文作文後，AI現在又盯上了高考英語。結果好傢夥，今年高考英語卷（全國甲卷）一上手，就拿了134分。而且不是偶然的超常發揮。在2018-2021年的10套真題測試中，AI的分數都在125分以上，最高紀錄為138.5分，聽力和閱讀理解還拿過滿分。

這就是由CMU學者提出的，高考英語測試AI系統Qin。

它的參數量只有GPT-3的16分之一，平均成績卻比GPT-3高出15分。

其背後的秘訣名叫重構預訓練 （reStructured Pre-training），是作者提出的一種新學習範式。

具體來看，就是把維基百科、YouTube等平台的信息重新提取重構，再餵給AI進行訓練，由此讓AI具有更強的泛化能力。

兩位學者用足足100多頁的論文，深入解釋了這一新範式。

那麼，這一範式到底講了什麼？

我們來深扒一下~

什麼是重構預訓練？

論文題目很簡單，就叫reStructured Pre-training（重構預訓練，RST）。

核心觀點凝練來說就是一句話，要重視數據啊！

作者認為，這個世界上有價值的信息無處不在，而目前的AI系統並沒有充分利用數據中的信息。

比如像維基百科，Github，裡面包含了各種可以供模型學習的信號：實體，關係，文本摘要，文本主題等。這些信號之前由於技術瓶頸都沒有被考慮。

所以，作者在本文中提出了一種方法，可以用神經網絡統一地存儲和訪問包含各種類型信息的數據。

他們以信號為單位、結構化地表示數據，這很類似於數據科學里我們常常將數據構造成表或JSON格式，然後通過專門的語言（如SQL）來檢索所需的信息。

具體來看，這裡的信號，其實就是指數據中的有用信息。

比如在“莫扎特生於薩爾茨堡”這句話中，“莫扎特”、“薩爾茨堡”就是信號。

然後，就需要在各種平台上挖掘數據、提取信號，作者把這個過程比作了從礦山裡尋寶。

接下來，利用prompt方法，就能將這些來自不同地方的信號統一成一種形式。

最後，再將這些重組的數據集成並存儲到語言模型中。

這樣一來，該研究就能從10個數據源中，統一26種不同類型的信號，讓模型獲得很強的泛化能力。

結果表明，在多個數據集中，RST-T、RST-A零樣本學習的表現，都優於GPT-3的少樣本學習性能。

而為了更進一步測試新方法的表現，作者還想到了讓AI做高考題的方法。

他們表示，現在很多工作方法走的都是漢化GPT-3的思路，在評估的應用場景上也是跟隨OpenAI、DeepMind。

比如GLUE測評基準、蛋白質摺疊評分等。

基於對當下AI模型發展的觀察，作者認為可以開闢出一條新的賽道試試，所以就想到了用高考給AI練練手。

他們找來了前後幾年共10套試卷進行標註，請高中老師來進行打分。

像聽力/識圖理解這樣的題目，還找來機器視覺、語音識別領域的學者幫忙。

最終，煉出了這套高考英語AI模型，也可以叫她為Qin。

從測試結果可以看到，Qin絕對是學霸級別了，10套卷子成績都高於T0pp和GPT-3。

此外，作者還提出了高考benchmark。

他們覺得當下很多評價基準的任務都很單一，大多沒有實用價值，和人類情況對比也比較困難。

而高考題目既涵蓋了各種各樣的知識點，還直接有人類分數來做比對，可以說是一箭雙鵰了。

NLP的第五範式？

如果從更深層次來看，作者認為，重構預訓練或許會成為NLP的一種新範式，即把預訓練/微調過程視為數據存儲/訪問過程。

此前，作者將NLP的發展總結成了4種範式：

P1. 非神經網絡時代的完全監督學習（Fully Supervised Learning, Non-Neural Network）

P2. 基於神經網絡的完全監督學習 (Fully Supervised Learning, Neural Network)

P3. 預訓練，精調範式 (Pre-train, Fine-tune)

P4. 預訓練，提示，預測範式（Pre-train, Prompt, Predict）

但是基於當下對NLP發展的觀察，他們認為或許之後可以以一種data-centric的方式來看待問題。

也就是，預訓/精調、few-shot/zero-shot等概念的差異化會更加模糊，核心只關注一個點——

有價值的信息有多少、能利用多少。

此外，他們還提出了一個NLP進化假說。

其中的核心思想是，技術發展方向總是順着這樣的——做更少的事實現更好、更通用的系統。

作者認為，NLP經歷了特徵工程、架構工程、目標工程、提示工程，當下正在朝着數據工程方向發展。

復旦武大校友打造

本篇論文的一作為Weizhe Yuan。

她本科畢業於武漢大學，后赴卡內基梅隆大學讀研，學習數據科學專業。

研究方向集中在NLP任務的文本生成和評估。

去年，她被AAAI 2022、NeurIPS 2021分別接收了一篇論文，還獲得了ACL 2021 Best Demo Paper Award。

論文的通訊作者為卡內基梅隆大學語言技術研究所（LTI）的博士后研究員劉鵬飛。

他於2019年在復旦大學計算機系獲得博士學位，師從邱錫鵬教授、黃萱菁教授。

研究興趣包括NLP模型可解釋性、遷移學習、任務學習等。

博士期間，他包攬了各種計算機領域的獎學金，包括IBM博士獎學金、微軟學者獎學金、騰訊人工智能獎學金、百度獎學金。

One More Thing

值得一提的是，劉鵬飛在和我們介紹這項工作時，直言“最初我們就沒打算拿去投稿”。

這是因為他們不想讓會議論文的格式限制了構思論文的想象力。

我們決定把這篇論文當作一個故事來講，並給“讀者”一種看電影的體驗。

這也是為什麼我們在第三頁，設置了一個“觀影模式“的全景圖。

就是為了帶着大家去了解NLP發展的歷史，以及我們所展望的未來是怎樣的，讓每一個研究者都能有一定的代入感，感受到自己去帶領着預訓練語言模型們(PLMs)通過礦山尋寶走向更好明天的一個過程。

論文結尾，還藏了一些驚喜彩蛋。

比如PLMs主題表情包：

還有結尾的插畫：

這麼看，100多頁的論文讀起來也不會累了

ai 英語高考

赞 (0)

資本市場低迷：快狗打車上市首日跌22% 市值仍超百億港元

上一篇 2022-06-25 15:26

面世一年，Windows 11“靜悄悄”？

下一篇 2022-06-25 15:26

熱點資訊

《原神》不僅讓外國人聽了一齣戲，還賺了外國人的錢

不得不說，中國戲曲圈，正在因為《原神》里的一首《神女劈觀》，引發一場“諸神戰爭”。一位又一位國家隊成員，開啟了二創接力，這盛況，前所未有。《神女劈觀》的原唱，是上海京劇院國家一級演…

2022-02-06
熱點資訊

蘋果硬件訂閱或計劃將重點轉向iPhone的安裝基礎貨幣化

據一位分析師稱，如果硬件訂閱的傳言屬實，那麼蘋果可能即將進行廣泛的業務轉變–從iPhone出貨量轉向安裝基礎貨幣化。摩根士丹利首席分析師Katy Huberty在給投資…

2022-03-29
熱點資訊

對古代大滅絕的研究揭示了恐龍在冰雪中佔領地球而不是在溫暖的環境中

我們中的許多人都熟悉關於6600萬年前恐龍如何死亡的流行理論：在地球與一顆隕石的劇烈碰撞中，隨後是塵埃和碎片阻塞大氣層造成的全球冬天。但是之前還有一個更神秘、更少討論的滅絕事件：2…

2022-07-02
熱點資訊

亞馬遜將Prime會員年費提高20美元至139美元為2018年以來首次上調

亞馬遜將其在美國的Prime訂閱服務年費提高20美元至139美元，這是2018年以來首次上調。就在公布四季度業績之際，該公司周四公告稱，對於新的Prime會員，此次調價將於2月18…

2022-02-04
熱點資訊

Xbox One手柄獲固件升級解鎖新手柄兩項功能

通過今天面向測試用戶發送的升級固件，部分XboxOne手柄也獲得了原本Xbox Series新手柄的功能升級。具體來說，這些上一代的手柄也可以支持跨設備連接以及低延遲輸入。需要注意…

2021-09-09
熱點資訊

全球首個5G網絡數據采析體系與性能追蹤系統正式發布

在今天於江蘇南京舉行的“第五屆未來%ignore_a_1%發展大會”開幕式上，紫金山實驗室副主任兼首席科學家尤肖虎教授宣布由紫金山實驗室以及東南大學聯合團隊聯合打造的“全球首個5G…

2021-06-17
熱點資訊

麻省理工學院媒體實驗室創造出富有表現力的可穿戴MIDI鍵盤

據外媒New Atlas報道，麻省理工學院媒體實驗室( MIT Media Lab）的Irmandy Wicaksono從電子音樂控制器的發展和針織品的視覺和觸覺吸引力中得到啟發，…

2021-06-25
熱點資訊

消息稱蘋果明年將發增強現實設備已經開始提前布局軟硬件資源

6月6日消息，在iPhone引領智能手機革命近15年後，蘋果正在整合相關軟硬件資源，計劃在明年推出一款將數字世界與現實世界融合在一起的頭戴式設備，希望通過這種做法再次顛覆現有業務。…

2022-06-06
熱點資訊

奧迪一季度財報公布中國市場佔全球總銷量近一半

5月8日，奧迪發布2021年第一季度財報數據顯示，一季度奧迪集團銷售收入為141億歐元，同比增長12.9%；經營銷售利潤為14億歐元，經營銷售利潤率為10.0%，稅前利潤為17億歐…

2021-05-10
熱點資訊

Netflix《The Playlist》發布預告：一部關於Spotify崛起的劇集

Netflix已經發布了《The Playlist》–它即將推出的關於Spotify創建的節目–的官方預告片。這個近兩分鐘的預告片表明該節目將非常嚴肅地審視…

2022-09-28