人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

AI生成的文本好不好,最權威的評估者竟然不是人類自己?最近,華盛頓大學和艾倫人工智能研究院的學者們在研究中發現:未經過訓練的人類評估文本時,往往過分關注生成文本像不像人話,而忽略了生成文本更重要的問題,即它的內容是否正確、合乎邏輯。

明敏 發自 凹非寺

研究人員就給出了一個例子:

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

他們分別讓未經訓練的人類和機器來評價一段GPT-3生成的文字。

這段文字翻譯過來為:

從前,有一個海盜。他是那種寧願把時間花在驅趕在船周圍游泳的鯊魚上,也不願駛向外國港口尋找戰利品的海盜。他是個好海盜,高尚的海盜,誠實的海盜。他是個寧願和妻兒呆在家裡也不願出海的海盜。

人類評估員認為這段文字除了有些啰嗦外,沒什麼大毛病。

這可能就是一個海盜想回家陪老婆孩子吧,AI可能沒理解,但是這也沒什麼稀奇的。

機器評估也認為這段文字很啰嗦,不過它對文段的內容提出了質疑:

海盜會有老婆孩子?還不和他一起在船上生活?

對比兩種判斷,人類評估更看重這段話像不像人話,在檢驗過它的確非常流暢后,就會默認這段文本沒什麼大問題了。

而機器的判斷角度則更加多維,會考慮到文字傳達的意思是否正確。

很難分辨出GPT-3生成的文本

為了驗證自己的觀點,研究人員讓未經訓練的評估人員來區分人類寫的文本和AI生成的文本。

他們選擇了故事、新聞、菜譜三種不同的文體進行測試。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

具體測試中,受試人員不僅要判斷給出的文本是否人類創作的,還要填寫相應的理由。

結果顯示,在區分人類和GPT-2創作的文本時,被測試群體的正確率為57.9%

但是在區分GPT-3生成的文本上,正確率就下降到了49.9%

而二選一問題的隨機概率就有50%……

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

顯然,普通人已經很難識別出當下最先進的NLG模型所生成的文本。

為了更進一步了解受試人員是如何做出判斷的,研究人員對150個回答進行了分析。

結果發現,受試人員在做出判斷後,更加傾向於從文本的格式、風格、語法角度上給出理由。

150個回答中,基於文本形式的判斷幾乎是基於內容判斷的2倍

但是,GPT-3在文本流暢度方面的表現其實已經非常出色,這或許也是為什麼人類很難分辨GPT-3生成文本。

而且研究人員發現,受試人員給出判斷的理由都不盡相同,這也表明人類評估文本沒有一個明確的標準。

既然NLG模型訓練后可以變強,那培訓一下評估人員呢?

研究人員決定對一些受試人員進行了培訓,提高他們評估文字的能力和速度。

他們準備了3種不同的培訓:

第一種是給出明確的判斷標準,讓受試人員學習後來判斷;

第二種是通過大量的實例訓練,也就是題海戰術;

第三種是通過不斷對比來完成訓練。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

然而結果表明,這好像並沒有什麼用

三種培訓后的判斷正確率分別為52%、55%、53%,相較於未受訓時的表現,沒有顯著提高。

不過從受試人員的回答中可以看到,更多人現在會多維度判斷文本了,還是有進步的。

基於這樣的實驗結果,研究人員認為在評估最先進的NLG模型方面,人類可能真的不太靠譜了。

這實驗不太靠譜

對於這樣的結論,網友們提出了一些不同的看法:

判斷文本質量其實是一件非常艱巨的任務,需要專家來進行評估。

或許是這項研究中的受試人員不太行?

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

有人就指出了問題所在:他們用的Amazon Mechanical Turk的評估員。

是受試人員不太行。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

AMTurk作為一個眾包平台,近年來實在是飽受詬病。

此前BBC報道稱,由於招募到的志願者所在的地區存在一些觀念偏見,導致最後研究出的算法也存在偏見。

而且招募到的人員水平也常常參差不齊。

不過有人也表示:這些人可能也是最適合的,因為他們最接近普通大眾水平,專家認為好的文字,普通人未必也這麼認為。

這要取決於生成文本的目標人群是誰。

實驗中的志願者對喬伊斯(後現代文學作家)的欣賞程度肯定和英文系教授不同。

儘管頂級文學評論家將其描述為“20世紀實驗文學的偉大紀念碑之一”和“英語中最美麗的散文詩之一”,但對於大多數普通讀者而言,它非常晦澀難懂。

此外,也有人就對這項研究提出了改進建議:

我認為他們可以用更簡單的NLG算法(基於規則,n-gram, rnn)進行更精細的分析,並對“非專家”評估者進行排名,而不是將他們作為一個群體來處理。

而關於NLG模型生成文本的評估問題,Google曾給出過一個方案。

2020年,它們提出了一個可量化評估NLG模型性能的指標——BLEURT

這是一個基於BERT的學習評價指標,在學習了幾千個人類評估案例后,它可以對不同模型生成的文本進行打分。

其最大的優勢就是,評估速度更快

Google研究人員認為這個指標有助於NLG模型的研究和開發,而且可以為開發人員提供更加多維的評判標準。

論文地址:

https://arxiv.org/pdf/2107.00061.pdf

(0)
上一篇 2021-07-17 16:19
下一篇 2021-07-17 16:20

相关推荐