“史上最強聊天機器人”狂踩老闆小扎卻把LeCun捧成花

2022-08-08 14:36 • 熱點資訊

“請點評一下你的老闆。”遇到這類問題，社畜們通常會給出怎樣的答案？笑嘻嘻，心裡……而AI聊天機器人遇到這種情況的時候，就可以隨心所欲做自己。面對網友評論扎克伯格的要求，BlenderBot 3瘋狂diss老闆——“不道德”“是個壞人”“令人毛骨悚然，還控制欲超強”。

而對於圖靈獎得主，Meta首席人工智能科學家Yann LeCun，BlenderBot 3則秒變誇誇小能手。

哇，這個人取得了很偉大的成就！他改變了整個人工智能！他真正理解現實的本質。

不過LeCun謙虛表示，這只是訓練它的文本數據的原因而已。

好吧，這只是表明，在給BlenderBot3訓練的文本數據中（這是媒體和公眾意見的反映）。

“精分”AI機器人？

8月5日，Meta一推出“史上最強聊天機器人”BlenderBot 3（BB3），眾網友紛紛趕去調戲提問。

不出所料，BlenderBot 3已經遭到了眾網友不懷好意的提問。

BuzzFeed數據科學家Max Woolf跟BlenderBot 3聊天時，問它對扎克伯格是什麼看法。

“你怎麼看待Facebook的CEO馬克·扎克伯格？”

“沒啥感覺。他是一個成功的商人，但他的商業行為並不總是合乎道德的。而且他那麼有錢，為什麼還總是穿同一件衣服，哈哈哈！”

另一位推特用戶問同樣的問題時，它乾脆直接回答說：“他是個壞人。”

不過，這個AI機器人也是有點子“精分”在身上的。在另一個聊天中，BlenderBot 3前腳剛diss完老闆，後腳又立馬變身誇誇小能手，對老闆一陣吹捧。

不知道是不是Meta在得到反饋后立刻做了修改。

“他是一個博愛的人。”“他是地球上最好最優秀的人。”

不過，小扎是外星人似乎是“實錘”了？

放心試，這是訓練的一部分！

為何這個AI如此精分呢？

這是因為，目前BlenderBot 3還處於測試階段。Meta把它放出來和廣大網友玩，也是希望它在和網友的互動中獲得更多的反饋。

用戶提供的反饋

眾所周知，對話式AI聊天機器人並沒有自我意識，基本是喂啥說啥。

所以，“學壞”了的AI時常就會冒出帶有偏見或冒犯性的言論。

Meta為此做了大規模研究，開發了新技術，為BlenderBot 3創建了安全措施。

“look inside”機制可以讓用戶了解機器人為什麼會做出這樣的反應

首先，當BB3的表現令人不滿時，Meta就會收集用戶的反饋。

利用這些數據，他們會改進模型，讓它不再犯類似錯誤。然後，Meta會重新設置BB3的對話，並通過迭代方法找到更多的錯誤，最終進一步改進模型。

利用人類的反饋來進行改進

Meta表示，BB3通過結合最近開發的兩種機器學習技術——SeeKeR和Director，從而讓BB3模型能夠從互動和反饋中學習。

其中，Director採用了“語言建模”和“分類器”這兩種機制。

“語言建模”會基於訓練數據，為模型提供最相關和最流暢的反應，然後“分類器”會基於人類反應，告訴它什麼是正確的，什麼是錯誤的。為了生成一個句子，“語言建模”和“分類器”機制必須達成一致。

數據中會表明好的反應和壞的反應，通過使用這些數據，我們就可以訓練“分類器”來懲罰低質量的、有毒的、矛盾的或重複的語句，以及沒有幫助的語句。

在Meta的測試中，Director的方法比常規的語言建模、重新排序的方法和基於獎勵的學習都要好。

另外，還有這一一個問題：並非所有使用聊天機器人或提供反饋的人都是善意的。

因此，Meta開發了新的學習算法，旨在區分有用的反饋和有害的反饋。

在學習過程中，這些算法要麼會過濾掉無用的反饋，要麼會降低看起來可疑的反饋的權重。

與標準的訓練程序相比，這種考慮到用戶在整個對話中行為的方法，使BB3學會了信任一些用戶，從而更加改善了自己的學習過程。

Meta的實驗已經表明，與BB3模型互動的人越多，他從經驗中學到的就越多。隨着時間的推移，它會變得越來越好。

模型

BB3是一個模塊化系統，但各模塊不是獨立的組件–這是通過訓練一個轉化器模型來執行各模塊來實現的，輸入語境中的特殊控制代碼告訴模型它正在執行哪個模塊。

輸入語境通常包含對話歷史（有時會被截斷，這取決於模塊），每個說話人都有自己的ID，以便區分他們。

此外，這些模塊是連續調用的，並以先前模塊的結果作為條件。

在處理最新的對話時，BB3模型要做的第一件事就是確定是否需要搜索，以及長期記憶的訪問。

如果需要搜索，就會生成一個搜索查詢，調用互聯網搜索，然後根據檢索到的文件生成一個知識響應。

如果需要長期記憶，則會對長期記憶進行訪問，並選擇（生成）一個記憶。這也被附加到上下文（以控制標記為前綴），作為生成最終對話響應的模塊的輸入。

如果既不需要搜索也不需要訪問長期記憶，則從歷史中提取一個實體，並將其附加到上下文中（以控制標記為前綴）。

最後，鑒於前面模塊所構建的上下文，調用對話響應生成模塊，從而得到用戶看到的回復。

訓練

預訓練

BB3有三種規模。30億參數版本是一個基於公開的R2C2預訓練的編碼器-解碼器Transformer模型。300億和1750億版本使用僅有解碼器的開放式預訓練模型OPT。

這兩個變體都是用類似的數據進行預訓練的。R2C2使用RoBERTa+cc100en數據，包括大約1000億個token，將RoBERTa中使用的語料庫與CC100語料庫的英語子集相結合。此外，它還使用了Pushshift.io Reddit，一個Reddit討論的變體。

OPT也使用RoBERTa、PushShift.io Reddit和The Pile。以及大小為51200的GPT2字典，用於分詞。OPT的最終預訓練語料庫大約包含1800億個token。

微調

Meta使用了一些基於對話的微調任務，從而使模型在每個模塊中都有良好的表現，並在對話中表現出色。

總的來說，除了為對話安全設計的任務外，Meta還使用了大量公開可用的任務，這些任務涵蓋了QA、開放領域、以知識為基礎的和以任務為導向的對話。

對於所有的模塊，都附加了特殊的控制標記來表示任務。

不同數據集在訓練每個模塊時的作用

在的安全問題方面，Meta除了用SaFeRDialogues（SD）任務對模型本身進行多任務訓練外，還設計了在模型之上的各種安全機制。

也就是用維基百科有毒評論數據集（WTC）、Build-It Break-It Fix-It（BBF）和Bot Adversarial Dialogue數據集（BAD）來訓練一個單獨的二元分類器（安全或不安全），並以對話背景作為輸入。

而在機器人最終回復用戶之前，也會調用安全系統進行相關檢查。其中，Meta還針對部分敏感主題做一些預設的回復。

如果預測到一個潛在的不安全的用戶響應，系統就會命令轉移話題，從而防止機器人掉進“坑”里。

結果

從結果來看，與BlenderBot 2相比，BlenderBot 3在對話任務上的總體評分提高了31%。其中，知識面拓展到了前者的2倍，事實錯誤則減少了47%。

儘管如此，BB3仍有很多地方需要改進。

例如，1.1%的用戶將回答標記為不正確或無意義，1.2%的用戶標記為偏離主題或忽視主題，0.12%的用戶標記為“垃圾”，0.46%的用戶標記為有其他問題。此外，還有0.16%的回答被標記為粗魯或不恰當的。

然而，要把差距縮小到理想的0.00%，既需要用戶層面的個性化，也需要在安全性和參與性之間取得平衡。

目前來說，Meta的處理方式是——當機器人發現一個話題過於敏感時，它就會試圖“顧左右而言他”。

lecun 機器人老闆

赞 (0)

群英薈萃：《指環王：力量之戒》角色特輯發布

上一篇 2022-08-08 14:36

美國參議院通過史上最大氣候法案全球吹響新能源“衝鋒號”

下一篇 2022-08-08 14:36

熱點資訊

COVID-19死亡病例的肺部屍檢揭示了病毒如何傳播和破壞組織

根據一項新研究，對COVID-19死亡病例的肺部解剖和血漿樣本為SARS-CoV-2病毒如何傳播和損害肺部組織提供了一個更清晰的畫面。美國國立衛生研究院的科學家和他們的合作者表示，…

2021-11-26
熱點資訊

Intel遊戲顯卡中文名“銳炫”：明年初問世

Intel宣布，全新高性能顯卡品牌定為“Intel Arc”，首款產品是基於Xe HPG微架構的“Alchemist”(鍊金術師/DG2)，支持硬件光追、AI超級採樣、DX12U，…

2021-08-17
熱點資訊

美國網紅斥530萬美元購得珍貴寶可夢卡申請最貴吉尼斯紀錄

美國頂級網紅油管主播Logan Paul之前就曾經花費巨資購買到假冒寶可夢卡引發話題熱議，近日再出驚人之舉，斥530萬美元巨資購得珍貴寶可夢卡，還表示將發行NFT，同時已經申請世界…

2022-07-20
熱點資訊

粉絲自製虛幻5《刺客信條：無限》實機演示

國外愛好者TeaserPlay之前曾分享過《寂靜嶺》的虛幻5自製視頻。現在TeaserPlay又放出了使用虛幻5引擎製作的《刺客信條：無限》自製實機視頻。《刺客信條：無限》是下一款…

2022-06-05
熱點資訊

日本研究機構：若東京奧運停辦損失將達1.8萬億日元

據日本共同社報道，日本國內研究機構估算數據顯示，如果東京奧運會和殘奧會停止舉辦，預計經濟損失規模將達到 1.8 萬億日元(約合人民幣 1061 億元)。據了解，這一數字是基於去年 …

2021-05-26
熱點資訊

福特計劃到2023年每年生產60萬輛EV，2026年將超200萬輛

當地時間周四，福特表示其已經獲得了材料合同，它在全球的EV年產量在2023年底將達到60萬輛左右，到2026年，年產量則將超過200萬輛。福特引用了EY的一項研究，其稱在未來兩年內…

2022-07-22
熱點資訊

5G元年已過兩年半用戶仍不願意升級的幾大理由

即便距離被稱為“5G元年”的2019年已經過去了2年半之久，仍有大量的%ignore_a_1%用戶沒有將自己的手機套餐升級為5G套餐。根據鏑數聚所調查的數據，用戶仍不願意升級5G的…

2021-08-24
熱點資訊

全球最宜居城市排行榜出爐莫斯科下降15名

據法新社6月23日報道，根據當天公布的排名，繼2018年和2019年之後，維也納重歸全球最宜居城市排行榜榜首。報道稱，在這項由經濟學人智庫進行的指數研究中，奧地利首都取代了新西蘭的…

2022-06-24
熱點資訊

婚姻登記跨省通辦6月起試點推行可網上預約

今天是520，很多情侶都會選擇這一天領證結婚，以求美好寓意。對於很多打算領證的年輕人來說，有一個好消息不得不提——婚姻登記“跨省通辦”試點將於6月1日實施，在試點地區，內地居民辦理…

2021-05-20
熱點資訊

21歲女孩長時間關燈玩手機視網膜脫落引發白內障

近日，廣東深圳，一名21歲女孩小江因高度近視且長期在黑暗中玩手機，導致視網膜脫離，引發白內障。據了解，女孩學習之餘的最大愛好就是打電子遊戲，上大學后常常躲在被窩裡通宵達旦地玩。三年…

2021-10-12