深度丨當生成式 AI 被持續優化提供人類“獎勵”其產生的答案時，該如何破譯其“隱藏思想”

撰文：Ian Scheffler

來源：Freethink

編譯：巴比特

深度丨當生成式 AI 被持續優化提供人類“獎勵”其產生的答案時，該如何破譯其“隱藏思想”

圖片來源：由無界 AI工具生成

兩千多年前，當柏拉圖設想理想社會時，他選擇驅逐詩人。“所有詩意的模仿都是毀滅性的，”他在《理想國》中寫道。

柏拉圖心目中的“模仿性”詩歌，在很大程度上是指講故事 — 一種試圖對我們周圍的世界做出令人信服的摹本語言。柏拉圖寫道：“所有這些詩意的個體，從荷馬開始，都只是模仿者；他們複製美德之類的形象，但他們永遠無法觸及真理。”

對柏拉圖來說，荷馬的《伊利亞特》能夠讓我們憧憬特洛伊戰爭的場景並使我們相信它們的真實性，與其說是一種藝術成就，不如說是一種威脅。他認為，玩弄我們情感的強大虛構，會使我們誤入歧途，或者，更糟糕的是，使我們相信一個虛假的現實，並根據虛構的東西衝動行事。

當然，所有社會都有講故事的人，從西非的格里特人到當代的 TikTokers。但從來沒有一個講故事的人像 ChatGPT、DALL-E 以及近幾個月搶佔頭條的其他各種生成式人工智能工具那樣多產，或缺乏道德直覺。

正如柏拉圖可能被迫承認的那樣 — 畢竟他自己的作品採取了虛構對話的形式 — 藝術模仿往往是吸引觀眾注意力所必需的，但隨着生成式人工智能將這種模仿的成本降低到幾乎為零，曾經困擾柏拉圖的哲學問題已經進入了政策領域。

這種工具是否應該被監管，甚至被禁止，就像在紐約市的公立學校一樣？鑒於這些模型背後的大部分研究都是現成的，你可以在 YouTube 上用不到兩個小時的時間建立 GPT（ChatGPT 的前身之一），那麼有效的監管是否可能？

也許最重要的是，隨着大型語言模型 — 當今最先進的人工智能的技術基礎 — 越來越強大，未來會發生什麼？目前，我們仍然可以訓練大型語言模型的行為，但必須有大量的人工干預，就像 OpenAI 在肯尼亞僱用了幾十個承包商來手動訓練 ChatGPT，以避免其最不適當的輸出。

大型語言模型的不完善之處顯而易見（而且每當你打開 ChatGPT、新的 Bing 或谷歌的 Bard AI 時，都會有彈出式的提示）：這些模型不斷地編造信息，導致它們產生一些被比喻為幻覺的內容，而且容易反映出其訓練數據中的偏見。

但是，如果有一天 ChatGPT 和 Bing AI 等工具的捏造和錯誤不再是無意的呢？如果這些可以令人信服地生成幾乎任何風格的圖像、文本和音頻的工具主動欺騙我們，該怎麼辦？

黑匣子的內部

“想象一下，一隻猩猩試圖建立一個只追求猩猩價值的人類級別的智能，”德克薩斯大學奧斯汀分校的計算機科學家 Scott Aaronson 說。“這個想法聽起來很荒唐。”

在過去的一年裡，Aaronson 從 UT 休假，並在 ChatGPT 和 DALL-E 的製造商 OpenAI 工作，負責人工智能安全。他說：“與我交談過的人工智能安全研究中的每一個人都認為，有一件事很重要”，那就是可解釋性——讓人類觀察者能夠理解人工智能認知的‘黑匣子’。”

對人類來說，可解釋性是一門不精確的科學。“我們對人類大腦內部的觀察能力非常有限且粗糙，”Aaronson 說，“（但）至少對哪些區域是活躍的有一些了解——比如哪些區域燃燒更多的葡萄糖。”

但是大型語言模型的思維——如果你可以把多維向量空間稱為思維的話——是不同的。“我們可以完全訪問這些系統的代碼，”Aaronson 說。“唯一的問題是你如何理解它。”

透過模式看問題

十幾歲的時候，Collin Burns 就已經很喜歡思考了。他在費城郊區長大，十幾歲時就在賓夕法尼亞大學學習大學水平的數學課程。他還花了幾個小時來解決魔方問題。

他沒有記住獨特情況下的複雜算法，而是非常、非常緩慢地扭動魔方。矛盾的是，這種方法使他變得非常、非常快。Burns 對下一次扭動后可能發生的情況形成了直覺。2015 年，他打破了世界紀錄，僅用 5.25 秒就解決了三階魔方難題。

疫情期間，Burns 在加州大學伯克利分校攻讀計算機科學博士學位，他在研究中採用了類似的方法。隨着時間的推移，他產生了一種強烈的直覺：閱讀大型語言模型的思想是可能的。

在 Burns 看來，人類的思維和大型語言模型的思維在一個突出的方面並沒有什麼不同：相關的信息聚集在一起，使你能夠搜索到模式和結構。

例如，如果你要求一個人依次考慮真實和虛假的陳述，並監測他們的大腦活動，不同的區域可能會亮起。同樣，Burns 意識到，在作為大型語言模型思維的“向量空間”中，“突出的特徵往往被很好地分開”– 這意味着，從本質上講，類似的信息會聚在一起。

像 Netflix 和 Etsy 這樣的公司可能會利用這些向量空間的結構來進行推薦。如果你的個人資料（以“矢量”的形式存儲，代表該服務收集的關於你的數據）恰好與另一個用戶的個人資料很接近，那麼 Netflix 可能會使用該功能向你推薦類似用戶也喜歡的電影，而 Etsy 則會推薦一種類似的產品。

Burns 想知道，同樣的屬性是否也可以用來迫使大型語言模型說出真相。如果該模型“將事物分類為真或假，”伯恩斯假設，該信息“可能會聚集在一起 — 就像，你可以想象，你可以在兩個維度上進行可視化，擁有兩個雲狀的點。”

通常，當你查詢像 ChatGPT 這樣的模型時，你只能看到模型認知過程的第一步和最後一步。你輸入的內容會進入模型的“輸入層”，就像你閱讀這些文字時進入你眼睛的信息。

在模型的答案到達“輸出層”並出現在你的屏幕上之前，反應要經過幾十個“隱藏層”，這些層接收來自上一層的輸出，並將其輸出發送到下一層 — 類似於你大腦中的神經元。隨着每一個連續的層，輸出被轉化，在理論上接近你查詢的和模型訓練數據之間的最佳匹配。

來源：Annelisa Leinbach

當然，就像一個知道正確答案的孩子，但告訴你他們認為你想聽的內容一樣，輸出層並不總是產生最準確的內容 — 相反，模型被優化為提供人類“獎勵”它產生的東西，要麼是通過字面上對模型的輸出進行向上或向下評級，要麼是簡單地編程讓模型預測類似人類的文本，這些文本可能是真實的，也可能不是真實的。

Burns 想知道，如果你從模型的隱藏層中提取答案，而不是根據模型的最終輸出，會發生什麼。

最終的結果可能看起來很相似 — 來自聊天機器人的文本回應 — 但如果模型包含了真實的信息集群，那麼你是否可以通過閱讀模型在中間層的“想法”，而不是聽它最終產生的結果來更容易地獲取信息？

關於“真理”的數學

最初，Burns 編寫了一個算法，在這個未標記的向量海洋中搜索信息集群。但事實證明，這就像在大海里用針釣魚一樣。Burns 想，也許他可以用一種更有針對性的方式進行搜索。“直覺上，我認為，真理確實有這種特殊的性質——即否定的一致性。”

真理語句的最基本屬性之一，如二加二等於四，就是反面為假。這是計算機可以理解的原則，即使它沒有真理的概念：“如果 X 是真的，”正如 Burns 所說，“那麼 not-X 是假的。”

幸運的是，否定一致性在數學中是相對簡單的表示。Burns 說：“如果一件事既可以是真也可以是假，那麼如果你賦予它一定的概率為真，你就應該賦予它一個減去這個概率為假的概率。”

換句話說，一個真實的陳述和它的否定形式的概率加起來應該是 1。現在 Burns 有了要尋找的東西，即滿足這些標準的群組。“我有這種直覺，在向量空間中應該有這種類型的幾何，”Burns 回憶說。“所以也許我們可以直接搜索它。”

“如果模型中有任何其他的集群，”他補充說，“它可能會對應於一些隨機的東西 — 比如，這個輸入的情緒是積極的還是消極的？這肯定不能滿足否定的一致性。但真相應該是這樣。”

隱藏的知識

把這個想法變成現實花了 Burns 幾個月的時間。他說：“你真的需要把很多細節搞清楚，”“才能看到比隨機更好的東西。但是，如果你確實得到了正確的細節，那麼它可以工作得非常好。”

2022 年 12 月，Burns 和三位合著者 — 北京大學的學生 Haotian Ye，以及 Burns 在加州大學伯克利分校的導師 Dan Klein 和雅 Jacob Steinhardt– 發表了一篇題為“在沒有監督的情況下發現語言模型中的潛在知識”的論文，該論文將於 2023 年 5 月在該領域的一個主要集會上發表。

他們在一系列數據上測試了他們的方法 — 他們稱之為“對比一致搜索”，即 CCS（Contrast-Consistent Search）– 他們發現 Burns 的直覺基本上是正確的。在相對較高的準確率下，CCS 能夠在不查看模型輸出的情況下成功地回答是或否的問題。

“此外，”作者寫道，“我們嘗試故意促使模型做出不正確的輸出，這在直覺上應該會改變模型的說法，但這不應該影響它們的潛在知識。”

這些誤導性的輸入 — 給模型一系列有錯誤或無意義的答案的問題 — 確實引導了模型的錯誤，在一個案例中，模型在後續問題上的準確性降低了高達 9.5%。但這些干擾並不影響 CCS 的準確性，CCS 依賴於隱藏在模型中間層的“潛在知識”。

作者總結說：“我們的研究結果為發現語言模型知道什麼，而不是它們說什麼提供了第一步。”– 不管模型的輸入事先是否被標記為真或假。

你想要一份工作嗎？

Burns 在推特上分享這篇論文和附帶的代碼后，引發了學術計算機科學界的熱烈關注。

“非常有尊嚴的工作！”AI 安全和研究的主要批評者 Elizier Yudkowsky 寫道。

“在沒有監督的情況下發現語言模型中的潛在知識，這讓我大吃一驚，”Meta 機器學習工程師 Zack Witten 寫道。“基本想法很簡單，但卻很精彩”。

而在 OpenAI 休假的德克薩斯大學奧斯汀分校教授 Aaronson 將這篇論文描述為“令人驚嘆的”。

麻省理工學院的教授 Jacob Andreas 感慨道“希望我可以引用這篇論文”。據悉，Andreas 剛剛發表了一篇論文，探索了語言模型在多大程度上反映了人類交流者的內部動機。

此外，OpenAI 的對齊負責人 Jan Leike（主要負責指導像 GPT-4 這樣的新模型來幫助而不是傷害人類的進步）也對這篇論文作出回應，即向 Burns 提供一份工作，但 Burns 最初拒絕了，而後 OpenAI 的聯合創始人兼首席執行官 Sam Altman 的個人呼籲改變了他的想法。

“Colin 關於‘在沒有監督的情況下發現語言模型中的潛在知識’的工作是一種新穎的方法，可以確定語言模型對世界的真實看法，”Leike 說。“他的工作令人興奮的地方在於，它可以在人類自己都不知道什麼是真的情況下工作，所以它可以應用於比人類更聰明的系統。”

缺陷與挑戰

正如作者自己所承認的，CCS 也有缺點 — 即它依賴於將自己組織成真實和虛假信息集群的向量的存在。

“這就要求一個模型既能評估給定輸入的真實性，”他們寫道，“也要求模型主動評估該輸入的真實性。”

顯然，一些模型和數據集 –Burns 和他的合著者使用了半打模型和近十種數據集（從 IMDB 評論到短篇小說集）測試 CCS– 符合這些標準，而其他的則不符合。

“目前還不清楚這些條件在什麼時候準確地成立，”他們補充道，指的是利用這些工具帶來的神秘感，研究人員仍在研究這些工具的內部工作原理。

此外，依賴從互聯網上學習的模型也是一個挑戰，互聯網上充滿了自信的假話和真相。

“你可以說，在某種意義上，網絡所代表的並不是‘現實的真相’，”Aaronson 指出，“而只是訓練數據中被視為真實的東西。”

或者，正如麻省理工學院的博士后 Anna Ivanova 所說：互聯網上的真相是通過共識達成的，至少就語言模型而言是這樣。例如，如果你看一下網上的所有文件，大多數會把貓歸類為哺乳動物——所以一個模型很可能正確地學習到貓是哺乳動物，因為這是模型最常看到的。

“但當涉及到更多有爭議的話題或陰謀論時，”她說，“當然會有不同的陳述”，而且比例要高得多，這使得語言模型更有可能鸚鵡學舌地模仿謊言。

不過，正如 Aaronson 後來推測的那樣，CCS– 或類似的一些方法 — 可能會被證明有助於打擊錯誤信息的增加，而錯誤信息的增加必然會伴隨着越來越強大的語言模型而出現。Aaronson 指出，像 ChatGPT 這樣的工具，本質上是即興藝術家：“他們在玩一種不同於關於現實的真理或謬誤的遊戲。”

Burns 和他的合著者沒有檢測人工智能主動謊言的能力，因為研究人員還沒有為這種情況開發出標準化的測試。他們寫道：“如果未來的工作開發出這樣的設置，一個好的壓力測試將是應用 CCS 在這種設置下進行‘測謊’。”

Aaronson 設想，在這種情況下，如果你向 ChatGPT 詢問一個問題，你的查詢可能同時探測模型的內部環境來尋找答案，當答案與模型的輸出不一致時，就會彈出一個窗口：“警告，我們的內部測謊儀已經觸發了警報！”

對 Burns 來說，CCS– 以及更普遍的“對齊”研究 — 解決我們尚未遇到的問題的潛力是重點。“我認為未來模型的能力被低估了，”他說。“如果我們有更先進的人工智能系統，我們怎麼能相信他們所說的呢？”

本文鏈接：https://www.8btc.com/article/6811640

轉載請註明文章出處