Google公布文本-圖像AI模型Imagen：比DALL-E 2更好

人工智能(AI)世界仍在考慮如何處理DALL-E 2中令人驚嘆的能力展示，即繪製/繪畫/想象幾乎任何東西的能力……但OpenAI並不是唯一在研究類似東西的人。Google研究部已經公布了它一直在研究的類似模型–並且它稱這個模型甚至更好。

Imagen是一個基於文本到圖像擴散的生成器，建立在大型轉化器語言模型上。

文本-圖像模型接受文本輸入如“一隻騎自行車的狗”併產生相應的圖像，這種工作已經做了多年，但最近在質量和可及性方面有了巨大的飛躍。

其中一部分是使用擴散技術，基本上是從一個純噪音圖像開始，然後慢慢地一點一點地完善它，直到模型認為它不能使它看起來比它已經做的更像一隻騎自行車的狗。這是對從上到下的生成器的改進，這些生成器在第一次猜測時可能會出現搞笑的錯誤，而其他生成器則很容易被引入歧途。

另一部分是通過使用變換器方法的大型語言模型來改善語言理解，但它和其他一些最近的進展已經帶來了令人信服的語言模型如GPT-3和其他。

Imagen首先生成一個小的（64×64像素）圖像，然後對其進行兩次“超分辨率”處理，進而使其達到1024×1024。但這並不像普通的升格，通過以原始圖像為基礎，AI的超級分辨率創造出跟小圖像和諧的新細節。

說話上面的騎着自行車的狗，在第一張圖片中，狗的眼睛只有3個像素寬。但在第二張圖片中，它的寬度是12像素。這需要的細節從何而來？–AI知道狗的眼睛是什麼樣子的，所以它在繪製時產生了更多的細節。然後，當再次繪製眼睛時，這種情況又發生了，但寬度為48像素。像許多藝術家一樣，它從相當於一張粗略的草圖開始，然後在研究中把它填滿並在最後的畫布上實施。

這並不是沒有先例，事實上，使用AI模型的藝術家已經在使用這種技術來創作比AI一次就能處理的作品大得多的作品。如果把一塊畫布分成幾塊，然後分別對它們進行超分辨率處理，最終會得到更大、更複雜的東西，並且甚至可以重複這樣做。

Google的研究人員稱Imagen的進步覆蓋幾個方面。他們稱，現有的文本模型可用於文本編碼部分，其質量比單純提高視覺保真度更重要。這在直覺上是有道理的，因為一張詳細的胡言亂語的圖片肯定比一張稍微不詳細的圖片更糟糕。

如在描述Imagen的論文中，他們比較了它跟DALL-E 2做“一隻熊貓在做拿鐵藝術”的結果。在後者的所有圖像中，展示的都是熊貓的拿鐵藝術；而在Imagen的大部分圖像中，都是熊貓在做（拿鐵）藝術。

在Google的測試中，Imagen在人類評價的測試中領先，無論是準確性還是保真度。雖然這是相當主觀的，但其甚至可以跟DALL-E2的感知質量相匹配，直到今天還被認為是領先於其他一切的巨大飛躍，這是相當了不起的。

不過OpenAI在幾個方面比Google領先一兩步。DALL-E 2不僅僅是一篇研究論文，它還是一個私人測試版，人們在使用它，就像他們使用其前身和GPT-2和3一樣。而具有諷刺意味的是，這家名字中帶有“開放(open)”的公司一直專註於將其文本到圖像的研究產品化，而這家利潤豐厚的互聯網巨頭卻還沒有嘗試。

這一點從DALL-E 2的研究人員所做的選擇中可以看出，他們提前策劃了訓練數據集並刪除了任何可能違反他們自己指導方針的內容。該模型即使想做NSFW的東西也做不出來。然而，Google的團隊使用了一些已知包括不適當材料的大型數據集。在Imagen網站上描述 “局限性和社會影響”的有見地的部分，研究人員寫道：

“文本-圖像模型的下游應用是多種多樣的，並可能以複雜的方式影響社會。濫用的潛在風險引起了人們對負責任地開放代碼和演示的關注。目前，我們已經決定不發布代碼或公開演示。

文本-圖像模型的數據要求導致研究人員在很大程度上依賴於大型的、大多未經整理的、網絡收集的數據集。雖然這種方法在最近幾年使算法迅速進步，但這種性質的數據集往往反映了社會定型觀念、壓迫性觀點及對邊緣化身份群體的貶損或其他有害的關聯。雖然我們的訓練數據的一個子集被過濾掉了噪音和不良內容如色情圖像和有毒語言，但我們也利用了LAION-400M數據集，該數據集已知包含廣泛的不當內容，其中包括色情圖像、種族主義口號和有害的社會成見。Imagen依賴於在未經整理的網絡規模數據上訓練的文本編碼器，並且繼承了大型語言模型的社會偏見和限制。因此，Imagen存在編碼有害的陳規定型觀念和表述的風險，這指導我們決定在沒有進一步保障措施的情況下不將Imagen發布給公眾使用。”

雖然有些人可能會對此嗤之以鼻，說Google擔心它的AI可能不夠政治正確，但這是一種不道德和短視的觀點。一個AI模型的好壞取決於它所訓練的數據，而不是每個團隊都能花時間和精力來刪除這些搜刮者在收集數百萬張圖片或數十億字的數據集時發現的真正可怕的東西。

這樣的偏見是為了在研究過程中顯示出來，這暴露了系統是如何工作的並為識別這些和其他限制提供了一個不受約束的測試場所。

雖然對許多人來說，解除系統性偏見是一個終身項目，但AI更容易，它的創造者可以先刪除導致其行為不端的內容。也許有一天會需要AI以50年代的種族主義、性別歧視專家的風格來寫作，但目前包括這些數據的好處還太小而風險還太大。

不管怎樣，Imagen和其他同類型技術一樣，明顯仍處於實驗階段，它也還沒有準備好以嚴格的人類監督方式之外的其他方式來使用。