谷歌Parti生成器依靠200億參數將文本轉成栩栩如生的圖像

谷歌周四介紹了 Parti 文本轉圖像生成器項目的最新進展,可知通過 200 億輸入的訓練,其已能夠創建出栩栩如生的圖像。不過為了避免 AI 數據集中存在的偏見風險,該公司並未通過公眾發布的文本來展開訓練。

Google Parti.jpg

(來自:Google Parti)

據悉,Parti 全稱為“Pathways Autoregressive Text-to-Image”(路徑自回歸文本轉圖像)。隨着可使用參數數量的增長,其輸出的圖像也能夠更加逼真。

本例中,Parti 在生成最終圖像之前,已經研究了 200 億量級的參數。相比之下,Imagen 是 Google 設計用於擴散學習的文本轉圖像生成器。

工作期間,它會通過向圖像添加“噪聲”來訓練計算機模型,讓它初步生成模糊的靜態圖像,然後模型會通過學習來嘗試解碼靜態圖像。

隨着模型的改進,系統可以將一系列隨機點,逐漸變成我們最終看到的栩栩如生的重新生成圖像。

最後,除了 Parti 和 Imagen,我們還有聽說過其它文本轉圖像模型 —— 比如 Dall-E、VQ-GAN+CLIP 和 Latent Diffusion Models 。