結合視覺和語言或是開發更有能力的AI的關鍵

根據你所認同的智能理論，實現“人類水平”的AI將需要一個能利用多種模式–如聲音、視覺和文本–來推理世界的系統。比如當顯示一張在下雪的高速公路上一輛翻倒的卡車和一輛警察巡邏車的圖像時，人類水平的AI可能會推斷出危險的道路狀況導致了一場事故。

或者當運行了AI系統的機器人被要求從冰箱里拿一罐蘇打水時，它們會繞過人、傢具和寵物取出罐子並把它放在請求者可及的地方。

雖然現在的AI技術還不夠。但新研究表現出了令人鼓舞的進步跡象，從能找出滿足基本命令的步驟的機器人到能從解釋中學習的文本生成系統。在Techcrunch日前恢復的《Deep Science》中，他們將每周都會介紹AI和更廣泛的科學領域的最新發展，他們將介紹DeepMind、Google和OpenAI的工作–這些工作正朝着系統能夠以令人印象深刻的穩健性解決諸如生成圖像的狹窄任務的方向邁進。

AI研究實驗室OpenAI的DALL-E改進版–DALL-E 2很容易成為AI研究實驗室深處出現的最令人矚目的項目。TechCrunch記者指出，雖然最初的DALL-E展示了創造圖像以匹配幾乎任何提示的非凡能力，但DALL-E 2在這方面更進一步。它產生的圖像更加詳細，且它還可以智能地替換掉圖像中的特定區域–比如將一張桌子插入充滿適當反射的大理石地板的照片中。

雖然DALL-E 2本周受到了大部分的關注，但在周四，Google的研究人員在GoogleAI博客上所介紹的一個視覺理解系統同樣令人深刻。據悉，這個系統被稱為視覺驅動的文字轉語音（Visually-Driven Prosody for Text-to-Speech，簡稱VDTTS）。VDTTS可以生成聽起來很真實的唇語，除了文字和說話的人的視頻幀之外，沒有其他東西。

VDTTS生成的語音雖然不是錄製的對話的完美替代品，但表現相當好，它具有令人信服的人類表達能力和時間。Google認為有一天它可以在演播室中使用，從而取代可能在嘈雜條件下錄製的原始音頻。

所幸的是，由Alphabet支持的AI實驗室DeepMind也在探索解決這一問題的技術。在一項新研究中，DeepMind的研究人員研究了AI語言系統–它們學會從許多現有文本的例子中生成文本–是否可以從對這些文本的解釋中獲益。在對幾十個語言任務進行註釋后並評估了不同系統在這些任務上的表現，DeepMind團隊發現，例子確實提高了系統的表現。

DeepMind的方法如果在學術界獲得通過，那麼有朝一日將可以應用到機器人技術中、形成機器人的構件並在無需一步步指示的情況下理解模糊的請求。儘管存在很大的局限性，但Google新的Do As I Can, Not As I Say項目還是讓人們看到了這個未來。

作為Google的機器人技術和Alphabet的X實驗室的日常機器人技術團隊之間的合作，“Do As I Can, Not As I Say”項目旨在為AI語言系統提供條件以便為機器人提出可行的且適合環境的行動。機器人充當語言系統的“手和眼睛”，而系統則提供關於任務的高級語義知識–理論上，語言系統編碼了大量對機器人有用的知識。