深度丨AIGC,浪潮兇猛

來源:21世紀經濟報道

見習記者李強

深度丨AIGC,浪潮兇猛

圖片來源:由無界版圖AI工具生成

AIGC(用AI技術自動生成內容)的應用競賽,正在將AI重新帶到聚光燈下。

12月1日,美國科技企業OpenAI發布了聊天機器人ChatGPT,開啟免費公測。

好奇的人們提出各種千奇百怪的問題,觀察ChatGPT的反應,比如詢問學術問題、寫請假條/散文/rap、檢查和修改代碼BUG甚至誘騙ChatGPT規劃如何“毀滅”世界。

ChatGPT的表現可以用驚艷來形容。一方面,ChatGPT給出的結果準確性極大提升,在絕大部分知識領域,ChatGPT都能夠給出專業性的回答,無效回答很少。比如被問到哥倫布2015年來到美國的情景時,ChatGPT會直接表示哥倫布不屬於這一時代,並且ChatGPT的道德約束性也表現良好,能夠主動辨別不適合的話題並予以迴避,甚至做正向引導。

另一方面,ChatGPT在與用戶的交流中展現出很強的理解能力:ChatGPT在寫“命題作文”時,用戶可以隨時打斷,並要求ChatGPT按照用戶意圖進行續寫;當用戶故意使用缺乏前後文的代碼片段“刁難”,讓ChatGPT指出為何程序無法正常運行時,ChatGPT會表示,在用戶不提供代碼具體功能以及更多代碼內容的情況下無法回答問題。

前所未有的人機交互體驗,讓用戶們情不自禁地曬出與ChatGPT的對話,分享自己的奇妙體驗與震撼感,技術的魅力也讓ChatGPT的話題猶如病毒般蔓延。

5天後,OpenAI CEO Sam Altman發文表示,ChatGPT用戶達到100萬。

在用戶端熱火朝天的“開發”中,ChatGPT另一面的不足也迅速暴露。比如,ChatGPT“一本正經”的回答中也會存在知識性錯誤,這些更隱蔽、更具迷惑性的錯誤,讓ChatGPT顯得“有趣”又危險。

ChatGPT走紅后,程序員版“知乎”Stack Overflow很快宣布暫時禁止用戶分享ChatGPT生成的回復,原因是大量用戶嘗試用ChatGPT回答用戶在平台上提出的問題,而這些快速生成的大量內容,很多第一眼看上去正確,但如果具備專業知識,稍加檢查就能發現其中存在錯誤,這對於尋求正確答案的小白來說是致命的。

不過,更多的業內觀點認為是瑕不掩瑜,並將ChatGPT視作AIGC發展中的重要里程碑。國盛證券在研報中指出,這些問題來自訓練過程和數據集的局限性,隨着進一步強化訓練,完善模型質量,未來迭代值得期待。

“儘管ChatGPT確實有一些糟糕表現,比如在面對簡單計算題時,ChatGPT卻給出小作文式的求導過程以及錯誤的結果,但這不能因此否定ChatGPT,因為這些本來也不是ChatGPT要乾的活,ChatGPT的主要任務在於讓機器理解人類語言。”古典互聯網投資人、內容行業觀察者庄明浩對21世紀經濟報道記者表示。

七十年前,“人工智能之父”圖靈在《電腦能思考嗎?》中提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備人一樣的智能,這個經典的圖靈測試如同北斗星,指引着AI行業的工作者們不斷前進。

今天,ChatGPT展現出的極具迷惑性的表達能力,讓這個曾經遙不可及的未來似乎正變得模糊可見。

AI需要新敘事

1985年,IBM開始了象棋超級計算機“深藍”的研發。1997年,深藍終於戰勝國際象棋冠軍卡斯帕羅夫,轟動一時,不過深藍並沒有在之後激起更大的漣漪。

原因在於,深藍的技術思路是通過在系統中整合象棋遊戲中的規則和經驗,來模擬人類專家從而進行邏輯推理和判斷:深藍輸入了一百多年來優秀棋手的兩百多萬場對局,來戰勝卡斯帕羅夫。

深藍的這種技術思路被稱作專家系統,讓AI開始能夠解決一些“知識處理”等方面的實際問題,不過,這種被稱作專家系統的方法弊端很明顯,深藍會下象棋,但也只會下象棋,技術拓展性很差,適用的領域也非常狹窄,更新迭代和維護成本非常高,這讓專家系統在短暫點燃市場熱情之後又迅速降溫。

同時期,另一個思路也被提出來:借鑒生物神經系統,創建人工神經網絡,儘管後來被證明是極具潛力的,但在當時的條件下,走這條路線的AI顯得既不聰明(算法效果差),也不努力(算力低下),而且連基本的學習資料(大數據)都沒有。見不到效果,神經網絡的思路也很快被棄用。

於是,上世紀八十年代中期,專家系統與神經網絡掀起的第二次AI浪潮很快進入寒冬。

2006年,Google的首席AI科學家傑弗里·辛頓(Geoffrey Hinton)第一次提出深度學習的概念,帶領AI行業重新回到神經網絡的思路上,同時算法、算力以及大數據不斷跟進,逐漸鬆綁的神經網絡開始發揮其威力,由此掀起第三次AI浪潮並延續至今。

CMC資本董事總經理易然對21世紀經濟報道記者解釋道,機器學習最開始主要完成回歸、分類、推薦、排序等以“相似性”為核心的數據類應用,在內容和商品推薦、廣告算法等應用效果非常好,從2014年、2015年開始,各種深度學習的框架得到廣泛應用,以視覺語音識別、NLP(自然語言處理)等為代表的感知類應用的大發展,並且深入到了廣大的科技類公司的業務中。

以計算機視覺為例,這也是AI技術商業化落地進程最快的賽道。2014年,曠視科技成為支付寶“刷臉支付”的技術提供商,雲從科技幫海通證券做遠程開戶的身份認證系統,依圖科技憑藉“蜻蜓眼系統”幫助公安部門加強安防;2015年,商湯科技利用人臉識別幫助中國移動完成3億人手機實名制,這一輪技術爆發中的獨立創業公司代表“AI四小龍”就此完成起家。

不過,單憑技術的應用,AI行業似乎還缺乏一些聲量。

2016年,AI炫技再一次拿棋手祭刀,AlphaGo擊敗圍棋世界冠軍李世石,讓全世界都去琢磨AI的未來。從這一年開始,各大企業爭相布局,初創獨角獸湧現,資本熱錢迅速流入,掀起這次AI浪潮中的最大浪頭。

據《2021年人工智能行業發展藍皮書》統計,過去9年AI領域IPO前的股權投資行為,共發生2048起,投資金額達4800億元,投資的高峰期集中在2015年至2018年。

但大多數創業公司的AI應用,遲遲走不出研發環節,業績虧損、估值虛高的經營狀況看不到改善機會,資本開始退潮。藍皮書顯示,2018年全國單筆平均融資投資額為4.1億元,2019年下降到1.6億元。

2020年,創新工場創始人李開復在公開場合表示,不否認過去許多AI公司割了投資人的韭菜,但是有三個AI專家就能估值7億,靠AI概念忽悠投資人的時代已經過去了。

即使作為從獨立創業公司中走出來的佼佼者,“AI四小龍”也得不得面對凜然的寒氣。

一方面,阿里、騰訊等大廠紛紛自行開發人臉識別技術,海康威視、大華等硬件公司也先後開始布局圖像識別領域,主要的應用賽道捲成紅海;另一方面,AI落地主要以to B/G的模式為主,AI公司做的更多是定製化外包的工作,投入高卻難以復用,整體經營狀況不容樂觀。

“以‘AI四小龍’做的計算機視覺為代表的這一代AI技術,主要是基於現有數據進行分析和判斷,如今這個方向可以說已經做到極致,卷不動了,AI必須得找一些新的方向,就像如今的AIGC,雖然AI的創作方式並沒有太大的改變,但確確實實往前邁了一步。”庄明浩對21世紀經濟報道記者表示。

用百度CEO李彥宏的話說就是,人工智能正在從理解內容走向生成內容。

大力出奇迹

話題回到ChatGPT,為何它現在能實現如此革命性的變化?

首先應該說明的是,ChatGPT屬於AI技術分支中的自然語言處理,同機器視覺並列,機器視覺解決的是讓機器看懂圖像中內容,自然語言處理負責讓機器理解文字。

我們畫畫的時候,第一步先圈一些線條或與方塊,確定哪裡畫手,哪裡畫胳膊,然後在這個基礎上畫出骨骼線條,最後補充畫面細節,這一切完了之後,可能還需要進行光影、色彩等方面的調整。

深度神經網絡借鑒了同樣的思路,“深度”的含義就是逐層遞進,從泛化規律到具體要求,在這個過程中,由於大多數的層級和具體任務的關係不大,就意味着大量基礎的訓練工作可以復用。

也就是說,我們可以先訓練一個基於通用邏輯的“半成品”,比如訓練出一個掌握所有線條規律的AI,這個過程稱作“預訓練”,得到的模型被稱為“大模型”,然後繪畫、修圖、設計領域的工作者們再按照自己的具體要求,進行更進一步的訓練,得到一個解決具體問題的最終產品。

由於文字特徵比圖像特徵更加抽象,所以我們更早地看到人臉識別、圖像識別、文字識別這些機器視覺領域的應用遍地開花。

2017年12月,谷歌在頂級機器學習會議NIPS上發表了論文《Attention is all you need》,至今仍然影響巨大的Transformer問世,Transformer解決的就是的文字特徵提取問題,關鍵的卡殼問題解決,接下來就顯得自然而然。

2015年12月,特斯拉CEO馬斯克和Sam Altman等人創立OpenAI,2017年,OpenAI發布其首個生成人類文本的語言處理模型——GPT-1,GPT全稱是“Generative Pre-Training”,即“生成式預訓練”。

2018年,馬斯克離開了OpenAI,OpenAI的解釋是迴避因特斯拉工作而可能造成的利益衝突。2019年,OpenAI拿到了微軟的10億美元投資,對它來說,還有很重要的一點,微軟手裡有AI所需要的一切:算力與大數據。

之後便是“大力出奇迹”,從GPT-1到GPT-3,模型的參數量從1.17億增加到1750億,預訓練數據量從5GB增加到45TB,效果也非常顯著,GPT-3可以根據簡單的命令式寫文章,寫菜譜,甚至作曲,堪稱目前為止最強大的通用語言模型,不過OpenAI並沒有選擇開源,這也讓GPT-3沒能享受到太大的破圈效應。

2021年,OpenAI又基於GPT-3發布了文字轉圖片模型DALL E,可以直接通過文字生成圖片,比如輸入“一把牛油果造型的扶手椅”,DALL E就能通過圖像合成出一系列的目標圖像,雖然功能強大,但OpenAI仍然選擇不開源。

ChatGPT是在GPT-3的基礎上做了微調,通過加強人類反饋的方式,提升記憶能力,使ChatGPT可以儲存對話信息,延續上下文,從而實現連續對話,從而優化對話能力,這極大地提升了用戶體驗。

“我們很早也判斷,AI跟人的交互過程,不應該僅僅是完成任務,更重要的是在這個過程中,讓AI根據人的反饋去學習,我們今天看到ChatGPT在預訓練的基礎上讓AI根據人的反饋去細化學習也正是如此。”清華大學惠妍講席教授、IEEE/CAAI Fellow周伯文對21世紀經濟報道記者表示,而在實際使用中,雖然ChatGPT有時會給出錯誤答案,但在用戶反饋后,這些錯誤很快得到了糾正。

如果說每波技術浪潮的興起,總是需要一些熱點性事件做開場,ChatGPT一定榜上有名。

這次的主題,就是AIGC。

AIGC元年

在ChatGPT之前,AI繪畫就已經開始嶄露頭角。

今年8月,美國科羅拉多州舉辦的新興數字藝術家競賽中,一位沒有繪畫基礎的參賽者提交AIGC繪畫作品《太空歌劇院》,獲得了比賽“數字藝術/數字修飾照片”類別一等獎。

“機器才剛剛開始善於創造有意義和美麗的東西。”紅杉在今年9月的一篇文章中表示,正如十年前移動互聯網被一些殺手級應用打開了市場,如今的AIGC也站在這樣的節點,比賽已經開始了。

易然也對記者表示,這一次技術的進步使得AI延伸到了生成類任務,如同上一波的感知技術,這次AIGC同樣會帶來一系列新的應用方向,出現諸多創業公司,同時也會加強不少成熟的科技和產業公司的能力。

事實上,早在2020年GPT-3發布以後,巨頭間便開始了競賽。2021年穀歌發布了萬億級模型Switch Transformer,微軟和英偉達也推出了包含5300億個參數的自然語言生成模型,而在國內,華為、百度以及阿里等也先後推出了自己的預訓練大模型。

“這一波技術的進步是從谷歌等公司開始掀起,因為需要花費極大的算力和研發成本投入,最初時在模型這一層只有最大的幾個科技公司投入得起,國內大廠以及很多企業其實也在跟進投入,在預訓練大模型上也取得了相當不錯的成果,尤其在中文相關場景。”易然對21世紀經濟報道記者表示。

11月25日,據媒體報道,在最新的中文語言理解領域權威榜單CLUE中,阿里AI以86.685的總分成績創造了新紀錄,成為該榜單誕生近三年以來,AI首次超越人類成績——AI的中文語言理解水平超過人類,未來或許值得期待。

開源無疑是AIGC踹開實驗室大門,走向市場的最後一腳。今年5月,Meta開源了與GPT-3類似的通用語言大模型OPT;8月,Stability AI開源了文字轉圖片模型Stable Diffusion,並引發了AI繪畫應用在全球範圍內的爆炸式增長。
AIGC的爆火也在重新點燃資本市場對AI行業的熱情。

今年10月,主打文字生成的AIGC公司Jasper.ai宣布完成1.25億美元的A輪融資,估值達到15億美元。幾乎同一時間,Stability AI宣布獲得1.01億美元融資,估值已達10億美元。Stability AI表示,所籌資金將用於開發圖像、語言、視頻、音頻和3D等多模態開源模型。此外,這筆資金還將用於吸納更多的人才,預計明年公司員工將從100人增加到約300人。

“像Open AI、Stability AI這些公司技術投入不弱於海外大廠,而且他們較早進行產品化並建立開放生態,過去一年多催化了一系列的行業應用和創業公司。目前話題性最強、傳播最廣的幾個應用Dall E、ChatGPT、Stable Diffusion也是屬於這兩家公司的產品。這一點國內確實在短時間內還有所不及,無論從應用的開發到資本市場關注度上也都要稍晚一些。”易然對21世紀經濟報道記者表示。

但實際深入到應用落地和創業公司上,易然認為差異並沒那麼大,“很多國內的早期公司已經在快速應用生成式AI/AIGC的能力,我們看到和客戶需求結合得還是比較緊密的,目前預訓練大模型領域的開源生態建設的也很好,中國創業公司也能夠較好的用上海內外大廠的技術。”

“說白了,有了方向之後,很多事情就變簡單了,中國公司更擅長商業模式上的創新,未來在應用層國內應該會出現比較多有意思的東西。”庄明浩告訴21世紀經濟報道記者。

AIGC的顛覆能力

ChatGPT引發最多的討論無疑是對於內容產業的顛覆。

“生成式AI目前和未來都將主要是輔助性的工具,內容創作者和創意工作者們沒有必要談虎色變,擔心創作方式跟不上時代甚至徹底丟了飯碗。”易然表示。

例如在美術領域,人力成本以往是遊戲製作的一大門檻。生成式AI的廣泛應用,能夠使項目策劃立項階段降低負擔,同時也能夠賦能更多的小工作室和中長尾遊戲的出現,或者普遍提高其在美術、內容豐富度方面的水平。

“我的朋友是一家遊戲公司的老闆,原來設計人物或者場景,他首先要講清楚自己想要的效果,美術根據理解去畫,畫出來之後再反覆調整,這個過程費時費力且枯燥。當AI繪圖出現,並且在分辨率、筆觸、結構、光影效果等多個維度都可以達到'可用'的標準之後,老闆和美術只需要跟AI講清自己想要的效果,然後在AI跑出來的成百上千副作品中,挑選或再加工出滿意的那個,時間成本得到大幅降低,這個過程中美術人員沒有被取代,只是他們要學習如何使用AI,讓自己的工作變得更有效率。”庄明浩告訴21世紀經濟報道記者。

在庄明浩看來,內容領域最後所呈現的東西是偏主觀的,甚至帶有一定情緒化的藝術表達,並且在這個層次的表達,AI短期內沒法實現。

2022年6月,AI輔助編程工具GitHub Copilot結束內測,正式外開放,開發人員使用GitHub Copilot實現AIcoding以及代碼補全,比現有的其他代碼輔助軟件更加智能,可以實現全文理解,對文檔、註釋、函數名稱,代碼都可以智能化的進行上下文合成匹配,而根據官方統計,過去一年中GitHub Copilot已經積累了120萬用戶。

文字生成領域也已經出現了一批商業公司,如 Jasper.ai、Copy.ai開發的機器自動寫作平台,用戶輸入關鍵字、AI 只需幾分鐘就能寫成一篇邏輯與表達不輸人類的長文。此前Narrative Science創始人曾預測,到2030年,90%以上的新聞將由機器人完成。不過由於GPT-3未對中國大陸開放接口,國內相關企業難以使用,文字生成的相關應用暫未在國內興起。

“現在我們還沒辦法讓AI直接寫一本長篇小說或者完成一部電影,或者製作一個完整的遊戲,但它已經可以寫新聞、繪製圖片甚至短視頻,基於圖片生成3D模型,再給AI一些時間,或許那些遙不可及的場景就會變得觸手可及。”庄明浩說道。

“計算機科技領域已經很久沒有在應用端出現技術帶來的繁榮了,短期大家比較興奮,是可以理解的,不妨讓子彈再飛一會兒。”易然表示。

(作者:李強 編輯:林曦)

本文鏈接:https://www.8btc.com/article/6792976

轉載請註明文章出處

(0)
上一篇 2023-03-22 10:19
下一篇 2023-03-22 10:19

相关推荐