Generative AI: 詳解AIGC賽道的市場趨勢和創投機遇

本文作者為硅谷Leonis Capital風險投資基金Jenny Xiao(肖文泉)和Jay Zhao
編譯：Leonis Capital，本文轉自36氪
原文鏈接：https://www.leoniscap.com/blog/generative-ai-technological-trends-and-startup-opportunities

圖片來源：由無界版圖AI工具生成

市場現狀

從 Stable Diffusion 到 ChatGPT，AIGC模型已經成為硅谷的聚光燈焦點。當web3和加密貨幣行業寒冬降臨，風投資本爭先恐後湧入AI賽道。人工智能技術的近幾年的突飛猛進讓AI算法可以在幾秒之內編寫腳本，甚至生成藝術作品。在深受估值暴跌、大廠裁員和web3寒冬打擊的科技領域，AIGC賽道成為了罕見的例外。（2020 年AI還沒有那麼熱的時候，我們在Leonis Capital就很看好AI。事實上，這個賽道從本質上並沒有變。從長遠來看，我們將AI和web3的去中心化協議都視為“超級周期技術”“supercycle technologies”。我們在即將發表的下一篇文章中將更詳細地闡述這一論點，並解釋這些基礎技術如何為人類社會創造新的方式來生產、控制、存儲和驗證數據，從而在未來幾十年影響我們的社會。）

但AIGC（生成式AI）究竟是什麼？AIGC的大熱又為創業者和投資人提供了什麼樣的機會？

在社交媒體上隨處可見這種AI生成的自拍。圖像來源：MIT科技評論

生成式AI應用是由大規模預訓練模型（又稱“foundation model”，大模型）的技術突破驅動的。這些模型與上一代 AI 模型的不同之處在於它們的參數量更大、在廣泛的任務（例如文本和圖像生成）上表現更好，並且擁有新的性能，例如視頻生成。了解這種底層技術對於理解這個領域初創公司的成敗至關重要。

在這篇文章中，我們想帶領大家了解AIGC賽道的現狀，包括該領域的應用app、落地案例和初創企業。我們還想給大家介紹一下大模型的技術基礎，以便了解這項技術的商業化潛力。最後，我們會評估我們認為在這個快速發展的領域中被高估或者忽視的機會。

AIGC的市場現狀

帶星號（*）的是Leonis Capital投資的企業

自從GPT-3 API在2020年9月公開以來，AIGC初創公司呈爆炸式增長，AIGC應用涵蓋文案編輯、營銷和知識檢索等眾多領域。 Stable Diffusion（2022年4月）、DALLE-2（2022年4月）和 Midjourney（2022年7月）等圖像生成模型的發布進一步推動了視覺設計和圖像創作領域初創公司和應用程序的發展。（我們這裡提供了他們的演示鏈接，大家有興趣可以自己試一下！）

DeepMind開源其AlphaFold模型的決定也使蛋白質摺疊技術能為更多公司所用。很多科學家利用蛋白質設計技術建立生物醫學初創公司。其中，生物技術初創公司Generate Biomedicines發布了一個名為 Chroma 的AI程序，並稱其為“生物學界的 DALLE-2”。

當前的AIGC的創業環境是由大模型的民主化驅動的。大模型API的公布和模型的開源使得資源有限的初創公司能用上最尖端的AI生成技術。但這也讓這些公司之間產生了激烈的競爭，因為其他的開發公司可以使用相同的底層模型。即使是這個領域相對成熟的公司也不享有重要的技術、產品或數據護城河。在AIGC賽道上，不論公司大小都需要不斷創新以跟上新模型的發布。

基礎層的權力集中也成為了應用層初創公司的痛點。這也就是為什麼很多應用層公司都想開發自己的模型。例如，Jasper.ai已經在Cerebras超算電腦上訓練自己的模型，從而減少對OpenAI模型的依賴。自己訓練模型也讓應用層的公司可以更好地針對特定場景對模型進行微調，並且自己保留模型生成的數據。

與此同時，更通用的AI模型可能會超越以前垂直領域的應用模型。OpenAI最近大火的ChatGPT（也稱GPT 3.5）八成要比營銷領域的專用模型，比如 Lavendar.ai 或 Smartwriter.ai，功能更加強大。目前很多垂直領域的模型都是在GPT-3的基礎上微調構建的。大模型革命的一個關鍵趨勢就是，新模型通常比專用模型表現得更好。應用層的初創公司可能會在使用更強大的通用模型和構建自己的垂直模型之間進行迭代。

基礎層的通用模型與應用層的垂直模型之間應該會保持一種緊張但健康的競爭關係。因為文本生成AI是研究最成熟和投資體量最大的領域，這種競爭形式會是最激烈的，市場變化也會是最快的。

在視頻、音頻和代碼生成等其他領域，雖然現在還沒有現成的開源或基於API的模型，但初創公司已經設法使用與GPT-3和Stable Diffusion類似的架構來訓練自己的 AI 模型。視頻生成公司 Rephrase.ai構建了一個專有的AI模型，可以將文本映射到語音和圖像，使營銷團隊能夠輕鬆創建超個性化的廣告視頻。

在 Leonis Capital，我們相信AIGC將顛覆現有內容生產模式，這種顛覆將從文本生成輻射到其他的媒體形式。至於初創公司如何打破既有公司的護城河在AIGC領域發光，我們覺得仍有待觀察。

讓AIGC領域這麼卷的另外一個因素就是，這個技術幾乎在起飛之後就已成為市場共識。通常，技術革命進展很緩慢，因為大多數人一開始都持懷疑態度。個人電腦和智能手機的發展就是很好的例子。但就在GPT-3發布的兩年多以來，風投資本對AIGC的投資增長了 400% 以上。今年達到了驚人的 21 億美元。

生成式AI風險投資情況，來源：PitchBook

這可能是因為AIGC超高的ROI創造出了很多新的（偽）市場類別。（說這些市場是“偽新市場”的原因是，AI程序、公司解決的問題並不是新的問題，比如文案寫作、銷售、內容創建和編程。只不過，AIGC採用更有效的方式打入已有的市場，並且提供新型工具來拓展這個市場。）像 copy.ai 或 Jasper 這樣的公司正在通過軟件的可擴展性、可重複性和AI生成的低成本來助力文案寫作、營銷和銷售。同樣，Midjourney和Stable Diffusion正在加速媒體/藝術/娛樂創作的速度，而Mutable.ai和Github Co-pilot把程序員的生產力提高了一個數量級。這些類型的應用（其實很多都是炒作）是資本市場前所未有的。這也就是為什麼風投資本認定了AIGC是“下一個熱門賽道”。（有趣的是，隨着這些AIGC公司的產品進入主流媒體市場（AI自拍、視頻和聊天機器人），它們會引起更多的轟動和炒作，促使風投基金向這些領域投入更多資金。）

也正因如此，投資者在為市場的火爆買單。就在最近，Coatue和Lightspeed Ventures領投了 Stability.ai 1.01億美元的種子輪（！），給該公司開出了超過 10 億美元的超高估值。Stability.ai就是廣受歡迎的 Stable Diffusion 模型背後的公司，但這個估值是否合理還有待觀察。但事實是，Stability.ai在風投資本注入時只是一個開源程序。

值得一提的是，並非所有AIGC公司都使用最先進的生成式AI模型。因此，這些應用程序往往不如ChatGPT或者Stable Diffusion那麼驚艷。例如，動作捕捉的初創公司在技術上並沒有使用“生成人AI”，而許多視頻生成公司也沒有使用類似DALLE-2的擴散模型進行文本到視頻的生成。我們把這些公司納入我們的AIGC市場生態地圖中，是因為這些領域可能會被新模型顛覆。

然而，有趣的是，這些公司也可能從AIGC的大熱中受益，因為投資者經常把它們納入AIGC的範疇。但除非它們創新其基礎技術，否則不太可能在大模型的時代收穫技術革命創造的價值。

技術趨勢：局限性、對技術的誤解…生成式 AI 到底會有多好使？

在生成式 AI 的新興領域，底層技術決定了應用層可以做出哪些產品。

兩年前 GPT-3 的發布促成了一系列文本生成的初創公司，例如Jasper.ai 和 copy.ai。現在，圖像和代碼生成模型的發布為新的營銷、設計和編程應用程序奠定了基礎。繼AI頭像app Lensa.ai爆火之後，新一波初創公司正在構建AI圖像生成的應用程序。

但不同應用的底層技術到底有多好？接下來的這一部分，我們會給大家提供模型層的概述。

來源：紅杉資本，生成式AI：充滿創造力的新世界（2022）

文本模型是AIGC模型中最成熟的一類，也是最早開發的模型。與任何其他類型的AIGC模型相比，文本模型的數量更多，並且有更多可用的API和開源模型。除了OpenAI和DeepMind等知名實驗室外，不少創業公司也在為AI語言模型基礎設施層做貢獻，包括以色列的AI實驗室AI21和加拿大的初創公司Cohere。

我們在這裡把2018年以來發布的所有大型大型語言模型 (LLM) 做了一個可視化分析（模型很多！）。顯而易見，這些模型的參數量在以指數級的速度增長，算力和數據需求也越來越高。大模型的“縮放定律”（“scaling law”）預測模型能力將隨着模型參數規模的增加而提高。

文本模型可視化分析

在圖像生成領域，DALLE-2、Stable Diffusion和Midjourney這種大火的模型使圖像生成AI首次出圈。我們已經習慣了AI生成的驚艷的技術作品，比如DALLE-2經典的宇航員騎馬圖，還有Midjourney細緻入微的繪畫。

“一名騎馬的宇航員，寫實風格”。由 DALLE-2 生成

Jenn Mishra作品。由Midjourney生成

然而，我們在網上看到的精美圖像並不能代表所有AI生成的圖像。圖像生成AI模型仍然存在可控性問題，很多時候不會響應使用者的指令，或者會漏掉指令中的關鍵信息。這為更廣泛的商業應用造成了技術障礙。

我們可以用三個頂尖的AI圖像生成模型做一個有趣的小實驗。

每個指令生成的第一張圖像被選為示例。我們可以看到DALLE-2和Stable Diffusion 2.0生成的效果類似，對指令的響應能力也差不多。它們可以生成寫實的小貓還有西班牙畫家薩爾瓦多·達利風格的柯基犬。作為在專業的藝術數據集上訓練的小模型，Midjourney在創建藝術圖像方很厲害，但往往完全忽略語言指令。它生成的貓並不真實，生成的小柯基也不像是達利的畫風。並且三個模型沒有一個對“使用披薩大小的硬幣去買硬幣大小的披薩”做出很好的反應。這個指令正是要測試模型的語言理解能力。有兩個模型生成的人手手指看起來很奇怪。

DALLE-2、Stable Diffusion 2.0、Midjourney三個AI圖像生成模型產出的圖像對比

大模型在目前也很難生成高質量的視頻。AI模型生成的視頻真實感差、分辨率低。以下是Google的Imagen Video模型（2022年10月）生成的視頻圖像。在AI技術領域，這個模型的“高保真度、可控性和真實世界知識”被業界專家廣為稱讚。但不難看出，AIGC要生成好萊塢大片還為時尚早。

Google的Imagen Video模型（2022年10月）生成的視頻圖像

基於文本的視頻生成模型可能至少需要 2-3 年才能達到以假亂真的效果，而此類模型可能需要 3-5 年才能在商業應用上發揮作用。但在此之前，這些模型可能適用於對保真度和可控性要求較低的場景。

儘管 AI 研究社區普遍看好大模型，AI創業社區仍在爭論到底“更大”還是“更專”才是最佳出路。

一個典型的例子是OpenAI和Tabine在代碼生成領域發展思路的不同。OpenAI一如既往地選擇構建一個超大的通用模型Codex，成為了Github 代碼生成模型Copilot背後的功臣。然而Copilot的主要競爭對手Tabine採取了完全不同的方法，為30多種編程語言構建了一系列的專用模型。這兩種發展路徑孰強孰弱會對大模型的落地起到決定性的作用。

由於當前AI模型的局限性，低風險、快節奏的遊戲設計可能是一個理想的AIGC應用領域。在這個領域裡，速度和創新比模型的準確性和可靠性更重要。比如，AI合成的語音聽起來還是很有機器人的生硬感、真實性低，雖然尚不適合銷售等領域，但遊戲玩家應該不會介意，甚至會有點喜歡像機器人的NPC。此外，AI 生成的音樂還遠遠不及Spotify上的熱門歌曲，但可能成為絕佳的遊戲背景音樂。因為製作遊戲的視覺效果和音樂非常昂貴，AIGC的出現提供了一種極大降低遊戲製作成本的解決方案。

除了遊戲製作之外，當前一代的 AI 模型非常適合重複性高但報酬高的任務，以及人類可以在產出循環中及時糾偏的任務。編程、營銷和視頻編輯都是AI可以很好地協助人類專家完成的任務，讓他們能夠更快、更好地進行原創產出。

AIGC：泡沫還是機遇？

在研究了之前由GPT-3驅動的一波AI熱和當前的AIGC格局之後，我們認為有些AIGC領域肯定被炒作過頭了，但也有被低估和忽視的機遇。以下是我們對這個新興領域市場機會的一些拙見：

被高估的領域

特別卷的領域 – 還是別卷了。

到目前為止，已經有超過20家公司在做AI文編和營銷，市場競爭異常激烈。使初創公司集中在這一領域的原因是GPT-3和類似語言模型的特定能力。當這些模型在兩年前發布時，它們已經非常擅長修改草稿，但由於技術水平不夠，寫不出很多原創內容或者有意義的對話。所以毫不奇怪，那個時候成立的初創公司都去卷營銷和銷售領域了。

在一些擁擠的領域，早入場的公司可能有很強的先發優勢。（這就是為什麼頂級的VC基金，比如紅杉資本，相信會有產品在垂直領域持續領先。）早期玩家可以用用戶的數據來調試模型並且進一步改善用戶體驗。這也使新玩家很難打入市場，使後期投資更難以取得巨大成功。不過，新模型的發布可能會為新公司提供進入市場的機會。

過度承諾的 AI 產品。

一個驚艷的AIGC模型發布時，總能在硅谷引起巨大的轟動和興奮。 DALLE-2和Stable Diffusion讓投資人開始討論AIGC什麼時候可以取代導演和人類演員，而ChatGPT的首次亮相又製造出了很多AGI（通用人工智能）出現或者ChatGPT取代Google的謠言。這種興奮使資本湧入雄心勃勃但往往過度承諾的項目，只可惜技術不到位，產品達不到預期的效果。

這個問題在自動駕駛、法律和醫藥等高風險、監管嚴格的領域尤其嚴重。自動駕駛技術其實已經非常成熟，但由於監管限制仍未得到充分利用。最後 5%，甚至 0.001% 的性能提升對於 AI 模型來說總是最難實現的。這就是FedEx放棄其“最後一英里送貨機器人”的原因 – 99%AI送貨省下來的錢根本彌補不了1%的錯誤帶來的損失。

拿着鎚子找釘子。

過於關注AI技術而忽視客戶和市場規模的AIGC產品，本質上就是鎚子找釘子。它們一開始看起來很酷，但隨着類似產品的出現或消費者習慣了這種AI模型，它們很快就會失去吸引力。

一個典型的例子是AI Dungeon，一個最早基於GPT-3構建的應用程序之一。AI Dungeon在2020年7月大火，主要原因是它是普通用戶使用GPT-3的唯一途徑。但自 2021 年年中以來，該應用在 Google 商店的評分從之前的4.8高分直線下跌至2.6以下，原因是用戶對其內容審核機制感到不滿。此後，很多AI Dungeon的用戶紛紛遷移到了類似的、但無審查機制的平台上，例如由 GPT-Neo支持的AI故事生成軟件NovelAI。

沒有產品的開源項目。

投資者往往會高估複製AI模型的困難程度。雖然Stable Diffusion是目前使用最廣的圖像生成AI模型之一，其訓練成本僅為60萬美元左右。這個價格區間意味着普通公司完全有能力訓練自己的AI大模型。隨着越來越多的學術人員開始研發大模型，AIGC領域的人才基礎也逐漸豐富。這也意味着像Stability.aii這樣的底層模型初創公司可能並沒有什麼護城河。

事實上，一年多以前，一個叫做Eleuther.ai的獨立研究團體訓練並開源了語言模型GPT-J和GPT-Neo，兩個性能和較小版本的GPT-3（Ada、Babbage 和 Curie ）類似的模型。與 Stability.ai不同的是，Eleuther.ai團隊沒有大肆宣傳，因此沒有引起投資者的太多關注。

被低估的機遇

基於現有產品的AI工具。

不可否認，風險投資人都喜歡新的創業公司和新的應用程序。這可能就是為什麼知名公司開發的AI工具很少受到關注。在硅谷對ChatGPT驚嘆不已的同時，Notion的新AI寫作助手受到的關注要少得多。然而，Notion.ai很有可能會成為AI寫作創業公司的強勁競爭對手。Notion的內置AI文本編輯器會比獨立的app程序更加方便使用。成為既有產品的插件對於創業公司來說也是個很好的切入市場的方式。

在技術到來之前先建立起業務。

一個新的創業策略是先建立公司，然後等待更強的AI模型的發布。事實上，許多AIGC公司在其底層模型發布之前就已經成立了。Lensa.ai在2018年的時候作為一個照片編輯工具成立，但在2022年4月Stable Diffusion發布的時候迅速採用了該模型。AI Dungeon於2019年推出，最初使用 GPT-2，然後轉用更強大的GPT-3。創業者可以先在相關領域構建公司，然後再採用AIGC模型。投資人可以預測AI技術的發展方向，並且成為先行者。（Uber的投資者就是在預測到了打車軟件的興起才投資了Uber。）

小眾的垂類產品。

在做行研的時候，我們很快就發現有些領域人滿為患，而另外一些垂直應用領域卻被創投社區給忽視了。例如，教育是一個很明顯可以用到AIGC模型的領域。兒童教育和外語教育並不需要非常強大的AI模型。GPT-3 的寫作能力遠遠超過了兒童和外語學習者，Minerva（Google 2022 年 6 月發布）的推理和數學能力又遠遠超過普通兒童。

話雖如此，對於創始人來說，意識到市場潛力也很重要，特別是自己的公司是否能獲得風險投資。當然，藉助人工智能技術，創業者不論有沒有風險投資的支持，都有機會創造出改變世界的產品。

送給創始人的三個建議

首先，恭喜你讀到這裡。到這裡，我們希望這篇文章已經讓你了解了AIGC的現狀、市場參與者、底層技術/AI模型、未來的趨勢還有當前AIGC的局限性和投資人對技術的誤解。

但這一切對於創始人來說又意味着什麼？

1. MVP、PMF、GTM……創業的基本邏輯沒有變。

儘管 AI 的表現十分驚艷，但是創始人應該抵制兩種極端的行為：在產品做出來之前過度承諾，或者在真正了解市場之前過度構建產品。

人工智能是一種新的編程方式。它是一個創業者用來開發新產品、解決社會問題的強大工具。創始人要有勇氣去無視媒體上乃至資本市場里的喧囂，而去關注特定的用戶的特殊應用場景。

AI主導型公司的MVP（最簡化可實行產品）可能與上一代軟件公司不同，但隨着基礎設施層和AI 模型的不斷成熟、收益逐漸增加，AI會逐漸滲透到我們日常生活中的很多產品之中。到時候，AI技術會變得更加“隱形”，就像今天的互聯網、雲計算和移動通訊技術一樣。

也正如其他的底層技術，AI作為一種工具，可以為我們構建下一代的軟件產品。

2. 產品的擴張。

鑒於AI模型基礎設施層面的“開放性”，初創公司在進入市場時要深思熟慮。有可能的話還要想辦法和大廠達成合作夥伴關係。的確，在擁擠的垂直領域，例如文本生成類產品，要判斷AI產出的質量是個主觀的問題，所以一種觀點認為，產品市場的擴張、進入市場的策略還有產品品牌的效應更加重要。這個說法是有一定的道理的。但是產品擴張、銷售是AI企業起步的手段，而並非維持生意的方式。這也正好帶我們來到了最後一點。