訓練人工智能的中國縣城工人

作者 | 林石

原創首發 | 藍字計劃

全世界都在談論 ChatGPT 將帶來顛覆性的技術革命，但人工智能訓練師李傑卻一點也激動不起來。

為了完成單價 4 分錢的計件工作，李傑和幾十個人坐在一間擺設如同初代網吧的屋子裡，每天對着電腦划拉鼠標幾千次。

他的職責是為訓練人工智能模型準備“飼料”，將大量的文字、語音、圖像打上標記——“眼珠”、“四川話”、“綠化帶”。只有被標註過的數據，才能被人工智能模型識別，訓練出它的分辨能力。

李傑做得最多的是道路圖片標註，亦即給道路圖片上的物體標註好名稱、顏色等詳細信息，業內俗稱“拉框”。

效率高的時候，他一天可以拉 2000-3000 個框，按照一個框 4 分錢計算，他一個月能賺三千塊左右。對於職校畢業、身在西北縣城的青年來說，這份收入還過得去。

| 一家數據標註工廠

同樣的場景也出現在非洲的肯尼亞。該國首都內羅畢有 30 多名工人，成為了 ChatGPT 的數據標註員，他們每天工作 9 個小時，閱讀 150-200 段文字，並標註出其中包含性、暴力與仇恨言論的內容。由於每天閱讀大量極具衝擊力的文字，有人會因為一段描寫而做上一周噩夢。

這些工人能獲得每小時 1.32 美元的稅後收入，如果完成既定的任務，時薪可以上升至 1.44 美元，並有大約 70 美元的獎金，相當於一個月掙 2500 元—3000 元人民幣，比當地一般藍領工作強些。

在人工智能產品捲起巨浪的時候，從肯尼亞、烏干達再到印度、中國，水下還有一群不被看見的“人工智能訓練師”，在簡陋的工作環境下，以最簡單的技能，與最前沿的技術產生了聯繫。

伺候人工智能

李傑對人工智能的理解，是手機上的智能語音助手，“就好像蘋果的 Siri”。

他在職校念電子商務，同學大多去了電商公司當客服，他時常聽到同學對工作的抱怨。相較之下，數據標註的工作枯燥，卻也純粹，他只需要按部就班地完成任務、“可以在辦公室吹空調，也沒什麼難度，就是有點費眼睛”。

| 給汽車進行“拉框”，一張圖片就要重複數次類似操作

在 2021 年版的《人工智能訓練師國家職業技能標準》中，對該職業的能力特徵描述是“具有一定的學習能力、表達能力、計算能力；空間感、色覺正常”，普遍受教育程度寫的是“初中畢業”。言外之意，這是一份幾乎零門檻的職業。

年過 50 歲的郭梅，原本在山西當地的煤礦上班，“抬頭是山，低頭是煤”。離開煤礦之後，她長時間找不到工作，最後成為數據標註基地中的一名員工，每天要拉兩千個以上的框。“我從來沒有想過自己會和無人駕駛、人工智能有關係。”

| 正在給汽車拉框的數據標註員

除了“拉框”，李傑也會接到語音標註的項目，通常是甲方採集到的不同地域、不同人群的語音，李傑必須戴上耳麥，仔細地辨認出每一個聲音的含義。

一天下來，他要聽來自幾百個陌生人在不同場景下的發言，可能是伴隨着車流聲、喇叭聲的中年男人在馬路上大聲質問，可能是講着廣東普通話的阿姨對着麥克風發出指令，有時候，他甚至會聽到髒話。

這些聲音被李傑一一轉錄成準確的文字，有時還需要打上說話人的性別、情緒等更細分的標籤，最後教會人工智能模型理解人類的語言，用於智能客服、智能音箱、地圖導航等產品中。

人工智能的三大基石是數據、算力與算法，數量越多質量越高的數據，往往越能夠訓練出更“聰明”的模型。

人工智能的主流方向是深度學習。在過去，由人來告訴機器，貓身上都有哪些特徵，機器根據這些特徵判斷一個物體是不是貓；深度學習則是通過“餵養”大量不同貓的圖片，機器就能自行歸納出貓的特徵。這就需要大量經人工標註的圖片，俗話說，有多少智能，就得付出多少人工。

數據標註領域有過一個神話——ImageNet 項目。這個項目數據庫擁有超過 1400 萬張已被標註的圖片，其中識別出的物體種類超過 20000 種——包括 120 個不同品種的狗。

| ImageNet 圖片集中有 1400 多萬張標註圖片，其中超 100 萬張帶有邊框

項目源於斯坦福大學的人工智能專家李飛飛。2009 年，業內普遍研究方向都是模型與算法，她另尋蹊徑，改進數據質量。如今，ImageNet 已經是世界上最大的圖像識別數據庫，被用於成千上萬個人工智能研究項目和實驗。

而在 ImageNet 項目背後，是來自 167 個國家的 5 萬名數據標註員，他們足足花了三年時間才完成了全部圖片的標註。

李傑算是圖片標註的老手了，通常發給他的數據包內通常會有數百張不等的道路拍攝照片，李傑需要按照項目方的要求，對道路上的車輛、行人、綠化帶等物體標註。另外還有一種常見的標註任務，則是標註道路的車道線。

這種數據標註要求特別多，“框框不能超過也不能小於，更不能漏點，一出錯誤驗收不合格就得重新拉”。這些數據的最大流向是用於自動駕駛的機器學習，要確保駕駛安全，通常需要提供數以百萬計的標註數據對人工智能加以訓練——背後則是無數在電腦前點擊鼠標、敲擊鍵盤的李傑們。

互聯網版富士康

貴陽，大數據之城。

在距離貴陽市中心約 50 公里的惠水縣百鳥河數字小鎮，有一家擁有超過 500 名數據標註員的公司夢動科技——其中的一半人，是附近盛華職業學院的學生。

大三學生鄭成安在夢動科技實習，公司里的全職員工只有十來個人，管理層也是學校里的老師，“上課就是上班，老師就是經理”。

| 位於百鳥河數字小鎮的盛華職業學院

他很熱愛這份工作，數據標註給了他生活多一種選擇。他在上高職之前甚至沒碰過電腦，現在卻可以憑藉一份電腦前的兼職，一個月能拿到 1500 元以上的收入。

鄭成安所在的惠水縣，在貴陽 88 個縣區中經濟水平排在中游，2020 年時的 GDP 為 139.16 億元，農村常住居民人均可支配收入 12924 元——相當於每月 1000 元出頭。

有時候為了多掙一些生活費，碰上緊急的項目，鄭成安會主動加班。他清楚地知道，標註員的工作很難一直做下去，他暗自下定目標，要成為管理標註員的人。

像貴陽這樣的城市，中國不止一個。

數據標註產業的誕生最早可以追溯到 2005 年。當時，著名計算機視覺專家、人工智能專家朱純松從美國回到了故鄉湖北鄂州，創辦了蓮花山研究院，籌建據稱是當時世界上最早的大數據標註團隊。

在深度學習成為人工智能主流之後，日益增長的互聯網大數據成為了人工智能的最好養分。

據數據公司 IDC 統計，全球每年生產的數據量將從 2016 年的 16.1 ZB 猛增至 2025 年的 163 ZB，其中 80%-90% 都是原始數據數據。這些在經過清洗和標註后，變成標準化格式數據，才能被人工智能所理解。

作為勞動密集型產業，數據標註企業更多地選在三四線城市落地，地方政府無論是為了扶貧或是搭上互聯網的順風車，都能與互聯網公司們一拍即合。

2018 年，位於太原的山西轉型綜合改革示範區就與百度達成合作，打造了號稱“全國範圍內人員和產值規模最大的單體數據標註基地”，基地佔地面積超 1 萬平米，已經引進了至少 35 家數據標註公司，超過 2000 名數據標註員。

| 百度山西數據標註基地

在新疆和田，有 4000 人在當地的數字經濟產業園從事數據標註工作，和田地區更是拋出了“數據標註產業之都”和 10 萬人數據標註就業基地的目標。

在河南，數百家數據標註公司從無到有；在濟南，山東第一個數據標註基地，已經容納了 1500 名“人工智能訓練師”；在新三板上市的數據堂，也在保定、合肥，分別建立了容納數百名數據標註員同時工作的基地。

而數據標註員身上的標籤是“互聯網民工”、“賽博流水線”。而對於絕大多數身在其中的人而言，一個互聯網版的富士康，已經是當下不可多得的選擇。

“教會徒弟，餓死師傅”

當數據標註成為“風口”，淘金者也隨之而來。

2017 年，周華偶然在朋友口中得知，做數據標註能賺錢，剛剛創業失敗的他，決定再賭一把。

他算過一筆賬，一名數據標註員一個月的產值能到 7000 元，除掉 3000 元的工資和質檢、場地設備等費用，還能賺 1500 元。“如果招 100 個人，一個月就賺 15 萬元。”

他找來合作夥伴，採購電腦、確定場地，又迅速地招聘了一批沒有學歷、工作經驗要求的數據標註員，緊鑼密鼓地接單。

| 正在工作的數據標註員

此時的數據標註產業，趕上人工智能創業潮。根據前瞻產業研究院統計，數據標註公司從 2014 年開始不斷增加，並在 2017 年達到高峰，當年數據標註相關融資事件達到 9 起，到 2021 年 4 月，已經有有 18 家公司獲得融資，投融資事件 39 起。

數據標註行業有三種不同的公司，一種是大型互聯網公司內部的數據標註部門，處理公司內部的數據；一種是像數據堂這類有自己基地的數據標註公司，他們有獨立承接訂單的能力，甚至外包給第三方；數量最多的則是以工作室形態存在的小公司，他們通常只能在眾包平台上接單，或者第三方中介公司轉過來的層層分包的訂單——在平台上，他們或被稱為“公會”、“團隊”。

周華的工作室便屬於最後一種，當時主要依賴百度眾測的平台訂單，平台上會分發各類任務，在行業內稱為“放題”，包括數據採集、圖片標註、文本標註等。據百度眾測的數據，平台上有 2500 萬的註冊用戶。

但百度眾測上的單並不是都能到周華的手裡。有時候他必須主動承接一些二手乃至三手的訂單，那些掌握渠道的公司則可以賺取差價。

同樣和他一樣撞上風口的，還有當時還是創業公司的星塵數據。

星塵數據的創始人章磊，在華爾街、硅谷工作 10 年，曾在投資平台 CircleUp 擔任資深數據科學家。2017 年回國時，他本想繼續在投資領域創業，嘗試打造一個投研機器人——通過對大量公司年報、招股書等金融文檔的學習，輔助投資人決策。當時國內的數據標註往往往往只能機械化地完成客戶需求，這種“新穎”的數據標註要求，業內難以實現。章磊卻看到了機會。

他創辦的星塵數據，號稱為客戶量身打造數據標註方案。這家位於北京三里屯的公司，早在 2018 年 1 月就完成 1000 萬元人民幣的 Pre-A 輪融資，最新在去年 8 月又完成了 5000 萬人民幣的 A 輪融資，如今更多是做“數據標註平台”的生意——他們會去競標大公司給出的數據標註訂單，再分包給類似一些小型的“數據工廠“，周華是他們的其中一個合作夥伴。

2005 年成立的海天瑞聲，在此次生成式人工智能風潮中更是“賺麻了”。這家在業內以語音數據標註著稱的公司，21 年在科創板成功上市，今年一月以來，股價從每股 60 元左右暴漲到了每股超過 200 元。