自動駕駛汽車為何不需要雷達？特斯拉首席AI科學家這樣解釋

對於全自動駕駛汽車需要哪些技術堆棧支持，不同企業和研究人員對這個問題有着不同的答案。事實上，實現自動駕駛的方法不一而足，有的只需要攝像頭和計算機視覺系統，有的則需要計算機視覺與先進傳感器相結合。其中，特斯拉始終是純視覺自動駕駛技術的倡導者，在今年的計算機視覺和模式識別(CVPR)大會上，該公司首席AI科學家安德烈·卡帕西（Andrej Karpathy）解釋了原因。

過去幾年，卡帕西始終負責領導特斯拉的自動駕駛系統研發工作。在2021年CVPR自動駕駛研討會上，卡帕西詳細介紹了該公司是如何開發深度學習系統的，該系統只需要視頻輸入就可以了解汽車周圍的環境。同時，卡帕西還解釋了為何特斯拉最有可能幫助基於視覺的自動駕駛成為現實的原因。

通用計算機視覺系統

深度神經網絡是自動駕駛技術堆棧的主要組成部分之一，它主要對車載攝像頭所拍攝視頻中的道路、標誌、汽車、障礙物和行人進行分析。不過，深度學習在檢測圖像中的目標時也會出錯。為此，包括Alphabet子公司Waymo在內的大多數自動駕駛汽車公司，都使用激光雷達。這種設備通過向各個方向發射激光束，生成汽車周圍的3D地圖。激光雷達提供了更多的信息，可以填補神經網絡留下的空白。

然而，在自動駕駛堆棧中加入激光雷達也有其複雜之處。卡帕西說：“你必須用激光雷達預先測繪環境地圖，然後藉此創建高清地圖，你必須插入所有的車道，搞清楚它們如何連接，以及了解所有的交通燈。在測試階段，你只需要依據地圖駕車四處移動。”與此同時，要為自動駕駛汽車將要行駛的每個地點創建精確的地圖是極其困難的。卡帕西表示：“收集、構建和維護這些高清激光雷達地圖是不可擴展的。要保持基礎設施的持續更新也極其困難。”

特斯拉的自動駕駛汽車沒有使用激光雷達和高清地圖。卡帕西稱：“根據汽車周圍8個攝像頭拍攝的視頻，所有發生的事情都是第一次發生在車裡。”

自動駕駛技術必須弄清楚車道在哪裡，交通燈在哪裡，它們所處狀態如何，以及哪些與車輛相關。而且它必須在沒有任何預先確定的道路導航信息的情況下完成所有這些工作。卡帕西承認，基於視覺的自動駕駛方法在技術上更難實現，因為它需要僅靠視頻反饋就能運轉良好的神經網絡。但他稱：“一旦這種系統投入使用，它就會成為通用計算機視覺系統，可以部署在地球上的任何地方。”

有了通用計算機視覺系統，汽車將不再需要其他輔助駕駛功能。卡帕西表示，特斯拉已經在朝這個方向發展。此前，該公司使用雷達和攝像頭相結合的方式支持自動駕駛系統，但其最近開始推出不再配備雷達的汽車。卡帕西表示：“我們移除了雷達，這些車只靠視覺行駛。這是因為，特斯拉的深度學習系統已經達到了臨界點，現在比雷達的表現好100倍，而雷達開始成為阻礙。”

監督式學習

反對純計算機視覺自動駕駛方法的主要論點是，神經網絡是否可以在沒有激光雷達深度地圖的幫助下，進行測距和估計存在的不確定性。卡帕西對此表示：“顯然，人類開車時依賴視覺，所以我們的神經網絡能夠處理視覺輸入，以了解我們周圍物體的深度和速度。但最大的問題是，合成神經網絡能做到同樣的事情嗎？在過去幾個月里，我們的努力證明，這是有可能實現的。”

特斯拉的工程師們想要創建一個深度學習系統，可以在深度、速度和加速度方面對物體進行檢測。他們決定將這一挑戰視為一個監督式學習問題來對待，即神經網絡在經過註釋數據訓練后，學會檢測目標及其相關屬性。

為了訓練他們的深度學習架構，特斯拉團隊需要一個包含數百萬個視頻的海量數據集，並仔細地對視頻所包含的對象及其屬性進行註釋。為自動駕駛汽車創建數據集尤其棘手，工程師們必須確保包括各種不同的道路設置和不經常發生的邊緣情況。卡帕西說：“當你有一個龐大、乾淨、多樣化的數據集，然後用它訓練大型神經網絡時，我在實踐中看到的是，成功可以得到保證。”

自動標記數據集

特斯拉在全球售出了數百萬輛配有攝像頭的汽車，並據此在收集訓練汽車視覺深度學習模型所需的數據方面處於有利地位。特斯拉的自動駕駛團隊積累了1.5PB的數據，包括100萬段10秒長的視頻和60億個標註了邊框、深度和速度的物體。但是給這樣龐大的數據集貼上標籤是個巨大的挑戰。一種方法是通過數據標籤公司或在線平台(如Amazon Turk)手動標註。但這將需要大量的手工工作，可能會花費一大筆錢，而且進展緩慢。

與之相比，特斯拉團隊使用了自動標記技術，它結合了神經網絡、雷達數據和人工審核。由於數據集是離線標註的，神經網絡可以回播視頻，將它們的預測與實際情況進行比較，並調整它們的參數。這與所謂的“測試推理”相反，後者所有事情都是實時發生的，深度學習模型無法進行追溯。

離線標記還使工程師能夠應用非常強大的、計算密集型的目標檢測網絡，這些網絡無法部署在汽車上，可以用於實時、低延遲的應用程序。他們利用雷達傳感器數據進一步驗證神經網絡的推斷。所有這些都提高了標記網絡的精度。卡帕西說：“如果你處於離線狀態，你就會獲得後續好處，可以更好地融合不同的傳感器數據。此外，你可以讓人類參與進來，他們可以進行清理、驗證、編輯等工作。”

不過，卡帕西沒有透露對自動標籤系統進行最終修改需要多少人力，但人類的認知在引導自動標籤系統向正確方向發展方面發揮了關鍵作用。

在開發數據集的過程中，特斯拉團隊發現了超過200個觸發點，表明目標檢測需要調整。這些問題包括不同攝像頭之間或攝像頭與雷達之間的檢測結果不一致。他們還確定了可能需要特別注意的情況，比如隧道入口和出口，以及頂部有物體的汽車。特斯拉用了四個月的時間來開發和掌握所有這些觸發器。隨着標籤網絡的改進，它以“影子模式”部署。這意味着它被安裝在消費者的汽車上，靜默運行，而不向汽車發出命令，並將該網絡的輸出與傳統網絡、雷達和司機的行為進行比較。

特斯拉團隊經歷了七次數據工程迭代。他們從一個初始數據集開始，在這個數據集上訓練他們的神經網絡。然後，他們在真實汽車上部署“影子模式”的深度學習，並使用觸發器來檢測不一致性、錯誤和特殊場景。然後對錯誤進行修正，如果需要，還會向數據集添加新數據。卡帕西說：“我們一遍又一遍地重複這個循環，直到神經網絡變得足夠好。”

因此，該體系結構可以更好地描述為具有巧妙分工的半自動標註系統，其中神經網絡負責重複性工作，人類負責解決高級認知問題和罕見情況。

有趣的是，當被問及觸發器的生成是否可以自動化時，卡帕西回答說：“觸發器的自動化是個非常棘手的問題，因為你可以有通用觸發器，但它們不能正確地代表錯誤模式。例如，很難自動生成具有觸發進入和退出隧道功能的觸發器，這是人類通過直覺獲得的能力，目前還不清楚其具體原理。”

分層深度學習體系結構

特斯拉的自動駕駛團隊需要高效和精心設計的神經網絡，以最大限度地利用他們收集的高質量數據集。該公司創建了一個由不同神經網絡組成的分層深度學習體系結構，這些神經網絡處理信息，並將其輸出給下一組網絡。

深度學習模型使用卷積神經網絡從安裝在汽車周圍的8個攝像頭的視頻中提取特徵，並使用變換神經網絡將它們融合在一起。然後，它會隨着時間的推移融合這些信息，這對於軌跡預測和消除推理不一致等任務來說非常重要。然後，空間和時間特徵被輸入神經網絡的分層結構中，卡帕西將其描述為頭部、軀幹和神經。他說：“你之所以想要這種分層結構，是因為你對大量的輸出感興趣，但你負擔不起每個輸出都有對應神經網絡的代價。”

分層結構使得可以為不同的任務重用組件，並支持不同推理路徑之間的特性共享。網絡的模塊化體系結構的另一個好處是進行分佈式開發的可能性。特斯拉目前聘用了一個龐大的機器學習工程師團隊，致力於自動駕駛神經網絡的研究。他們每個人都在網絡的單個小組件上工作，然後把他們的結果插入到更大的網絡中。卡帕西稱：“我們有個大約20人的團隊，他們在全職訓練神經網絡。它們都在同一個神經網絡上合作。”

垂直整合

在CVPR的演講中，卡帕西分享了特斯拉用來訓練和微調其深度學習模型的超級計算機的更多細節。整個計算集群由80個節點組成，每個節點包含8個英偉達A100圖形處理器和80 GB顯存，總計5760個GPU和超過450 TB的VRAM。這台超級計算機還擁有10PB的NVME超高速存儲和640 Tbps的網絡容量來連接所有節點，並允許對神經網絡進行高效的分佈式訓練。

特斯拉還擁有並製造安裝在其汽車內的AI芯片。卡帕西表示：“這些芯片是專門為我們希望在完全自動駕駛應用中運行的神經網絡設計的。”

特斯拉的最大優勢是它的垂直整合能力。該公司擁有整個自動駕駛汽車堆棧，自己生產汽車和自動駕駛功能硬件，同時通過從售出的數百萬輛汽車中收集各種各樣的遙測和視頻數據佔據獨特的位置。特斯拉還利用其專有數據集創建並訓練其神經網絡，並通過在其汽車上進行影子測試來驗證和微調這些網絡。當然，特斯拉擁有傑出的團隊，由機器學習工程師、研究人員和硬件設計師組成，他們把所有的東西組裝在一起。

卡帕西說：“你可以在所有層面進行協同設計和攻堅，沒有第三方在阻礙你。你完全掌控了自己的命運，我認為這是不可思議的。”

這種垂直整合以及創建數據、調整機器學習模型並將其部署到許多汽車上的能力，使特斯拉在實現僅基於視覺的自動駕駛汽車能力方面獲得了優勢。在他的演講中，卡帕西展示了幾個例子，顯示新的神經網絡勝過了與雷達信息結合工作的傳統ML模型。卡帕西說，如果該系統繼續改進，特斯拉可能會淘汰激光雷達，並認為沒有其他公司能夠複製特斯拉的方法。

未解決問題

但問題仍然存在，比如深度學習目前的進步狀態是否足以克服自動駕駛面臨的所有挑戰。當然，目標檢測、速度和距離估計在駕駛中起着重要作用。但是人類的視覺還有許多其他複雜的功能，科學家們稱之為視覺的“暗物質”。這些都是意識和潛意識分析視覺輸入和不同環境導航的重要組成部分。

深度學習模型也很難做出因果推理，當模型面對他們以前沒有見過的新情況時，這可能是個巨大的障礙。因此，雖然特斯拉成功地創建了龐大而多樣化的數據集，但開放道路上的實際環境卻非常複雜，那裡隨時都可能發生新的、不可預測的事情。

AI社區存在的分歧在於，是否需要明確地將因果關係和推理整合到深度神經網絡中，或者是否可以通過“直接擬合”克服因果關係障礙。特斯拉以視覺為基礎的自動駕駛團隊似乎更喜歡後者，但這項技術顯然需要接受時間的考驗。（小小）