馬斯克：視覺神經網絡實現的自動駕駛安全性超人類十倍以上

9月17日上午，在海南省海口市召開的2021世界新能源汽車大會上，特斯拉首席執行官埃隆·馬斯克通過視頻發言時表示，未來的自動駕駛可以通過視覺神經網絡實現，並且相比普通人駕駛有十倍以上的安全性。

記者| 邵文

近日，特斯拉向其搶先體驗車隊推出FSD（Full-self Driving，完全自動駕駛）Beta V10軟件。這是在特斯拉AI Day上發布最新應用在自動駕駛上的視覺神經網絡之後，技術上做了重要改進的的純視覺自動駕駛方案新版本。

特斯拉CEO伊隆·馬斯克稱，有望在9月25日左右向所有特斯拉車主開放使用。

FSD Beta 10的軟件版本號為2021.24.15。在該版本軟件的支持下，特斯拉汽車能夠在高速公路和城市街道上虛擬駕駛，但它仍然被視為L2級駕駛員輔助駕駛，因為它需要駕駛員仍然對車輛負責，將手放在方向盤上，並隨時準備好控制。

在Youtube（譯為“油管”，是目前全球最大的視頻搜索和分享平台）上參與測試的用戶發布的針對性測試和路測結果來看，目前還有很多情景下會出現問題，一個最明顯的提升表現在駕駛中可視化用戶界面，越來越多的道路標識和交通標識物的識別走向細分化，但依然有部分道路標誌還不能準確識別。

在近期的特斯拉人工智能日上，特斯拉AI負責人Andrej Karpathy和自動駕駛硬件高級總監Ganesh Venkataramanan介紹了純視覺自動駕駛系統與FSD軟件的最新成果，此前5月份，馬斯克曾發文表示，特斯拉最新版本的FSD將取消毫米波雷達，採用純視覺感知方案。

在自動駕駛感知領域，有兩個明顯區別的路徑——純視覺派和激光雷達派，純視覺派認為單純依靠攝像頭就可以完成自動駕駛所需要的周圍環境感知，特斯拉、極氪、百度都使用的是純視覺感知方案。激光雷達派則以激光雷達為主導，配合毫米波雷達、超聲波傳感器、攝像頭多傳感器融合完成周圍環境感知，商湯AR小巴、小鵬P5、蔚來ET7使用的是激光雷達方案。

商湯智能駕駛研發總監李怡康在接受澎湃新聞採訪時表示，“無論是純視覺方案還是多傳感器融合的方案最終都是有可能實現L4或L5級別的自動駕駛的，區別在於，引入激光雷達實際上是把問題變簡單了，因為我們引入了很多額外的信息，而且這些信息跟視覺很互補，有些信息，比如深度，它可以估算地很準確。假如最後兩條路徑都能實現L5級自動駕駛，那我相信多傳感器融合這條路線可能會更快一些。當然，感知只是決定自動駕駛是否實現的因素之一。”

特斯拉“純視覺派”技術路線：視覺神經網絡

特斯拉人工智能與自動駕駛視覺總監Andrej Karpathy認為，將激光雷達添加到自動駕駛堆棧會帶來其自身的複雜性。在CVPR 2021自動駕駛研討會上，Karpathy，“你必須用激光雷達預先繪製環境地圖，然後你必須創建一張高清地圖，你必須插入所有車道及其連接方式以及所有交通信號燈，收集、構建和維護這些高清激光雷達地圖是不可擴展的，讓這個基礎設施保持最新狀態將是極其困難的。”

Karpathy表示特斯拉在其自動駕駛堆棧中不使用激光雷達和高清地圖，“發生的一切，都是第一次發生在車內，基於圍繞汽車的八個攝像頭的視頻”。

特斯拉汽車上安裝了8個攝像頭，攝像頭沒有深度信息，他們的目標之一就是形成矢量空間視圖。那麼要怎麼知道旁邊一輛車究竟在哪裡又有多長呢？

首先的一個難點是，不同視角的攝像頭都只能看到周邊環境的一部分，有不同的校準（calibration）、位置（location）、取景方向（view direction）等，比如以下這張圖，誰能知道這個點對應於相機視圖的哪個點？而我們只有知道這些信息，才能把周圍物體準確放到向量空間視圖（vector space view）中。

因此就需要一種將多個攝像頭的信息融合在一起的技術，特斯拉使用了在2017年提出，如今已經席捲自然語言處理和計算機視覺領域的Transformer神經網絡（Transformer Neural Network）。

然後則是加入有時間概念時間的RNN（Recurrent Neural Network，循環神經網絡）以判斷移動物體的速度以及對被遮擋物進行預測。RNN體現了“人的認知是基於過往的經驗和記憶”的觀點，通過記憶來處理任意時序的輸入序列，從而對接下來要發生的事情進行預測。比如這裡對被遮擋物預測，通過對遮擋前的特徵和軌跡的記憶，使得視野被短暫遮蔽的情況下，依然可以預測遮擋視野后的物體運動軌跡，並記錄已行駛過的路段的各種路標。

而對於深度信息，在缺少了雷達信息后，則需要通過對大量的有深度標註的相機數據進行訓練得到的檢測算法來得到。

激光雷達多傳感器融合方案

激光雷達多傳感器方案是以激光雷達為主導，毫米波雷達、超聲波傳感器及攝像頭作為輔助。通過激光雷達發射激光束，測量激光在發射及收回過程其中的時間差、相位差，從而確定車與物體之間的相對距離，實現環境實時感知及避障功能。攝像頭的價格在幾十美元左右，而激光雷達則要昂貴的多，這或許也是很多純視覺流派廠商一個沒有說的難言之隱。

商湯智能駕駛研發總監李怡康向澎湃新聞介紹，“我們會做很多種傳感器的評測，去找到最適合我們設計需求的傳感器方案，然後通過自動化的算法將這些傳感器擺放到最合適的地方，從而實現最優的環境信息獲取。傳感器之間是不在一個坐標系下的，我們通過自動化標定算法將不同傳感器的特性及相關關係非常準確地找出來，然後設計融合感知模型，並用大量的感知數據去訓練它，最終實現多傳感器融合感知。”

自動駕駛底層邏輯是感知、決策、執行三個步驟的結合，對周圍環境的周密感知是所有決策的基礎，也是自動駕駛汽車的安全保障。在了解周圍環境中物體的位置、速度和方向、路面的性質、路緣石的位置、信號（交通、道路標誌）等之後，自動駕駛系統則要開始做計劃和控制：首先是其他移動物體在接下來的短時間會做什麼，然後是根據整體計劃（比如規劃的通向目的地路線）計劃自己要做什麼，最後就是告訴汽車要做什麼。

馬斯克：視覺神經網絡實現的自動駕駛 安全性超人類十倍以上

相关推荐

馬斯克：視覺神經網絡實現的自動駕駛安全性超人類十倍以上