暴雨/夜間/人群密集難倒視頻分析？三篇CVPR2021論文攻克這些難題

近日，由耶魯-新加坡國立大學學院（Yale-NUS College）副教授Robby Tan領導的研究團隊，在2021年國際計算機視覺與模式識別會議（CVPR）上發表了三項研究，介紹利用計算機視覺技術提高錄製時受環境因素影響視頻的分析準確度。

這三項研究分別優化了解決降雨因素、夜間因素和人群密集環境因素這3種視頻分析中較常見問題的方法，均可用於改善監控設備、自動駕駛汽車、視頻遊戲和體育節目轉播等與計算機視覺相關的應用性能。

第一項研究介紹科研人員利用幀對齊和深度估計等方法，實現同時處理雨天錄製視頻中雨水條紋和雨幕效果這兩種主要影響視頻清晰度的問題。

該論文題目為《具有傳輸深度一致性的自對齊視頻去降雨影響（Self-Aligned Video Deraining with Transmission-Depth Consistency）》，發表在2021年國際計算機視覺與模式識別會議（會議時間6月19至6月25日）上。

論文地址：

https://openaccess.thecvf.com/content/CVPR2021/papers/Yan_Self-Aligned_Video_ Deraining_With_Transmission Depth_Consistency_CVPR_2021_paper.pdf

第二項研究是研究人員通過訓練半監督網絡來增加視頻動態範圍和抑制光效應，更徹底地解決了夜間視頻清晰度問題。

該論文題目為《通過增加動態範圍和抑制燈光效果來增強夜間能見度（Nighttime Visibility Enhancement by Increasing the Dynamic Range and Suppression of Light Effects）》，發表在2021年國際計算機視覺與模式識別會議上。

論文地址：

https://openaccess.thecvf.com/content/CVPR2021/papers/Sharma_Nighttime_Visibility_Enhancement_by_ Increasing_the_Dynamic_Range_and_Suppression_CVPR_2021_paper.pdf

第三項研究同樣也是處理環境因素的影響，但不是雨天和夜間這種自然環境因素，而是視頻中出現人群密集這種社會場景因素影響。研究人員結合自頂向下和自底向上方法，提高了估計視頻中3D人體姿態準確度，進而提升了視頻處理效果。

該論文題目為《基於自頂向下和自底向上網絡的單目三維多人姿態估計（Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks）》，發表在2021年國際計算機視覺與模式識別會議上。

論文地址：

https://openaccess.thecvf.com/content/CVPR2021/papers/Cheng_Monocular_3D_Multi-Person_Pose_Estimation_by_Integrating_Top-Down_and_Bottom-Up_CVPR_2021_paper.pdf

一、計算機視覺分析易受環境影響

計算機視覺技術越來越多地應用於自動監控系統、自動駕駛汽車、人臉識別、護理和社交距離工具等領域。

用戶需要準確可靠的視覺信息，才能充分利用視頻分析應用程序優勢，但是視頻數據質量通常會受到環境因素影響，例如拍攝時在下雨或處於夜間環境，以及視頻圖像中存在人群（一個場景中有多個重疊的人的圖像）這三種較常見情況。這三種場景在實際中可能單獨出現，也可能混合出現。

具體來說，下雨降低視頻能見度的原因包括雨水流下產生的條紋和雨水積聚（或稱雨幕效果）。

雨水條紋部分會遮擋背景外觀，導致視頻圖像場景看起來模糊。雨水積聚就像出現霧一樣，會沖淡場景顏色，降低視頻整體對比度併產生遮蔽效果。這兩者都會降低場景能見度，因此，要獲得更好的視頻背景場景視覺信息，人們就需要去除視頻中雨水條紋和雨水積聚問題。

而晚上拍攝的視頻存在的問題，跟在雨中拍攝的視頻存在的問題有差異。

夜晚拍攝會受到光照變化和多個人造光源影響，夜間視頻圖像不僅存在低光區域，還有輝光燈、眩光燈和泛光燈照射區域，這會嚴重降低圖像可見度。因此，通過提高低光區域強度來增強夜間圖像可見性，同時抑制夜間光效應（輝光、眩光）是一項重要任務。

除了下雨和夜間等因素影響，當場景中出現很多人對於視頻分析來講也是一大挑戰。

由於其對現實世界應用很重要，基於單目（單個相機拍攝的視頻）的3D人體姿態估計技術已引起了越來越多關注。但是，這個技術存在挑戰，就是當場景中存在多個人時，人多會產生遮擋，導致人體檢測錯誤以及人體關節分組識別不可靠。

為了解決視頻分析中遇到的這些影響準確性的環境因素問題，Robby Tan和來自中國香港城市大學、瑞士蘇黎世聯邦理工學院和騰訊遊戲人工智能研究中心研究人員一起進行了三項研究，分別提高雨天視頻、夜間視頻和有人群密集場景視頻處理準確性。

二、研究一：幀對齊和深度估計消除視頻中雨水影響

針對雨天錄製視頻中存在的問題，研究人員先用合成降雨視頻（帶有地面實況）和真實降雨視頻（沒有地面實況）來訓練對齊網絡，然後研究人員使用基於特徵的對齊網絡去對齊幾個連續的輸入幀。最後，對齊網絡根據相鄰幀的對齊特徵，刪除每一幀中的雨條紋。

處理雨幕問題，研究人員使用了積累網絡，利用從視頻中獲得的深度線索，結合去除雨水條紋的圖像，最終輸出無雨水影響的圖像。

▲消除下雨環境影響的圖像處理流程

從效果上來看三種方法都相較於之前方法有所改進。與現有專註於去除雨水條紋方法不同，新方法可以同時去除雨水條紋和雨幕效果。

▲從上到下，第一張圖時輸入（現有方法），中間圖顯示去除雨痕的中間輸出，第三張是使用研究團隊新方法去除雨水痕迹和雨幕效果的最終輸出

三、研究二：半監督網絡被用於優化夜間圖像

處理夜間視頻目標是，通過同時增加動態範圍（以處理低光和過度曝光區域）和抑制光效應（輝光、眩光等）來提高其可見性。

研究人員提出一個半監督網絡，使用配對圖像（高動態範圍成像的地面實況）來訓練半監督網絡以增加動態範圍，並使用未配對的圖像（沒有地面實況）來訓練半監督網絡以抑制燈光效果，得到兩種訓練網絡。

具體操作是研究人員首先使用線性化網絡估計輸入夜間圖像的逆條件隨機場（CRF），獲得線性化圖像后，將其分解為低頻（光場，LF，包含輝光、眩光效果）和高頻（同態濾波，HF，包含噪聲、紋理等效果）特徵圖。光場特徵圖和同態濾波特徵圖使用訓練得到的兩個網絡來，分別抑制光效應和去除噪聲。最後將處理過的光場特徵圖和同態濾波特徵圖融合併輸出。

▲消除夜間環境影響的圖像處理流程

夜間視頻圖像新技術同樣解決了以前方法處理不徹底的問題：夜間圖像以及視頻中因為眩光不能被忽視時對於視頻清晰度的影響。

▲上面四張圖是研究人員採用新方法，抑制光效併產生增強能見度；下面三張圖是現有方法，無法處理的光學效果（如眩光），還錯誤增強了它

四、研究三：結合兩種3D人體姿態估計方法，實現更可靠輸出

而針對3D人體姿態估計問題，研究人員通過結合兩種現有方法（即自頂向下方法和自底向上方法）來估計視頻中的3D人體姿態。

自頂向下網絡被用來估計每個檢測到的邊界框內的人體關節，生成聯合熱圖（heatmap）反饋到自底向上網絡，自底向上網絡同樣也進行估計生成圖像。最後研究人員將自頂向下和自底向上網絡輸出的3D估計姿態輸入到集成網絡中，以獲得給定圖像序列的最終3D姿態估計圖像。

▲3D人體姿態估計改進流程

3D 人體姿態新方法則可以產生更可靠的姿態估計，並更穩健地處理個體之間距離（或尺度變化）。

▲從上到下，第一張是輸入圖；第二張是採取自頂向下方法，受人際遮擋影響；第三張是自底向上方法，對尺寸（3D）變化很敏感；第四張是研究人員提出的新方法

結語：避免物理環境干擾，是計算機視覺熱點

計算機視覺技術在應用時會受到各種各樣的影響，不止是下雨、夜晚或者出現人群等情況，比如白天光線過強、攝像頭處於逆光角度等因素也會影響計算機視覺技術的處理效果。有時視頻中只會有一種環境因素影響分析準確性，有時會混合出現多種，這種情況下針對每個因素都需要分別研究最優方法，最後才能分因素逐步優化視頻分析結果。

計算機視覺是人工智能最廣泛的技術方向之一，如何減少物理環境對計算機視覺應用方面影響仍是持續性熱點話題。

來源：Yale-NUS College