基於深度神經網路之公車乘客異常行為辨識

作者:

林依融、曾俊翰、林惠勇

刊登日期:2022/04/12

摘要:在自動駕駛車輛的相關研究中,保障乘客的安全是非常重要的一項議題。在大眾運輸上可能會有乘客出現一些異常的行為,導致乘車安全受到威脅。本文提出了一種方法,利用深度神經網路的技術,偵測車廂內乘客的異常行為,透過此方法能夠及時發現車廂內異常的情況,確保大眾運輸內乘客的安全。
Abstract:In the research of autonomous vehicles, ensuring the safety of passengers is a very important topic. In public transportation, there may be some abnormal behaviors of passengers, which may endanger the safety of passengers. This article proposes a method that uses deep neural network to detect the abnormal behavior of passengers in the car. Through this method, the abnormal situation in the car can be detected in time to ensure the safety of passengers in public transportation.

關鍵詞:異常行為辨識、動作辨識、乘客偵測
Keywords:Abnormal behavior identification, Action recognition, Passenger detection

前言
近年來關於自動駕駛車輛的研究愈發成熟,許多新出廠的大眾運輸車輛也開始配備半自動輔助駕駛系統,以提高行車的安全。在台灣也有許多政府與民間合作開發的案例,例如北市政府與臺灣智慧駕駛公司合作的自動駕駛公車測試計畫,台灣財團法人車輛研究測試中心(ARTC)與廠商合力開發的WinBus小型巴士。工研院也攜手中市政府與多家廠商,合作開發自駕巴士,並在水湳打造了全台首座大型車自駕車測試場域,成為國內首例於開放場域進行載客運行的自駕巴士。隨著自動駕駛車輛的技術發展,未來的大眾運輸會朝向全面自動化的目標,屆時車上將沒有駕駛,當乘客在車廂中跌倒,或是遇上異常狀況需要協助時,則必須要有一個系統能及時偵測到乘客的需求,進而提供協助。本文針對此種情況,在大型公車或小型巴士車廂內使用俯拍視角進行乘客偵測及異常行為辨識,基於深度神經網路的方法,達到保障乘客安全的目的。
乘客異常行為辨識
在本段落中,首先介紹本研究的系統流程,接著介紹乘客異常行為辨識系統,在下一段落繼續介紹乘客偵測集追蹤所使用的方法。
1.系統流程
本文的系統架構主要分為兩個部分,第一個部分為乘客偵測器,在偵測車廂內部是否有異常動作發生之前,必須先偵測到車上的每位乘客的動作。我們在進行乘客偵測之後,參考Saha [1] 等人提出的Action tube概念,偵測出乘客的Bounding box之後再使用關聯演算法,來追蹤畫面中的乘客。我們使用這個想法,針對一個影像序列中的人物進行追蹤,並將同一人在不同時間出現的Bounding box資訊串接成一個序列,提供給第二個部分的3D卷積神經網路進行乘客的異常行為辨識,經由模型判斷及分類出此動作是否為異常行為。簡易流程圖如圖1所示。

圖1 系統流程圖

2.網路架構
對於異常行為的動作分類,為了辨識含有時間資訊的異常動作,例如跌倒的動作,我們選擇了含有時間資訊的3D卷積神經網路架構。在其他針對跌倒偵測的研究中,許多會利用人體關節點作為判斷的依據,但因我們實驗的資料蒐集設定為俯拍視角的緣故,使用人體關節點進行偵測並不合適,於是最後我們使用純影像資訊來進行動作偵測。
3D卷積神經網路由Ji等人[2]提出,3D卷積神經網路相較於2D卷積神經網路而言,多提取了時間上的特徵,因為多了時間維度的緣故,整體參數量多了許多,這導致了3D卷積神經網路在較小的資料集上訓練時,容易出現過擬合的狀況。Hara等人[3]嘗試將Kinetics-400資料集在3D ResNet-18上進行預訓練,接著在UCF101等較小型的動作資料集上進行遷移式學習,得到了非常好的表現。因此本文也使用了遷移式學習的概念,利用在Kinetics資料集上訓練好的預訓練權重,在我們自行蒐集之資料集上進行遷移式學習。
深度學習中最常使用的卷積神經網路是He等人[4]提出的殘差網路ResNet,後續許多卷積神經網路皆是以此架構為基礎進行修改的。本文所使用的3D卷積神經網路也是基於ResNet的架構,加入了殘差結構,使得模型能訓練得更深,並將2D ResNet增加了時間維度,變成了3D ResNet,本文提出架構即是使用3D ResNet進行修改而成。
Tran等人[5]為了改善3D卷積神經網路因為參數量過大而容易過擬合的問題,提出一種改良的架構,將空間與時間卷積拆分開來,使得參數更容易學習,本文的架構也使用了此種方法,以提高辨識效果。
注意模組透過學習的方式使模型能自主辨識每個特徵的重要程度,給予相應的不同權重,以提高分類準確率。在三維任務中有Cai等人[6]提出的RAN模組,它是基於二維的SENet的概念所提出的,一個針對3D卷積神經網路的通道空間注意模組,此模組應用在3D ResNet上,能使得連續時間序列的動作辨識任務進一步提高分類的準確率。我們將RAN注意模組引入到我們的架構中,針對每個瓶頸層卷積後的特徵圖進行專注,依照原作者實驗的方法,將特徵圖先進行通道專注後再接著進行空間專注。
一般物件偵測或分類任務會使用最頂層的特徵圖來進行辨識,雖然頂層特徵圖語意特徵豐富,但目標位置卻不明確。為了解決此問題,Lin等人[7]提出了特徵金字塔網路,又稱為FPN,將頂層特徵圖依序向下與其他底層的特徵圖進行融合,這使得特徵圖不僅擁有豐富的語意特徵,同時也有目標位置的資訊,提升了辨識任務的準確率。本文所使用的架構也引用了FPN的概念,將不同層的特徵圖依序上採樣進行融合,最後將融合的結果進行分類。

 

 

…本文未結束

更完整的內容 歡迎訂購 2022年4月號 469期

機械工業雜誌‧每期240元‧一年12期2400元

我要訂購