光子系統跑遞歸神經網絡!法國研究人員研發新系統識別人類行為,準確率達100%

發表時間:2020-02-28 13:30

智東西(公眾號:zhidxcom)

編 | 韋世瑋

智東西11月14日消息,近日,法國研究人員提出了一種用光子硬件跑遞歸神經網絡的方法,比現有硬件方法的處理速度更快。該神經網絡具有16384個節點,可擴展到數十萬個節點。

同時,該系統基于水庫計算(Reservoir Computing)范式,經過訓練可以使用原始幀作為輸入,或使用定向梯度直方圖(Histogram of Oriented Gradients)提取一組特征,以訓練識別來自KTH人體行為數據庫中六個人的動作。

該研究成果已于美國時間2019年11月12日發表在學術界頂級期刊《自然機器智能(Nature Machine Intelligence)》雜志上,名為《大型腦啟發式光子計算機對人類行為的識別(Human action recognition with a large-scale brain-inspired photonic computer)》。

研究人員在論文中表示,該報告的分類精度為91.3%,可與最先進的數字實現相媲美。同時,由于光子結構能提供的大規模并行處理能力,因此他們預期這項工作將為實時視頻處理的簡單可重構,以及節能解決方案帶來更好的發展。

該論文研究人員為Piotr Antonik、Nicolas Marsal、Daniel Brunner和Damien Rontani,來自法國洛林大學、勃艮第-弗朗什孔泰大學、巴黎中央理工-高等電力學院、法國貝桑松光學實驗室和LMOPS EA 4423實驗室。

一、深度學習識別人類行為研究的難點

近年來,人類行為識別已經成為計算機視覺領域中最熱門的研究領域之一。這一發展背后的驅動力,則是監控、控制和分析等領域的潛在應用范圍。

其中,監控主要指隨著時間的推移,跟蹤一個或多個對象并檢測特定的行為,例如人們為了防止汽車被盜而對停車場進行監控便是如此。

而控制,則主要是指與系統控制相關的應用程序利用捕捉到的運動,在游戲、虛擬環境或遠程設備中提供控制功能。

分析在這里主要指運動自分析,可用于骨科患者的臨床研究,或幫助運動員提高成績。

這么看來,從視頻序列中識別人類活動無疑是一個挑戰,研究人員需要克服背景雜亂、尺度或視角變化、照明和外觀等問題。

如今,深度學習已成功應用于語音識別、自然語言處理和推薦系統中。同時,它還被引入到基于視頻的人類行為識別研究中,通過原始視頻輸入,系統能自動進行特征推斷,以及識別復雜行為。

然而,這一方法也存在缺點,它需要龐大的數據集、非平凡的超參數調優(non-trivial tuning of hyperparameters),以及耗時耗力的訓練過程。這些過程通常需要如GPU等專用的高端硬件。

二、通過光學方法和水庫計算構建光子計算設備

針對深度學習在人類行為識別研究中的難點,研究人員提出了光學信號處理系統的方法,該方法能基于視頻對人類行為進行分類。

實際上,光計算已被科學家們研究了幾十年。

由于光子不產生熱量,也不會受感應和電容效應的影響而導致信號退化。因此,它在光信號傳輸等任務中具有高度的并行性,而并行信號傳輸將為神經網絡帶來巨大的好處。

與此同時,光互連的使用在現代計算系統中越來越多,這表明并行信號傳輸是光子學的強大特性之一。

因此,光學方法可以用來構建高速和節能的光子計算設備。

研究人員用實驗光學系統在水庫計算范式下構建了一個淺層遞歸神經網絡(Shallow Recur-Rent Neural Network)。其中,水庫計算是一套用于設計和訓練人工神經網絡的機器學習方法。

他們計劃利用一個隨機遞歸神經網絡的動力學來處理時間序列,只訓練一個線性輸出層。由此得到了一個更容易訓練的系統,它只有讀出層是通過求解一個線性方程組來優化的。

此外,由于系統在訓練過程中推斷出的參數比以往更少,因此研究人員可以在更小的數據集上對網絡進行訓練,而不會有過度擬合的風險。

與此同時,水庫計算在電子學、光電子學、光學和集成電路等領域的大量實驗,在無線信道均衡、音素識別和混沌時間序列演進等一系列基準任務上,可與其他數字算法相媲美。

實驗結果表明,光子存儲計算機的讀取層可以通過數字微鏡設備進行光學訓練。

在實驗中,研究人員們提到了一個光學水庫計算機(Optoelectronic Reservoir Computer)。該系統采用空間光調制器(SLM)對空間擴展的平面波進行相位調制。

研究人員通過對水庫計算機的節點進行同步光學處理,提供了顯著的并行化潛力,而SLM的物理分辨率定義了最大的網絡規模。

從結果來看,該方法不僅可以顯著提高網絡的可伸縮性,同時對成功解決計算機視覺中的難點至關重要。

此外,實驗裝置可以容納16384個節點,而該概念的物理限制高達262144個神經元,同時算法還實現了輸入層、輸出層和網絡的遞歸。

三、識別KTH數據庫準確率高達100%

研究人員在論文中表明,光子計算系統以當下流行的KTH數據庫為基準,其中包含由25位受試者作出的六種不同動作的視頻記錄,如步行、慢跑、跑步、拳擊、揮手和拍手。

在預處理階段,研究人員利用定向梯度直方圖(HOG)算法從單個視頻幀中提取空間和形狀信息,接著再利用光子水庫計算機對六種運動進行分類,得到相應的HOG特征。

每個受試者都分別執行四次重復動作,產生了600個長度不等的視頻序列數據集,大小從24幀到239幀不等。

隨后,研究人員所有的視頻拼接在一起,并分割成單獨的幀,得到原始視頻流,再進入預處理階段。

待處理完畢后,研究人員再對水庫計算機進行訓練。該訓練是在450個視頻序列子集上進行,每個視頻序列包含一個單獨的運動序列。

在訓練過程中,研究人員采用歸一化均方誤差(NMSE)代價函數,以將水庫輸出和目標類別之間的誤差最小化。

最后,研究人員使用混淆矩陣來計算來衡量水庫計算機性能的指標,由對角線元素之和給出。從結果來看,水庫計算機性能為600分,也就是說,該計算機識別數據集中六個動作的準確率為100%。

此外,研究人員還調查了這一方法在網絡規模從1024到16384個節點下的可伸縮性,報告分類精度高達92%。

這表明,使用簡單的光子系統可以有效解決當前計算機視覺任務所面臨的難點。

結語:為解決圖像、視頻處理難點帶來新思路

總的來說,雖然研究人員設計的這個光子系統較為簡單,但它在KTH數據集上的性能可以與目前最新的深度學習方法相媲美,并優于梯度化的LSTM網絡。

在研究人員看來,這項研究提出的視頻信息處理硬件解決方案,在訓練時長和復雜性方面,都將有可能優于深度學習。

雖然,每一項技術研究從學術界逐漸落地到產業界還需要很長的時間,對它進行實踐與優化。但這一方法的提出,也為解決當下安防、物聯網和AI等領域的圖像處理和視頻處理的任務難點,帶來了新的思路和方向。

論文鏈接:https://www.nature.com/articles/s42256-019-0110-8

文章來源:Nature

責任編輯:

电子游艺行业