科技通報

:復雜場景下面向時空模糊性的人體動作檢測方案

上海彩票注册 www.bkwfl.icu 點擊數:10    日期:2016-10-24 08:55:21

與嚴格受控環境下傳統的人體動作檢測不同,進行復雜場景下的動作檢測時由于背景帶有噪聲、人體遮擋和跟蹤不全導致空間和時間邊界存在時空模糊性
  

 摘 要: 與嚴格受控環境下傳統的人體動作檢測不同,進行復雜場景下的動作檢測時由于背景帶有噪聲、人體遮擋和跟蹤不全導致空間和時間邊界存在時空模糊性。現有的動作檢測方案無法有效解決這一問題,為此,首先采用運動歷史圖像特征和外觀特征對人體運動進行區分,然后將一個動作的候選區域看成是一個實例包,提出模擬退火多實例學習支持向量機(SMILE?SVM)算法實現人體動作檢測。仿真結果表明,該算法在公共的CMU運動數據集上的性能優于現有算法。另外,還提出了一種超市客戶意圖檢測系統,可檢測擁擠的超市中客戶是否有意從貨架上取貨,對于商家研究客戶興趣具有重大價值。
關鍵詞: 人體動作檢測; 時空模糊性; 運動歷史圖像特征; 外觀特征; 多實例學習
本文引用《現代電子技術
0 引 言
當前大多數人體數據集中,人體動作往往采集于無噪背景下,每個視頻片斷往往只包括一種動作(比如快跑或慢跑)和一個人體,且人體在整個視頻片斷中只有這一種動作。然而,在實際的監視場景中,背景往往帶噪,監視系統必須要從人群中檢測出感興趣的目標人體動作。
在背景帶噪或人群部分遮擋等復雜場景下,進行人體準確定位的難度很大[1?2]。若沒有人體交互,從復雜場景中修剪一個對象往往會導致嚴重的錯位或偶爾的漂移,此外,還可能存在時域模糊性。真實世界中的大部分動作只發生一次且持續時間很短。而人體動作是連續的,動作屬于同一種類別但速度可能有巨大差異,所以難以確定這些目標動作的起點或終點,以及真實世界中每個動作的持續時間。另外,未檢測到快跑和慢跑等重復性動作在時域的模糊性,但這些模糊性可能嚴重影響撿東西、拍照、按下電梯按鈕等非重復性動作的檢測性能。這些空間和時間模糊性大大增加了動作檢測的難度。
為了克服這些模糊性,本文提出一種基于多實例學習(MIL)的支持向量機(SVM)處理時域和空域模糊性問題。圖1給出了多實例學習的主要思路。雖然不能精確知道目標動作的發生位置和時間,但是可以估計出一個包括多個潛在位置和時間片的“包”。這個包可以是正性包(目標動作發生于包中的某一位置),也可以是負性包(目標動作并未發生)。正性包中肯定有至少一個正性實例,而負性包中的所有實例均為非動作實例。這種多實例方法既可識別目標動作,又可以確定動作的準確位置和時間段。
1 相關工作
針對人體動作檢測問題,文獻[3]提出一種累積方向?數量級光流梯度直方圖的人體動作特征表示方法。該方法首先利用Horn?Schunck光流算法計算圖像光流,然后將光流矢量按照不同的方向?數量級進行直方圖統計,得到單幀圖像的方向?數量級的光流梯度直方圖,最后將單幀圖像的直方圖特征在時間維上進行累積來表示整個視頻動作的特征。文獻[4]提出一種結合全局的剪影特征和局部的光流特征的混合特征,并用于人體動作識別。該算法對于Weizmann數據庫中的動作可以達到100%的正確識別率。文獻[5]提出一種基于主題模型的人體動作識別方法,該方法首先提取時空興趣點來描述人體運動,然后提出使用慢特征分析算法計算興趣點梯度信息不變量最優解,最后使用概率潛在語義分析模型識別人體動作。文獻[6]引入壓縮感知和稀疏表示理論,同時解決人體活動監測中的動作識別和數據壓縮問題,探索如何在達到一定動作識別率的同時降低傳感器節點的能耗。
另外,文獻[7]提出通過提取密集采樣的局部視頻補丁檢測出背景比較簡單的視頻的不規則動作。這種方法難以對復雜場景下的非重復性動作執行對準操作。文獻[8]提出體積特征,以便將時空形態與分割后的視頻片斷關聯起來。與文獻[9]基于流的關聯算法相結合后,再利用手工分割獲得的動作樣本即可檢測出視頻中的多種動作。然而總的來說,以上方法都還存在著不足:高度依賴人體部位的跟蹤,如果出現遮擋或環境變化等復雜因素,將無法得到完整的運動信息;當存在時域和空域模糊性時,人體動作檢測精度較低;無法準確獲取動作的時間段或動作意圖模糊。為了解決以上問題,文中提出了一種面向復雜背景下的人體動作檢測方案,并通過仿真實驗驗證了該方案的有效性。
2 系統概述
為了采集數據構建動作分類器,本文采取手工方式標識視頻序列,以獲得訓練樣本。只需明確人體頭部的粗略位置以及動作發生地點的近似幀即可。標識過程結束后,按照幀內的不同位置/尺度及時間線上的不同起始/結束幀號,對標識后的視頻序列做進一步修剪,于是每個動作(稱為包)將生成多個段(稱為實例)。這些陽性和陰性包將提供給本文學習算法以訓練動作檢測器。其中,每個正性包擁有一個目標作為目標動作,而負性包不含。
在測試階段,本文將處理人體動作在時域和空域上的位置模糊性。本文系統允許短序列中的多個候選作為輸入,并推斷目標動作是否發生。它并不需要準確的跟蹤器或人體檢測。相反,可以利用人臉檢測器或概率檢測器的輸出作為人體估計。同時,它也不需確切知道人體動作的起始或結束幀。相反,它可以考慮多種概率,并估計動作的實際發生位置。
為了獲得區分性特征進行動作檢測,本文首先考慮動作特征,以便將目標動作與其他動作區分開。因為傳統的光流容易受到噪聲影響,所以本文采用運動歷史圖像(MHI)特征[10],該特征積累了多個幀的運動信息。在本文系統中計算每個實例的MHI特征,然后將其下采樣為10×10像素尺寸,即特征向量長度為100。
本文提出將運動和外觀信息結合起來,以便提高人體運動的區分性能。采用了兩種外觀特征,并與MHI特征相結合,作為運動識別時的高度區分性特征。圖2給出了這些特征的多個示例。第1種外觀特征是前景圖像(FI),通過與背景相減獲得;第2種外觀特征是定向梯度特征直方圖(HOG)[11],它可以描述邊緣和拐角的方向和大小。已知一個實例的圖像區域,FI特征可正規化為10×10像素。為了獲得HOG特征,圖像區域被分為3×4=12個子窗口,然后使用梯度方向的8個容器計算直方圖,為每個實例生成一個96維HOG特征向量。運動特征(MHI)和外觀特征(FI和HOG)可從不同方面描述人體動作,且互為補充。外觀特征可以描述運動期間人體的空間形態,而運動特征主要是描述正在運動的人體部位的方向和強度。
3 SMILE?SVM算法
下面介紹如何利用多實例學習解決動作檢測在時域和空域上的模糊性,提出了一種模擬退火多實例學習支持向量機(SMILE?SVM)算法。已知一組輸入模式[x1,x2,…,xN]分組到[B1,B2,…,BM]中,且對于已知索引集合[Im?1,2,…,N]有[Bm=xi:i∈Im]。每個包[Bm]關聯一個標識[Ym,][Ym=1]表示包是正性包,至少有一個實例[xi∈Bm]是類別中的陽性樣本。相反,[Ym=-1]表示包是陰性包,所有實例[xi∈Bm]均是陰性樣本。將每個實例的標識表示為[yi,]則有:如果[Ym=-1,]則對[i∈Im]有[?yi=-1,]其中[m=1,2,…,M。]否則,如果[Ym=1,]則對[i∈Im,][?yi=1]?;赟VM的多實例學習可闡述為如下的目標函數最小化:
其中,[ξi]表示估計誤差,[w]確定余量的尺寸。傳統的SVM屬于二次優化問題,則式(1)最小化是式(2)約束下的混合優化問題。因為[yi]的可能選擇數量太多,所以該目標函數難以直接最小化。
SMILE?SVM算法的目的是在增加包識別率的同時實現分類器容限最大。因為分類容限的尺寸可由[1w2]衡量[12],所以定義一種新的目標函數:
[S=maxw,b,yinc+kw2] (3)
式中:[nc]表示包分類的正確率;[k]表示容限指標權重的控制參數,部署時將[k]設為0.5。SMILE?SVM采用一種參數[T](稱為溫度)控制新的評分[S]被接受的概率。在學習過程的早期步驟中,[T]要設置的足夠大以便候選解能夠轉換為得分較低的另一種狀態。在學習過程中,[T]逐漸下降,以便降低切換到[S]較低的其他狀態的概率。當[T]接近0時,系統將會收斂。
SMILE?SVM采取迭代方式尋求最優得分[Sopt]。在第[t]次迭代時,SMILE?SVM生成一個相鄰狀態[y*i,]然后提供給下次迭代以便生成一個新的SVM分類器。為了使新分類器的決策邊界與之前的邊界類似,引入隨機微小擾動以生成一個新的狀態。
[y*i=-signfti,fti<閾值, i∈Itrandsignfti,else]
式中:[Itrand]表示第[t]次迭代的隨機集合;[fti]表示由[wt,bt]估計的分類置信度。生成相鄰狀態[y*i]之后,SMILE?SVM就會決定是否將其作為下次迭代的訓練集。首先,驗證式(2)中的約束,如果式(2)滿足,則系統將根據式(3)及[y*i]訓練出來的分類器計算得分[St]。此時,通過隨機數和[St]的比較決定將[y*i]作為下次迭代時狀態[yt+1i]的概率。如果[y*i]未被接受或式(2)未被滿足,則將生成另一個相鄰狀態。
4 仿真實驗
本文通過兩組實驗評估SMILE?SVM算法的有效性。第一組實驗使用CMU人體運動數據集[8]。第二組實驗考慮一種真實應用,以檢測超市中的客戶是否有意從貨架上購買商品。
4.1 CMU運動數據集的結果
CMU運動數據集中有5種類型的人體運動,包括人體跳躍、撿東西、雙手揮動、單手揮動及按下電梯按鈕。所有視頻的持續時間約為20 min,包括大約100種目標運動。視頻的分辨率下調為160×120像素。人體運動的方式有較大差異。背景帶有噪聲,且目標運動有時被其他人體遮擋。所有這些變化導致時域和空域存在較大的模糊性。評估時的訓練/測試配置與文獻[8]相同。一個人體進行的一個樣本序列用于所有5種動作的訓練。3~6個其他人體每種動作進行多次測試。采用一對多策略分別訓練和測試5種人體運動檢測器,于是在訓練階段有1個陽性包和4個陰性包,在測試階段的陽/陰性包的分布類似。
圖3給出了使用不同特征進行動作檢測的性能比較結果。從圖3中可以發現,綜合使用運動和HOG外觀特征(MHI+HOG特征)后的性能優于其他種類的特征。
表1比較了文獻[8]中結果與本文算法的性能。對于所有運動,SMILE?SVM均顯著優于文獻[8]中的結果,惟一例外便是雙手揮舞動作,這也證明了基于運動和外觀特征的SMILE?SVM算法的有效性。
4.2 真實場景的結果:超市監測系統
為了進一步驗證本文算法的有效性,在真實場景下對其性能進行測試,以證明其在監測應用場景下的作用。目標運動是擁擠的超市中客戶是否有意從貨架上購買貨物,這種類型的運動包括使用一只手或一雙手指向或觸摸某種商品或者彎腰接近/觀看某種商品。超市希望對這種運動進行跟蹤以便知道客戶的意圖。該數據庫采集于典型的超市場景下,在早晨和中午時間比較擁擠。
本文構建了一種目標運動檢測系統,如圖4所示。在該系統中,對卷積神經網絡(CNN)[13]進行訓練以便檢測每一幀中的二維頭部候選。根據頭部檢測器的輸出,本文運動檢測算法利用CNN人體檢測器輸出的視頻幀中每個人體頭部矩形的位置和尺寸作為輸入,從空間鄰域內這些頭部位置周圍及時間鄰域的相鄰幀中提取出不同位置的多個窗口,然后為這些實例提取視頻特征。以SMILE?SVM算法的識別結果為基礎,如果估計概率超過經過學習的置信度閾值,則檢測到目標運動。如果在時間線上的相鄰區域內檢測到兩個運動,則將其融合以形成層次更高、時間更長的運動。該系統將運動檢測與三維跟蹤器(比如將立體相機二維跟蹤結果相融合后產生的結果)結合起來,可獲得一些具體信息,比如貨架上哪個部位最能吸引客戶的注意力。這種信息對商家非常有用。
使用20 min左右時長的視頻作為訓練視頻,40 min時間的視頻用作測試視頻,包括大約150個陽性運動樣本。在時域上,每個運動分割為運動期間隨機點上的多個小片斷,每個片斷的尺寸為10幀。在空域上,包含人體頭部和身體的運動區域按照12種不同尺寸和尺度進行修剪。上述每個時空樣本成為一個實例,且所有實例與包中的一個運動相關聯。這一過程將分別在訓練和測試數據集中生成約50個陽性包(包括25 000個實例)和100個陽性包(包括50 000個陽性實例)。對步行和站立等不感興趣的其他陰性運動(陰性運動樣本),只有10%左右(382個陰性包)被隨機采樣,以便獲得數量類似的訓練和測試陰性實例(34 000個和79 000個)。
為了保證比較的公平性,對不同算法使用相同的運動特征(MHI)。圖5給了3種算法的精度/召回率曲線??梢苑⑾?,多實例學習算法的性能遠優于經典SVM算法。此外,文獻[2]中的算法不如本文算法,因為本文模擬退火搜索策略陷入局部最優值的概率較小。
通過將運動特征和外觀特征結合起來后,本系統的性能得到進一步提升。如第2節所示,FI和HOG特征提供的信息與運動特征互補,因此本文分別將運動特征與FI和HOG特征相結合,構建了新的特征。圖6給出了基于3種特征的性能:只有運動特征(MHI),兩種混合特征((MHI+FI和MHI+HOG)??梢苑⑾?,使用混合特征的召回率比只使用MHI平均高出近20%(當精度率為0.6時)。
為了測試本文運動檢測器的通用性,將其用于不同時期、不同時刻在超市中采集的新的視頻序列。新視頻采集于客戶運動更密集的高峰時間。新的測試視頻包含390個目標運動構成的陽性包和591個非目標運動構成的陰性包,大約包括124 000個陽性實例和166 000個陰性實例。
圖7分別給出了采用MHI+FI和MHI+HOG聯合特征時,原始測試數據和高難度測試數據的精度/召回率曲線。此時,MFI表示運動(MHI)和外觀(FI)聯合特征,MHOG表示運動(MHI)和外觀(HOG)聯合特征??梢苑⑾?,由于數據不同,算法總體性能略有下降。然而,這種誤差并不明顯,算法在新數據集上的性能仍然較好。
如前文所述,非運動包中的所有實例為陰性樣本,運動包中只有部分實例被識別為陽性樣本。利用這些陽性實例,不僅可以識別出目標運動是否發生于包中,還可以估計出該運動的位置和時間。圖8演示了部分樣本的運動檢測結果,其中陽性示例用紅色方框表示。鑒于本文實例的構建方法,即使人體被部分遮擋(見圖8(c)),本文算法仍可以檢測出目標運動及其時間和位置(見圖8(a)和圖8(b)。
5 結 語
本文研究了復雜場景下的人體運動檢測問題,并提出一種多實例學習方法以克服時空模糊性。實驗結果表明,本文方案不僅在公共的CMU運動數據集上的性能優于其他算法,而且在真實監測場景中具有應用價值。下一步工作是對當前系統進行拓展,以便適用于自助餐廳或麥當勞等更多場景。
參考文獻
[1] 李擬臖,程旭,郭海燕,等.基于多特征融合和分層反向傳播增強算法的人體動作識別[J].東南大學學報(自然科學版),2014,44(3):493?498.
[2] ANDREWS S, TSOCHANTARIDIS I, HOFMANN T. Support vector machines for multiple?instance learning [J]. Advances in neural information processing systems, 2002, 15(2): 561?568.



王編輯
中聯論文網編輯
劉編輯
中聯論文網編輯
趙編輯
中聯論文網編輯
孫編輯
中聯論文網編輯
電話
18931176030
固話
0311-80693734
投稿郵箱
99期刊承諾發表不成功無條件退款!
客服系統
玩重庆时时开彩龙虎和 体球网即时比分手机版 上海时时奖结果查询 麻将规则怎么算胡 3分赛车计划彩票稳赚技巧 必富娱乐网站进不去 彩票计划带我稳赚 重庆时时最新开奖结果 双色球胆拖计算方法 北京pk拾赛车官网 微信群里玩大小单双 pk10技巧规律2码 伊涅斯塔 中国男篮视频直播 2018开奖记录开奖结果 a彩平台