近日,查珀?duì)栂柎髮W(xué)(University of Chapel Hill)和馬里蘭大學(xué)(University of Maryland)的研究人員們研發(fā)了一種機(jī)器學(xué)習(xí)方法,利用人們步行時(shí)的身體語言,解讀他們的情緒。
該算法是目前第一個(gè)利用最先進(jìn)的3D人體姿態(tài)估計(jì)技術(shù),來識(shí)別步行視頻中目標(biāo)情緒的方法,它能夠從人的步態(tài)中識(shí)別他們的感知情緒(perceived emotion)、效價(jià)(valence)和喚醒(arousal),準(zhǔn)確率達(dá)80.07%。
效價(jià)主要表現(xiàn)為人們的消極或積極等情緒,而喚醒則表現(xiàn)為人們情緒的平靜或充滿活力等狀態(tài)。
目前,這一研究成果已于美國時(shí)間2019年6月14日發(fā)表在arXiv平臺(tái)上,論文名為《利用情感和深層特征識(shí)別行走中的情緒(Identifying Emotions from Walking using Affective and Deep Features)》。
一、四種長效情緒識(shí)別
研究人員認(rèn)為,情緒在人們的生活中扮演著重要的角色,既貫穿了人們的經(jīng)歷,同時(shí)也塑造了人們看待世界和與他人互動(dòng)的方式。
由于感知情緒在人們的日常生活中有著重要作用,因此自動(dòng)情緒識(shí)別技術(shù)在游戲和娛樂、安全和執(zhí)法、購物、人機(jī)交互等領(lǐng)域,已經(jīng)成為了學(xué)術(shù)界一個(gè)重要的研究內(nèi)容。
在這項(xiàng)技術(shù)中,研究人員針對(duì)人們的四種情緒進(jìn)行了研究,分別為快樂、悲傷、憤怒和中性。這四種情緒都能較長時(shí)間地影響人們,并能“豐富”人們的步行方式。
研究人員從多個(gè)步行視頻語料庫中提取人們的步態(tài),并使用3D姿態(tài)估計(jì)技術(shù)來識(shí)別提取的步態(tài)和步態(tài)表現(xiàn)的情緒特征。這些3D姿態(tài)會(huì)被傳輸?shù)侥軌驅(qū)W習(xí)長期相關(guān)性的長短期記憶模型(LSTM)網(wǎng)絡(luò)中,研究人員將利用這一網(wǎng)絡(luò)從姿態(tài)序列中獲取特征,并使用多個(gè)步態(tài)數(shù)據(jù)集來訓(xùn)練這個(gè)LSTM網(wǎng)絡(luò)。
同時(shí),研究人員還將經(jīng)過計(jì)算的情感特征與深層特征連接起來,并與隨機(jī)森林分類器(Random Forest Classifier)相結(jié)合,輸出多個(gè)獨(dú)立決策樹的平均預(yù)測,將提取的步態(tài)例子分到上述四種情緒類別中。
二、多種步態(tài)識(shí)別特征
研究人員獲取的步態(tài)特征包括了人們的肩膀姿勢、連續(xù)步伐之間的距離,以及手和脖子之間的區(qū)域。
在身體語言方面,人們的步行方式常常會(huì)受到情緒的影響,例如,當(dāng)人感到壓抑或沮喪時(shí),會(huì)比滿足時(shí)更聳拉著肩膀。
而機(jī)器算法在識(shí)別步態(tài)的過程中,頭部傾斜的角度被用來區(qū)分人們快樂和悲傷的情緒,而更緊湊的姿勢和“身體擴(kuò)張”則分別能識(shí)別人們的積極和消極情緒。
值得一提的是,在該機(jī)器學(xué)習(xí)方法的識(shí)別功能中,效價(jià)在心理學(xué)上指行為目標(biāo)對(duì)個(gè)體是否能實(shí)際滿足自身需求的價(jià)值評(píng)估,即個(gè)體對(duì)行為結(jié)果的重視程度,它影響著人們行為動(dòng)機(jī)的強(qiáng)度。
另外,喚醒在心理學(xué)上,指機(jī)體生理性激活的不同狀態(tài)或不同程度的一種生理和心理活動(dòng)的準(zhǔn)備狀態(tài),它主要由感覺興奮性水平、腺和激素水平,以及肌肉的準(zhǔn)備性所決定。
而科學(xué)家們發(fā)現(xiàn),喚醒往往與人們?cè)黾拥倪\(yùn)動(dòng)相對(duì)應(yīng)。因此,研發(fā)人員在利用長短期記憶模型時(shí),還考慮了人們步行速度、加速度,以及手、腳和頭部關(guān)節(jié)“運(yùn)動(dòng)抖動(dòng)”的大小。
三、算法準(zhǔn)確率高達(dá)80.07%
在人工智能系統(tǒng)處理方面,研究人員提供了一個(gè)叫“情緒行走”(Emotion Walk,簡稱EWalk)的樣本。
EWalk是一組包含1384個(gè)步態(tài)的新數(shù)據(jù)集,這些步態(tài)是從24名受試者在大學(xué)校園(包括室內(nèi)和室外)散步的視頻中提取的。
同時(shí),大約700名來自亞馬遜土耳其機(jī)器人公司的參與者,還給該數(shù)據(jù)集的步態(tài)情緒進(jìn)行標(biāo)記,以便研究人員根據(jù)這些標(biāo)記來確定受試者步態(tài)情緒的效價(jià)和興奮程度。
研究報(bào)告顯示,在測試中,該研究團(tuán)隊(duì)情緒檢測方法的準(zhǔn)確率高達(dá)80.07%,比Crenn et al.算法提高了13.85%,比不考慮情緒特征的“vanilla” LSTMs提高了24.6%。
但這些數(shù)據(jù)并不代表該機(jī)器學(xué)習(xí)方法的檢測是萬無一失的,因?yàn)樗臏?zhǔn)確率在很大程度上取決于3D人體姿態(tài)估計(jì)和步態(tài)提取的精確度。
盡管該方法的準(zhǔn)確率還存在一定的限制,但研究團(tuán)隊(duì)依然相信,他們的機(jī)器學(xué)習(xí)方法能為涉及其他活動(dòng),以及其他情緒識(shí)別算法的研究提供了可靠的技術(shù)基礎(chǔ)。
同時(shí),研究人員還表示,他們研究的方法也是第一個(gè)利用最先進(jìn)的3D人體姿態(tài)估計(jì)技術(shù),為步行視頻中的情緒識(shí)別提供實(shí)時(shí)管道的方法。
在未來,研究人員也將繼續(xù)收集更多的數(shù)據(jù)集,進(jìn)一步解決目前該機(jī)器學(xué)習(xí)方法所受到的限制。
結(jié)語:將為情緒識(shí)別研究提供技術(shù)支持
查珀?duì)栂柎髮W(xué)和馬里蘭大學(xué)的研究人員研發(fā)的這種機(jī)器學(xué)習(xí)方法,在情緒識(shí)別的準(zhǔn)確率上得到了進(jìn)一步地提高。同時(shí),這也是目前學(xué)術(shù)界中,率先嘗試?yán)米钕冗M(jìn)的3D人體姿態(tài)估計(jì)技術(shù),來識(shí)別步行視頻中的目標(biāo)情緒的方法。
雖然這一方法的準(zhǔn)確率還受到3D人體姿態(tài)估計(jì)和步態(tài)提取精確度的限制,但研究人員也將不斷解決它的受限難題,進(jìn)一步提高情緒識(shí)別的準(zhǔn)確率。
在未來,這一技術(shù)的發(fā)展將為人們情緒識(shí)別等研究提供可靠的技術(shù)支持,也將為人們的娛樂、安全和人機(jī)交互等方面帶來更多便利。