科技改變生活,而生活同時也在促使科學(xué)進(jìn)步。
人工智能的廣泛應(yīng)用,促使各行各業(yè)都已充分感受到因技術(shù)發(fā)展而滋生的各種福利,如智能化家居體驗、人臉通行、人臉布控、人臉尋親等等。而隨著人們對人工智能技術(shù)接受度的不斷提升,用戶新的需求也不斷涌現(xiàn)。
以人為中心的AI為例,人臉識別技術(shù)和人體識別技術(shù)幫助人們精準(zhǔn)的解答了“我是誰”這個問題,人體追蹤和大數(shù)據(jù)分析技術(shù)幫助人們解答了“我從哪里來”這個問題,而針對“我做過什么, 以及正在做什么”則是一個尚未很好解答的問題。而這一需求,推動了行為識別這一更為智能的人工智能技術(shù)的發(fā)展!
行為識別到底有多難?
如果把人臉識別比作醫(yī)院的“普外門診”的話,行為識別尤其是人類的行為識別,其復(fù)雜度和識別難度不亞于“心血管內(nèi)科+神經(jīng)內(nèi)科”。
行為識別是指以人為基礎(chǔ)單位,只分析人的行為,關(guān)注單人的動作以及多人的動作(例如:一起走路、奔跑、打架等)。與人臉識別的特征提取不同,行為識別并沒有所謂的眼睛、鼻子、嘴、下巴等六大關(guān)鍵點,其特征提取的是人的特定行為。由于由于人類活動范圍廣泛,某一特定行為的表現(xiàn)方式千差萬別,其復(fù)雜度要比人臉識別特征提取難得多。
其次,人們從20世紀(jì)60年代就開始關(guān)注并研究人臉識別算法,在問題定義和算法框架上都趨于成熟,在訓(xùn)練數(shù)據(jù)層面也不乏MS-Celeb-1M這種百萬級公開數(shù)據(jù)集以供算法訓(xùn)練。但由于行為識別的問題難度遠(yuǎn)高于人臉識別技術(shù),其真正得到關(guān)注并發(fā)展時間較短,無論是在問題定義還是算法框架上,都不及人臉技術(shù)成熟,數(shù)據(jù)集由于是視頻動作, 采集和標(biāo)注也更加困難, 限制了數(shù)據(jù)集的規(guī)模。這些都使得行為識別算法困難重重、亟待解決的難題之一。
以及外界因素干擾問題。我們已經(jīng)知道,人臉識別的精準(zhǔn)度會受到光照明暗程度、姿態(tài)以及背景等外界因素的影響,而行為識別也亦是如此。攝像頭拍攝質(zhì)量(清晰、抖動、模糊、扭曲)不一樣, 場景布局差異大(商場、走廊、馬路、大廳、餐廳、公園等), 場景光線(室內(nèi)、室外、晴天、陰天)差異大, 攝像頭角度差(俯拍、平拍、斜排)異大、人體框大小差異大(遠(yuǎn)近)、人之間(人與物之間)經(jīng)常發(fā)生相互遮擋等等都會為行為識別結(jié)果造成影響。
此外,針對人體的行為識別,由簡單到復(fù)雜可以分為如下情況:上下樓梯、一個人走路、騎車、打架、一個人站著、一個人坐著、排隊、摔倒、彎腰撿東西、邊坐著邊和別人說話、聚集、一個人跑、兩個人一起跑、一起散步……光從這點我們就能看出,行為識別需要捕獲并進(jìn)行分析的,不只是一個特定行為,例如:區(qū)分走動和跑動,區(qū)分是否發(fā)生了聚集,這幾個人是否是同行,怎樣才是打架……其難度之大超乎想象。
場景復(fù)雜多變、動作差異化大這些對行為識別和分析都有著巨大的挑戰(zhàn),需要捕捉連續(xù)動作和長時間動作,也就需要算法對行為本身有更精準(zhǔn)的分析推理能力,甚至還能通過既定的場景推算未曾見過的場景。
技術(shù)攻關(guān),依圖行為識別重大突破
盡管行為識別難度異常之大,但人們總是想盡一切辦法征服每一個“星辰與大?!薄R缊D科技就是這個代表。
作為一家全球領(lǐng)先的人工智能公司,在權(quán)威機(jī)構(gòu)ACM MM’20 Grand Challenge主辦的“大規(guī)模復(fù)雜場景人體視頻解析”挑戰(zhàn)賽中,依圖科技以大幅領(lǐng)先的成績拿下了“Track-4:行為識別”的第一名。而在此之前,依圖科技已經(jīng)蟬聯(lián)全球權(quán)威人臉識別競賽冠軍、先后刷新國際聲紋識別權(quán)威競賽(VoxSRC)紀(jì)錄、行人重識別(ReID)三大權(quán)威數(shù)據(jù)集。在接連或者AI技術(shù)大多個第一之后,依圖科技背后的技術(shù)創(chuàng)新和對行為識別難題的攻克開始備受關(guān)注。
根據(jù)介紹,該賽事是最接近真實場景的大規(guī)模挑戰(zhàn)賽。競賽內(nèi)容以真實視頻場景為主,包含:不同畫質(zhì)、不同場景(室內(nèi)外)、不同光源(季節(jié)\室內(nèi)外), 不同視角(俯拍\平拍)等視頻、視頻中行為識別是本屆比賽中的重點項目,目的是考察算法在復(fù)雜場景下對行為(包含多人追蹤、人體姿態(tài)、行為識別)的解析能力,同時還保留了的人體檢測與姿態(tài)估計、檢測追蹤、姿態(tài)追蹤等行為識別的上游任務(wù)。在此次挑戰(zhàn)賽中,包括 Amazon、騰訊、大華科技、中山大學(xué)等上百支參賽隊伍參與了超過56000個復(fù)雜事件下的人體行為(包括排隊、打架、俯身、同行、跑動、滯留等)解析。
學(xué)術(shù)界通常用frame mAP (f-mAP@avg)來作為行為識別的評價指標(biāo),f-mAP@avg代表的含義是以關(guān)鍵幀為單位,評判行為的位置與分類是否準(zhǔn)確;與學(xué)術(shù)界對行為識別的考察指標(biāo)不同,此次競賽的評價標(biāo)準(zhǔn)是wf-mAP@avg,這意味著更注重對難度較大的擁擠場景的考察,以及比較少見的動作的識別,同時對于人體框的定位的精確性要求也更高。比賽中,依圖算法的指標(biāo)達(dá)到了wf-mAP@avg 0.26,將以往學(xué)術(shù)界中的基準(zhǔn)算法提升了近3倍。且據(jù)依圖科技官方介紹,此次依圖科技行為識別技術(shù)主要有以下四大亮點:
1、算法性能:有了極為突破性的提升,是所有參賽隊伍中的最優(yōu)。
相較于人臉這種算法流程、算法框架已經(jīng)相對確定,并且發(fā)展比較成熟的領(lǐng)域而言,行為尤其是人的行為識別,還處于一種學(xué)術(shù)界還在探索的階段。主辦方給出了2018年 CVPR上的算法解決方案, 對應(yīng)的指標(biāo)是: 0.0688(越高越好);依圖在參賽中實現(xiàn)了學(xué)術(shù)界上2020年最好的已有解決方案(指標(biāo)是: 0.12),而最終通過依圖的算法,指標(biāo)是 0.26,足足提升了1倍以上,相較于以往學(xué)術(shù)界最優(yōu)算法,是極為突破性的提升。
2、創(chuàng)新性地將算法與場景結(jié)合,進(jìn)行深度算法優(yōu)化
結(jié)合場景分析——創(chuàng)新性的從視頻中自動提取到了豐富準(zhǔn)確的場景信息(如: 馬路、樓梯、桌椅等信息),結(jié)合先進(jìn)的行人檢測、行人重識別算法,全面實現(xiàn)了人與人、人與場景、人與物之間在視頻中的關(guān)系,這些詳細(xì)的結(jié)構(gòu)化信息為準(zhǔn)確的行為識別提供了可靠的依據(jù),準(zhǔn)確性上是所有參賽隊伍中最好的。
基于在智能城市行業(yè)長期積累,依圖科技借助在智能城市場景下的長期算法積淀,和對行業(yè)場景的深入理解,,進(jìn)行了深度算法優(yōu)化(傳統(tǒng)方法屬于通用算法, 沒有對此類場景下的行為進(jìn)行過特定優(yōu)化);針對需求優(yōu)化算法,對特定的這14類任務(wù)進(jìn)行算法上的優(yōu)化。
3、算法效率高
不同于其他參賽隊伍,依圖的行為識別模塊沒有使用復(fù)雜的多模型融合策略,僅適用單模型就超過了其他隊伍多模型融合的結(jié)果,具備極高的識別效率。
依圖算法借助強(qiáng)大的背景提取和分割算法,將行為的解析與場景結(jié)合,大大的降低了問題難度,使得即便是單個模型也可以取得遠(yuǎn)超多模型融合的效果。
此外,需要提及的是,由于本屆為第一屆行為識別相關(guān)類挑戰(zhàn)賽,參賽隊伍在賽前也無法了解識別的類別、數(shù)據(jù)集的大小和識別的具體需求。而依圖科技在短短一個多月的時間內(nèi),設(shè)計出最優(yōu)的算法,,并在眾多實力強(qiáng)勁的隊伍中達(dá)到世界第一,可想而知,技術(shù)能力極其高超。
未來可期,依圖行為識別大有可為!
人臉識別成熟和發(fā)展,正在構(gòu)造一個前所未有的“刷臉時代”。那隨著更多“星辰與大海”的攻克,行為識別技術(shù)又將構(gòu)造一個怎樣的智能新世界呢?
想象一下,未來在智慧城市的大體系中,運用行為識別技術(shù)或可以檢測特定場合下的異常行為事件(搶劫、打架、糾紛、倒地)并及時預(yù)警、在家中老人倒地時讓及時預(yù)警并第一時間告知監(jiān)護(hù)人、檢測工人是否在遵循操作流程生產(chǎn)作業(yè)(開車打電話、施工順序出錯、快遞扔件等)以及在一個視頻中對內(nèi)容進(jìn)行精準(zhǔn)理解,并為其貼上更合適的標(biāo)簽……
結(jié)合依圖高性能的AI芯片和世界領(lǐng)先的行為識別算法,未來行為識別技術(shù)將實現(xiàn)上述所有的想象場景,并將解鎖更多的智能應(yīng)用場景,如智能城市、安全生產(chǎn)、智慧養(yǎng)老、智慧校園、智慧娛樂等等。在提升城市AI智能水平、減輕人工成本的同時, 為提升城市智能密度、確保安全生產(chǎn)、智慧金融等保駕護(hù)航。
行為識別大有可為,而依圖科技未來還將帶來更多的驚喜。
新基建趨勢下,各行各業(yè)加快數(shù)字化,提升各類工作的智能水平成為剛需。作為目前國內(nèi)唯一具有提供超大規(guī)模、復(fù)雜環(huán)境下億級規(guī)模城市的智能化運營管理技術(shù)能力的人工智能公司,依圖科技在硬核的技術(shù)實力和隱私保障上的不斷努力已形成一套“組合拳”,也即將加速解鎖更多的智能應(yīng)用。
未來,值得期待!