文/陳海檑 浙江大華技術(shù)股份有限公司產(chǎn)品經(jīng)理 責(zé)任編輯/喻力
現(xiàn)階段人臉識別
近年隨著全球各大研究所、實驗室的日夜兼程,人臉識別技術(shù)日益提高,識別率達(dá)到99%以上,從而演變出來的功能也種類繁多并應(yīng)用到各個領(lǐng)域。而直接相關(guān)的安防、互聯(lián)網(wǎng)及金融等領(lǐng)域更是迅速將技術(shù)產(chǎn)品化推向市場。一時間,人臉識別成為了各大行業(yè)的熱點技術(shù)方向。據(jù)筆者統(tǒng)計,在2015年的中國國際社會公共安全博覽會上,至少有20家企業(yè)展示了自家的人臉識別產(chǎn)品。其中既有鉆研技術(shù)深度的尚湯、FACE++、依圖這樣的學(xué)術(shù)型廠家,也有筆者公司這樣的大安防廠商。同時,眾多媒體也接連報道了人臉識別技術(shù)在學(xué)術(shù)界和工業(yè)界取得的巨大成果:比如15年,中科奧森在LFW人臉識別數(shù)據(jù)集上取得了99.7%的識別率(見表1),與百度持平刷新了年初谷歌的記錄;阿里巴巴集團(tuán)執(zhí)行主席馬云在德國展會上演示了人臉識別與支付寶的結(jié)合應(yīng)用,“刷臉支付”將走向生活;更有公安部門的多個案例,將科幻大片的情景帶入我們的智慧城市中。
表1 在LFW無約束、有標(biāo)注的室外照片集上的識別率結(jié)果
人臉識別技術(shù)深度
人臉識別技術(shù)已超人眼
在此之前,湯曉鷗的研究組開發(fā)了一個基于高斯過程的人臉識別技術(shù)GaussianFace (高斯臉),取得了98.52%的識別率。這也是計算機自動識別算法的識別率首次超過肉眼。
湯曉鷗的研究組在人臉識別領(lǐng)域有十幾年的研究經(jīng)歷。他們從2011年開始開展深度學(xué)習(xí)方法的研究工作,在2013年達(dá)到了92.52%的識別率。過去一年,他們將這一數(shù)字提高到99.15%,2015年,湯曉鷗和王曉剛的研究組曾發(fā)布了一套基于深度學(xué)習(xí)的人臉識別算法,在LFW上取得了當(dāng)時最高的97.45%的識別率。與此同時,F(xiàn)acebook發(fā)布了另一套基于深度學(xué)習(xí)的人臉識別算法DeepFace,在LFW上取得了97.35%的識別率。DeepFace需要700多萬人臉數(shù)據(jù)作為訓(xùn)練。而DeepID僅使用了20萬張人臉數(shù)據(jù)以及數(shù)臺Nvidia K40 GPU。目前,湯曉鷗實驗室的三個人臉識別算法占據(jù)了LFW識別率的前三名,而Facebook的DeepFace排在第四。
湯曉鷗認(rèn)為,人臉識別領(lǐng)域還有大量的工作需要做,很多算法需要在實際應(yīng)用中得到不斷的改進(jìn)和提高。他的實驗室已經(jīng)基于最新的技術(shù)突破制作出完整的一套人臉圖像處理系統(tǒng)SDK,包括人臉檢測,人臉關(guān)鍵點對準(zhǔn),人臉識別,表情識別,性別識別,年齡估計等各種基礎(chǔ)技術(shù)包。
3D人臉識別技術(shù)
3D人臉識別技術(shù)是未來的另外一個方向。本文到目前為止所討論的范疇限定在2D圖像上。人臉實質(zhì)上是一個立體模型,而2D人臉識別容易受到姿態(tài)、光照、表情等因素影響,是因為2D圖像本身有一個缺陷,無法很好地表示深度信息。如果說深度學(xué)習(xí)是從人的認(rèn)知角度來理解人臉識別,那么3D技術(shù)就是從現(xiàn)實模型來反映人臉識別。
目前關(guān)于3D人臉識別方向的算法研究并沒有2D人臉識別技術(shù)那么豐富和深入。許多因素限制了這項技術(shù)的發(fā)展提升。首先,3D人臉識別往往需要特定的采集設(shè)備,如3D攝像機、紅外雙目或雙目攝像機。目前這類采集設(shè)備價格還比較昂貴,技術(shù)還不能普遍應(yīng)用,場景比較特定。其次,3D建模過程需要的計算量較大,對硬件要求較高,也限制了目前的應(yīng)用。第三,3D人臉識別數(shù)據(jù)庫比較稀少,研究者缺少訓(xùn)練樣本和測試樣本,無法開展更深入的理論研究。相信隨著未來芯片技術(shù)和傳感器的發(fā)展,當(dāng)計算能力不再受到制約,3D采集設(shè)備成本大幅下降的時候,3D人臉識別將取得重要的突破。
人臉識別技術(shù)的應(yīng)用
常見可行性應(yīng)用
目前人臉識別技術(shù)的提高,促使各行各業(yè)都開始廣泛試驗引用這一技術(shù)(見表2),在某些領(lǐng)域取得了一定的成效。
表2 人臉識別的應(yīng)用領(lǐng)域
以公安應(yīng)用為例,利用人臉檢索系統(tǒng),將目標(biāo)人臉輸入到系統(tǒng)中。系統(tǒng)自動在海量人口數(shù)據(jù)庫中進(jìn)行查找比對,列出前若干名相似的人員信息。然后再通過人工篩選的方式,對系統(tǒng)結(jié)果進(jìn)行篩選,得到目標(biāo)的真實身份。
公安行業(yè)還有一類比較重要的應(yīng)用:人員布控。在一些重要的通道出入口,部署高清探頭,專門用于抓拍經(jīng)過的人臉并傳送給后端系統(tǒng)。后端系統(tǒng)將人臉圖片與所關(guān)注的人臉庫(如在逃嫌疑犯等)進(jìn)行逐一比對。當(dāng)發(fā)現(xiàn)有目標(biāo)與庫中人員相似度超過設(shè)定閾值時,系統(tǒng)自動提示相關(guān)人員采取措施。
金融行業(yè)中的利用,將事先錄入庫中的身份信息的人臉圖片作為依據(jù),利用1:1對比的方式進(jìn)行對比。刷卡,攝像機攝取人臉信息。只需2步即可完成身份認(rèn)證,達(dá)到了刷臉取款的效果。當(dāng)然目前看來,在當(dāng)前的社會環(huán)境前提下,人臉識別的方式以輔助取款的模式存在,用于提高取款安全性的利用更為恰當(dāng)。在不久的將來,技術(shù)及社會環(huán)境更加合適的時候可直接利用。
而同樣在一些機場,海關(guān),港口,車站等公共場所,合理利用1:1人臉識別功能,加以適當(dāng)?shù)娜藶楦深A(yù),可以很好的提高效率,節(jié)省社會成本。
限制性條件的影響
雖然人臉識別技術(shù)功用巨大,但在實際應(yīng)用中,我們往往會遇到很多問題。人臉圖像質(zhì)量對識別率的影響較高。圖像質(zhì)量差,辨識度低,有效特征很少,有時即使用肉眼也很難確認(rèn)身份。圖像質(zhì)量又受多種因素影響,如光照、姿態(tài)、表情、人臉尺寸、清晰度等。圖3是同一個人在不同光照下的圖片,很直觀地可以看出,即使是同一個人,在不同光照下用肉眼也很難辨別。所以說,目前的人臉識別系統(tǒng)只能在一些較規(guī)范的環(huán)境下進(jìn)行,如滿足光線均勻,人臉需要正對著攝像機、保證人臉在畫面中有一定的像素寬度等條件。但是在實際的安防監(jiān)控場合中,這些限制條件卻很難滿足。
圖3 同一個人在不同光照下的圖片
第二個問題是隨著人臉數(shù)據(jù)庫規(guī)模的不斷擴(kuò)大,識別率也會隨之下降。傳統(tǒng)的人臉識別算法在訓(xùn)練階段能夠利用的數(shù)據(jù)樣本有限,訓(xùn)練出來的算法模型并沒有特別好的泛化能力。特別是在百萬、千萬級的人臉檢索任務(wù)中,結(jié)果并不理想。所以,控制數(shù)據(jù)庫規(guī)??梢灾苯佑绊憫?yīng)用的識別結(jié)果。例如,前文表1中的某家企業(yè)曾做過一項有趣的測試,其開發(fā)的Face++算法曾在LFW數(shù)據(jù)集上達(dá)到99.5%的準(zhǔn)確率,但是在一個真實的安防認(rèn)證應(yīng)用中,他們發(fā)現(xiàn),處理真實場景的人臉識別時,機器與人還存在非常明顯的差距。他們在一個百萬級的中國人群測試集上進(jìn)行測試,當(dāng)錯誤接受率(FAR)設(shè)定在1e-5時,識別準(zhǔn)確率僅為66%,這樣的性能顯然無法滿足安防認(rèn)證應(yīng)用的需求。而對其中錯判的樣例進(jìn)行人工測試識別時發(fā)現(xiàn),90%的錯判結(jié)果都可以被人準(zhǔn)確判斷。也許換一種思路,將機器識別和人工確認(rèn)相結(jié)合,對于現(xiàn)在的許多應(yīng)用來說更加妥當(dāng)。
對于公安實例中,拋去車站,機場,安檢,出入口這些可通過管理限制來滿足環(huán)境需求的點外,其他事故高發(fā)地則很難布控。例如人員聚集的廣場,人煙稀少的野外。往往會成為犯罪分子活動的不二選擇,但是環(huán)境因素為他們提供有效的盲點跟死角,能輕易避開。這樣就很難有效的利用人臉識別中的技術(shù)。
行業(yè)標(biāo)準(zhǔn)也在日益完善
為了規(guī)范行業(yè)應(yīng)用,國家和行業(yè)相關(guān)標(biāo)準(zhǔn)委員會也做了很多努力。相關(guān)部門已經(jīng)制訂并發(fā)布了五項人臉識別標(biāo)準(zhǔn),分別是《GA/T 922.2-2011 安防人臉識別應(yīng)用系統(tǒng) 第2部分:人臉圖像數(shù)據(jù)》、《GA/T 1093-2013 出入口控制人臉識別系統(tǒng)技術(shù)要求》、《GA/T 1126-2013 近紅外人臉識別設(shè)備技術(shù)要求》、《GA/T 1212-2014 安防人臉識別應(yīng)用防假體攻擊測試方法》和《GB/T 31488-2015 安全防范視頻監(jiān)控人臉識別系統(tǒng)技術(shù)要求》。這些標(biāo)準(zhǔn)有利于統(tǒng)一測試標(biāo)準(zhǔn)和應(yīng)用場景,得到對相關(guān)產(chǎn)品的準(zhǔn)確評價,進(jìn)而規(guī)范市場環(huán)境,變無序為有序,這無論是對廠商還是用戶來說都有著非常重要的意義。
人臉識別技術(shù)理性回歸實際
在城市治安監(jiān)控中,雖然對人臉識別的需求很大,但是到目前為止,從技術(shù)上還達(dá)不到在治安畫面中實現(xiàn)識別的水平。原因主要有三點:一是治安監(jiān)控看的往往是整體切面,即使在沒有遮擋的情況下,人臉在圖像中不夠清晰,像素點達(dá)不到識別要求;二是治安監(jiān)控是由高往下看,這種角度下,與正面的平面圖像相貌相差較大;三是光照影響,在露天環(huán)境下,常常因為背光使得人臉發(fā)黑,無法辨別,或者局部發(fā)黑,形成陰陽臉,這也極大的影響識別的效果。因此,在治安監(jiān)控環(huán)境下,進(jìn)行人臉識別是目前還難以克服的。
但是,也有不少項目中使用了該技術(shù),在交通樞紐的安檢口,如飛機安檢口、火車站安檢口進(jìn)行人臉識別的試點,把過往乘客的抓拍照片與在逃庫進(jìn)行比對,希望達(dá)到追逃的效果。在安檢處設(shè)立人臉抓拍機正好彌補了一般治安監(jiān)控的不足:專機專用,保證臉部圖像的像素;角度相對較低,容易拍到人臉的正面圖像;在室內(nèi),無光照變化影響,同時光源分布均勻,無陰陽臉的現(xiàn)象。雖然在成像上克服了治安監(jiān)控的不足,但是筆者認(rèn)為這樣的應(yīng)用還是難以大面積的推廣,原因有:職責(zé)不清——交通樞紐站的職責(zé)是保持上下客的次序,抓逃不是其工作內(nèi)容,這些職能部門確實也不應(yīng)該去做抓逃的事,除非有硬性規(guī)定;風(fēng)險大于收益——人臉識別只是返回一個相識度比較結(jié)果,對于其身份并無確認(rèn)能力,而13億中國人中相貌類似的很多,誤判的可能性很大,結(jié)果沒抓到正確的人反而引來旅客的投訴就不劃算了;容易偽裝——有心躲避的逃犯通過粘貼假胡子、帶墨鏡等偽裝可以很容易騙過機器的識別。
那么,是否人臉識別技術(shù)在平安城市中就沒有用武之地了呢?答案是否定的。移動終端與云計算的興起給了人臉識別一個打翻身戰(zhàn)的好機會。
前面說到的治安應(yīng)用與交通樞紐的應(yīng)用都是非接觸式,這些都受制于識別的條件與效果。但如果民警要求嫌疑人擺正位置,用手機或其他終端對其人像進(jìn)行拍攝,并把人臉圖片傳回到數(shù)據(jù)中心進(jìn)行身份識別,這樣的準(zhǔn)確率是很高的,而且業(yè)務(wù)上也有這樣的需求,如民警進(jìn)行外來人口聚集地排查,當(dāng)對方不提供身份證時,可用類似的方法確認(rèn)其身份;另外,對于一些沒有身份證信息的尸體,只要面部特征完好,也可以用類似的方法快速確認(rèn)其身份。由于身份證庫巨大,在真正實施中,還需要應(yīng)用到云計算的技術(shù)進(jìn)行分布式處理。
總結(jié)語
近年來安防行業(yè)的迅速發(fā)展,為人臉識別技術(shù)的應(yīng)用帶來了挑戰(zhàn),也提高了大眾的關(guān)注度可使這一技術(shù)更好更快的研究發(fā)展。有業(yè)內(nèi)人士指出,智能視頻分析將是大安防市場未來的發(fā)展方向之一。而人臉識別是其中非常重要的技術(shù)和應(yīng)用。充分將人臉技術(shù)與實際應(yīng)用做深度結(jié)合,達(dá)成更加可行性的方案。加上國家和行業(yè)標(biāo)準(zhǔn)正逐步地建立與實施。在標(biāo)準(zhǔn)的引導(dǎo)下,人臉識別產(chǎn)品和技術(shù)迎來新一輪的轉(zhuǎn)變與提升也會是必然發(fā)展方向。