近年來(lái), 隨著人工智能、計(jì)算機(jī)視覺(jué)、大數(shù)據(jù)、云計(jì)算、芯片等技術(shù)的迅速發(fā)展,人臉識(shí)別技術(shù)取得了長(zhǎng)足的進(jìn)步并且在眾多場(chǎng)景中得以成功應(yīng)用并大規(guī)模商業(yè)化普及,為經(jīng)濟(jì)社會(huì)的發(fā)展以及人們?nèi)粘I顜?lái)便捷 。
就市場(chǎng)發(fā)展趨勢(shì)而言, 人臉識(shí)別應(yīng)用場(chǎng)景雖然滲透各個(gè)行業(yè)場(chǎng)景, 但市場(chǎng)規(guī)模增長(zhǎng)趨勢(shì)出現(xiàn)分化, 國(guó)內(nèi)市場(chǎng)呈現(xiàn)從算法競(jìng)爭(zhēng)到芯片全產(chǎn)業(yè)鏈激烈競(jìng)爭(zhēng)的狀態(tài); 就技術(shù)發(fā)展層面, 邊緣端 SOC 芯片算力的提升使得人臉識(shí)別系統(tǒng)中的部分甚至全部算法可以運(yùn)行在邊緣設(shè)備上, 從而使云邊結(jié)合已成為人臉識(shí)別產(chǎn)品和應(yīng)用方案的發(fā)展趨勢(shì)。
本期的智能內(nèi)參,我們推薦全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)的研究報(bào)告《2020 年人臉識(shí)別行業(yè)研究報(bào)告》,從技術(shù)特點(diǎn)、行業(yè)發(fā)展趨勢(shì)和標(biāo)準(zhǔn)化現(xiàn)狀三方面還原人臉識(shí)別技術(shù)的最新發(fā)展?fàn)顩r。
一、什么是人臉識(shí)別?
人臉識(shí)別 ( Face Recognition) 是一種基于人的面部特征信息進(jìn)行身份識(shí)別的生物特征識(shí)別技術(shù) 。 近年來(lái) , 隨著人工智能 、 計(jì)算機(jī)視覺(jué) 、 大數(shù)據(jù) 、 云計(jì)算 、 芯片等技術(shù)的迅速發(fā)展 , 人臉識(shí)別技術(shù)取得了長(zhǎng)足的進(jìn)步并且在眾多場(chǎng)景中得以成功應(yīng)用 。
廣義的人臉識(shí)別實(shí)際包括構(gòu)建人臉識(shí)別系統(tǒng)的一系列相關(guān)技術(shù) , 包括人臉視圖采集 、 人臉定位 、 人臉識(shí)別預(yù)處理 、 身份確認(rèn)以及身份查找等 ; 而狹義的人臉識(shí)別特指通過(guò)人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)和系統(tǒng) 。 此外 , 部分應(yīng)用場(chǎng)景下還可能涉及質(zhì)量評(píng)價(jià) 、 活體檢測(cè)等算法模塊。
人臉識(shí)別的應(yīng)用模式主要包括三種:
?。?)、人臉驗(yàn)證 (Face Verification) : 判定兩張人臉圖像是否屬于同一個(gè)人 ,常用于身份認(rèn)證如人證核驗(yàn) 。
?。?)、人臉辨識(shí) ( Face Identification) : 給定一張人臉圖像 , 判斷是否在注冊(cè)庫(kù)中 , 若在則返回具體的身份信息 , 常用于靜態(tài)檢索或動(dòng)態(tài)布控 。
?。?)、人臉聚類 ( Face Clustering) : 給定一批人臉圖像 , 將相同人的圖像歸類到同一個(gè)類 , 不同人的劃分為不同的類 , 常見(jiàn)的應(yīng)用有智能相冊(cè) 、 一人一檔等 。
1、發(fā)展歷程
人臉識(shí)別的研究開(kāi)始于 20 世紀(jì) 60 年代 , 到 90 年代進(jìn)入了初級(jí)應(yīng)用階段 ,主要停留在學(xué)術(shù)研究和小范圍的實(shí)驗(yàn)室環(huán)境應(yīng)用 , 直到 2012 年后的深度學(xué)習(xí)的復(fù)興 , 人臉識(shí)別技術(shù)取得歷史性的進(jìn)步 , 真正實(shí)現(xiàn)大規(guī)模商業(yè)化普及 , 且識(shí)別能力已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了人類的常規(guī)辨識(shí)度 。
目前 , 從全球人臉識(shí)別技術(shù)領(lǐng)域的應(yīng)用場(chǎng)景布局來(lái)看 , 安防 、 金融 、 交通 、 樓宇等是相對(duì)較為成熟的領(lǐng)域 , 而在零售 、 廣告 、 智能設(shè)備 、 教育 、 醫(yī)療 、 娛樂(lè)等領(lǐng)域也均有較多應(yīng)用場(chǎng)景 , 為經(jīng)濟(jì)社會(huì)的發(fā)展以及人們?nèi)粘I畹谋憬輲?lái)了新機(jī)遇 。
2、政策現(xiàn)狀
隨著人工智能技術(shù)水平的迅速發(fā)展與經(jīng)濟(jì)發(fā)展水平的穩(wěn)步踏進(jìn) , 在大數(shù)據(jù)應(yīng)用的帶領(lǐng)下 , 人臉識(shí)別技術(shù)在智慧城市 、 安防市場(chǎng)等行業(yè)得到了廣闊的應(yīng)用 ,與此同時(shí)人臉識(shí)別技術(shù)應(yīng)用過(guò)程所涉及的監(jiān)管問(wèn)題也面臨著越來(lái)越高的挑戰(zhàn) 。面對(duì)目前正飛速發(fā)展的人臉識(shí)別技術(shù) , 我國(guó)制定了一系列政策來(lái)促進(jìn)其更健康的發(fā)展。
2017 年 7 月 , 國(guó)務(wù)院發(fā)布 《 新一代人工智能發(fā)展規(guī)劃 》 ( 國(guó)發(fā) 〔 2017 〕 35 號(hào) )指出建設(shè)安全便捷的智能社會(huì) , 圍繞行政管理 、 司法管理 、 城市管理 、環(huán)境保護(hù)等社會(huì)治理的熱點(diǎn)難點(diǎn)問(wèn)題 , 促進(jìn)人工智能技術(shù)應(yīng)用 , 推動(dòng)社會(huì)治理現(xiàn)代化 。同時(shí) , 圍繞社會(huì)綜合治理 、 新型犯罪偵查 、 反恐等迫切需求 , 提出研發(fā)視頻圖像信息分析識(shí)別技術(shù) 、 生物特征識(shí)別技術(shù)的智能安防與警用產(chǎn)品 , 建立智能化監(jiān)測(cè)平臺(tái)的要求。
全國(guó)人大在 2018 年修正的 《 中華人民共和國(guó)反恐怖主義法 》 第五十條提到 :公安機(jī)關(guān)調(diào)查恐怖活動(dòng)嫌疑 , 可以依照有關(guān)法律規(guī)定對(duì)嫌疑人員進(jìn)行盤問(wèn) 、 檢查 、 傳喚 , 可以提取或者采集肖像 、 指紋 、 虹膜圖像等人體生物識(shí)別信息和血液 、 尿液 、 脫落細(xì)胞等生物樣本 , 并留存其簽名 。
2019 年 9 月 , 中國(guó)人民銀行印發(fā)的 《 金融科技 ( FinTech ) 發(fā)展規(guī)劃 ( 2019-2021 年 ) 》 ( 以下簡(jiǎn)稱規(guī)劃 ) , 明確提出構(gòu)建適應(yīng)互聯(lián)網(wǎng)時(shí)代的移動(dòng)終端可信環(huán)境 , 充分利用可信計(jì)算 、 安全多方計(jì)算 、 密碼算法 、 生物識(shí)別等信息技術(shù),建立健全兼顧安全與便捷的多元化身份認(rèn)證體系 , 不斷豐富金融交易驗(yàn)證手段,保障移動(dòng)互聯(lián)環(huán)境下金融交易安全 , 提升金融服務(wù)的可得性 、 滿意度與安全水平 。
同時(shí) , 《 規(guī)劃 》 也提出強(qiáng)化需求引領(lǐng)作用 , 主動(dòng)適應(yīng)數(shù)字經(jīng)濟(jì)環(huán)境下市場(chǎng)需求的快速變化 , 在保障客戶信息安全的前提下 , 利用大數(shù)據(jù) 、 物聯(lián)網(wǎng)等技術(shù)分析客戶金融需求 , 借助機(jī)器學(xué)習(xí) 、 生物識(shí)別 、 自然語(yǔ)言處理等新一代人工智能技術(shù) , 提升金融多媒體數(shù)據(jù)處理與理解能力 , 打造 “ 看憧文字 ” 、 “ 聽(tīng)懂語(yǔ)言 ” 的智能金融產(chǎn)品與服務(wù) , 這也為人臉識(shí)別的安全應(yīng)用提供了思路 。
2019 年 9 月 , 工業(yè)和信息化部公開(kāi)征求對(duì) 《 關(guān)于促進(jìn)網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展的指導(dǎo)意見(jiàn) 》 ( 征求意見(jiàn)稿 ) , 表示支持構(gòu)建基于商用密碼 、 指紋識(shí)別 、 人臉識(shí)別等技術(shù)的網(wǎng)絡(luò)身份認(rèn)證體系 , 著力提升支撐網(wǎng)絡(luò)安全管理 、 應(yīng)對(duì)有組織高強(qiáng)度攻擊的能力 , 明確了生物特征識(shí)別技術(shù)在網(wǎng)絡(luò)安全產(chǎn)業(yè)發(fā)展中的重要意義 。
2020 年 11 月初 《 中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃綱要 ( 建議稿 ) 》 ( 以下簡(jiǎn)稱 《 建議稿 》 ) 全文發(fā)布 , 其中明確提出加快壯大新一代信息技術(shù) 、 生物技術(shù)等產(chǎn)業(yè) , 推動(dòng)互聯(lián)網(wǎng) 、 大數(shù)據(jù) 、 人工智能等同各產(chǎn)業(yè)深度融合 , 培育新技術(shù) 、 新產(chǎn)品 、 新業(yè)態(tài) 、 新模式 。
發(fā)展數(shù)字經(jīng)濟(jì) , 加強(qiáng)數(shù)字社會(huì) 、 數(shù)字政府建設(shè) , 提升公共服務(wù) , 社會(huì)治理等數(shù)字化智能水平 。 同時(shí)提出 , 統(tǒng)籌發(fā)展和安全 , 建設(shè)更高水平的平安中國(guó) , 加強(qiáng)社會(huì)治安防控體系建設(shè) 。該規(guī)劃的出臺(tái)為人臉識(shí)別技術(shù)和行業(yè)未來(lái) 5 年的發(fā)展規(guī)定了目標(biāo)和方向 。
信息安全層面 , 2016 年 11 月全國(guó)人大通過(guò)的 《 網(wǎng)絡(luò)安全法 》 中將個(gè)人生物識(shí)別信息的管理進(jìn)一步細(xì)化 , 范圍進(jìn)一步明確 。 國(guó)家網(wǎng)信辦有關(guān)負(fù)責(zé)人表示,《 網(wǎng)絡(luò)安全法 》 的公布和施行不僅保障廣大群眾的切身利益 , 還有利于高新技術(shù)的應(yīng)用 , 進(jìn)而激發(fā)互聯(lián)網(wǎng)的巨大潛力 。
2020 年 7 月由全國(guó)人大公布的 《 數(shù)據(jù)安全法 》 草案為數(shù)據(jù)加上 “ 防護(hù)罩 ” , 明確數(shù)據(jù)活動(dòng)的紅線 , 將來(lái)在 “ 數(shù)據(jù)主權(quán) 、 數(shù)據(jù)經(jīng)營(yíng) 、 數(shù)據(jù)交易 ” 等方面 , 通過(guò)法律條文的形式 , 推動(dòng)數(shù)據(jù)時(shí)代的快速發(fā)展 。 國(guó)家堅(jiān)持保障數(shù)據(jù)安全與發(fā)展并重 , 鼓勵(lì)研發(fā)數(shù)據(jù)安全保護(hù)技術(shù) ,積極推進(jìn)數(shù)據(jù)資源開(kāi)發(fā)利用 , 保障數(shù)據(jù)依法有序自由流動(dòng) 。
2020 年 10 月 21日全國(guó)人大公布的 《 個(gè)人信息保護(hù)法 ( 草案 ) 》 規(guī)定了個(gè)人信息是以電子或者其他方式記錄的與已識(shí)別或者可識(shí)別的自然人有關(guān)的各種信息 ; 規(guī)定了個(gè)人信息的處理包括個(gè)人信息的收集 、 存儲(chǔ) 、 使用 、 加工 、 傳輸 、 提供 、 公開(kāi)等活動(dòng)的要求 。
二、技術(shù)細(xì)節(jié)
1、 人臉識(shí)別技術(shù)原理
當(dāng)今主流的人臉識(shí)別算法 , 主要包括人臉檢測(cè) 、 人臉預(yù)處理 、 特征項(xiàng)提取 、比對(duì)識(shí)別 、 活體鑒別五大步驟 。 其中人臉檢測(cè) 、 人臉預(yù)處理 、 特征項(xiàng)提取可統(tǒng)稱為人臉視圖解析過(guò)程 , 即從視頻和圖像中檢測(cè)出人臉 , 通過(guò)圖像質(zhì)量判斷 ,選取合適的人臉圖片 , 提取人臉特征向量 , 用于后續(xù)比對(duì)識(shí)別 ; 比對(duì)識(shí)別處理可以分為人臉驗(yàn)證 ( 1 :1 ) 和人臉辨識(shí) ( 1 :N ) 兩類 ; 活體鑒別算法用以判斷人臉識(shí)別處理中的人臉圖像 , 是否采集自真實(shí)人體 。
在實(shí)際應(yīng)用中 , 除了上述人臉識(shí)別算法 , 前端視圖采集技術(shù) 、 人臉數(shù)據(jù)存儲(chǔ)技術(shù) 、 應(yīng)用軟件管理技術(shù)也是人臉識(shí)別技術(shù)應(yīng)用中重要的技術(shù)部分 。
2、 人臉識(shí)別的研究機(jī)構(gòu)介紹
人臉識(shí)別作為最受關(guān)注的生物特征識(shí)別技術(shù) , 國(guó)內(nèi)外有眾多科研院所 、 高等院校 、 企業(yè)等機(jī)構(gòu)開(kāi)展人臉識(shí)別相關(guān)技術(shù)的研究 、 開(kāi)發(fā)和應(yīng)用 。 截止 2020年 10 月 , 據(jù)企查查數(shù)據(jù)統(tǒng)計(jì) , 全國(guó)共有 10443 家企業(yè)的名稱 、 產(chǎn)品 、 品牌 、經(jīng)營(yíng)范圍涵蓋 “ 人臉識(shí)別 ” , 從成立時(shí)間來(lái)看 , 近 5 年相關(guān)企業(yè)數(shù)量不斷劇增 ,2019 年成立了 1955 家, 2020 年僅 10 月前就新增 1139 家 。
科研機(jī)構(gòu)。人臉識(shí)別技術(shù)廣受學(xué)術(shù)和產(chǎn)業(yè)研究機(jī)構(gòu)關(guān)注 。 全球范圍內(nèi) , 有眾多知名學(xué)術(shù)機(jī)構(gòu)在從事人臉識(shí)別領(lǐng)域的技術(shù)研究 , 比較有代表性的人臉識(shí)別技術(shù)研究機(jī)構(gòu)包括斯坦福大學(xué) 、 加州大學(xué)伯克利分校 、 美國(guó)馬薩諸塞大學(xué) 、 牛津大學(xué) 、 多倫多大學(xué) 、 香港中文大學(xué) 、 中科院自動(dòng)化所 、 清華大學(xué)等 。
?。?)、斯坦福大學(xué)。斯坦福大學(xué)是最早在人臉識(shí)別技術(shù)上取得突破的研究機(jī)構(gòu)之一 。 由華人科學(xué)家李飛飛教授領(lǐng)街的計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室 , 通過(guò)每年度基于 ImageNet 數(shù)據(jù)庫(kù)舉辦的大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽 ( ILSVRC) , 極大的促進(jìn)了人臉識(shí)別和計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展 。
近期 , 斯坦福大學(xué)的研究團(tuán)隊(duì)研發(fā)出一款人臉跟蹤軟件 Face2Face, 它可以通過(guò)攝像頭捕捉用戶的動(dòng)作和面部表情 , 然后使用 Face2Face 軟件驅(qū)動(dòng)視頻中的目標(biāo)人物做出一模一樣的動(dòng)作和表情 , 效果極其逼真 。 這項(xiàng)技術(shù)使用一種密集光度一致性方法 (dense photometric consistency measure) 來(lái)實(shí)時(shí)跟蹤源和目標(biāo)視頻中的面部表情 。
研究人員們稱 ,由于源素材與被拍攝者之間快速而有效的變形傳遞 , 從而使復(fù)制面部表情成為可能 。 由于嘴形與其所說(shuō)的內(nèi)容高度匹配 , 因此可以產(chǎn)生非常準(zhǔn)確 、 可信的契合 。
?。?)、加州大學(xué)伯克利分校。加州大學(xué)伯克利分校是國(guó)外人臉識(shí)別技術(shù)研究的重要發(fā)源地 , 早在 2005年就有關(guān)于人臉識(shí)別相關(guān)研究的理論工作 。 其中馬毅 2008 年發(fā)表的 Sparsity and Robustness in Face Recognition, 在谷歌學(xué)術(shù)已獲得 6321 余次的引用 , 在深度神經(jīng)網(wǎng)絡(luò)被大家廣泛應(yīng)用之前 , 是主流的人臉識(shí)別算法 。 在這篇文章中作者把稀疏表示理論應(yīng)用到人臉識(shí)別這個(gè)場(chǎng)景中 , 提出了一個(gè)通用分類算法用于人臉識(shí)別 。
這個(gè)新的框架為人臉識(shí)別領(lǐng)域的兩個(gè)關(guān)鍵課題(特征項(xiàng)提取和對(duì)遮擋的魯棒性)上提供了更好的理論指導(dǎo)。此外,該實(shí)驗(yàn)室近期在用低維模型處理高維數(shù)據(jù)、 特征選擇等理論方向上有一定的產(chǎn)出, 提出了一種新型特征選擇方法 (Conditional Covariance Minimization, CCM) , 該方法基于最小化條件協(xié)方差算子的跡來(lái)進(jìn)行特征選擇, 取得了較為突出的效果 。
?。?)、美國(guó)馬薩諸塞大學(xué)。美國(guó)馬薩諸塞大學(xué)也是國(guó)外人臉識(shí)別技術(shù)研究的重要發(fā)源地 , 開(kāi)源了知名的人臉檢測(cè)數(shù)據(jù)庫(kù) FDDB 和人臉識(shí)別數(shù)據(jù)集 LFWo FDDB 是全世界最具權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái)之一 , 其中包含 2845 張圖片 , 共有 5171 個(gè)人臉作為測(cè)試集 。測(cè)試集范圍包括不同姿勢(shì) 、 不同分辨率 、 旋轉(zhuǎn)和遮擋等圖片 , 同時(shí)包括灰度圖和彩色圖 , 截止到目前 FDDB 所公布的評(píng)測(cè)集仍然代表了目前人臉檢測(cè)的世界最高水平 。
馬薩諸塞大學(xué)還在 2007 年建立了人臉識(shí)別評(píng)測(cè)數(shù)據(jù)集 LFW, 用于評(píng)測(cè)非約束條件下的人臉識(shí)別算法性能 , 截至到目前是人臉識(shí)別領(lǐng)域使用最廣泛的評(píng)測(cè)集合 。 該數(shù)據(jù)集由 13000 多張全世界知名人士互聯(lián)網(wǎng)自然場(chǎng)景不同朝向 、 表情和光照環(huán)境人臉圖片組成 , 共 5000 多人 , 其中 1680 人有 2 張或 2張以上人臉圖片 。 每張人臉圖片都有其唯一的姓名 ID 和序號(hào)加以區(qū)分 。 LFW測(cè)試正確率 , 代表了人臉識(shí)別算法在處理不同種族 、 光線 、 角度 、 遮擋等情況下識(shí)別人臉的綜合能力。
(4)、牛津大學(xué)。牛津大學(xué) VGG (視覺(jué)幾何)組實(shí)驗(yàn)室從 2015 年開(kāi)始人臉識(shí)別相關(guān)研究 ,包括具有影響力的人臉數(shù)據(jù)庫(kù)的發(fā)布以及深度人臉識(shí)別算法的研究 。 該實(shí)驗(yàn)室 2015 年在 BMVC 發(fā)表的 a Deep Face Recognition” 論文在谷歌學(xué)術(shù)已獲得3600 余次的引用 , 其中發(fā)布的 VGG-Face 已成為深度人臉識(shí)別領(lǐng)域最常用的數(shù)據(jù)庫(kù)之 一 。
2018 年發(fā)布了大規(guī)模人臉識(shí)別數(shù)據(jù) VGG — Face2, 是 VGG-Face的第二個(gè)版本 , 包含 331 萬(wàn)圖片 , 9131 個(gè) ID, 平均圖片數(shù)為 362.6, 且覆蓋了大范圍的姿態(tài) 、 年齡和種族等 。 VGG-Face2 發(fā)布兩年 , 已經(jīng)獲得了 800 余次引用 。 此外 , 該實(shí)驗(yàn)室近期在人臉識(shí)別置信度預(yù)測(cè) 、 基于集合的人臉識(shí)別等子方向上 , 每年產(chǎn)出一定量的學(xué)術(shù)工作 。
?。?)、多倫多大學(xué)。加拿大多倫多大學(xué)是基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)發(fā)展的重要推手之一 。著名 “ 神經(jīng)網(wǎng)絡(luò)之父 ” Geoffrey Hinton 是該校的代表性學(xué)者 , 在 Hinton 的帶領(lǐng)下 ,多倫多大學(xué)的研究者將反向傳播 (Back Propagation) 算法應(yīng)用到神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) , 通過(guò)應(yīng)用這項(xiàng)算法技術(shù) , 人臉識(shí)別技術(shù)的識(shí)別性能得到極大提高 。
近期 , 多倫多大學(xué)的研究人員在人臉識(shí)別隱私保護(hù)技術(shù)領(lǐng)域取到了一些新的進(jìn)展 , 開(kāi)發(fā)了一種動(dòng)態(tài)干擾算法來(lái)進(jìn)行人臉隱私保護(hù) 。 這種技術(shù)原理基于 “ 對(duì)抗性訓(xùn)練 ” , 通過(guò)建立起兩種相互對(duì)抗的算法 , 當(dāng)發(fā)現(xiàn)某種檢測(cè)算法正在尋找臉部特征 , 干擾算法會(huì)自動(dòng)調(diào)整這些特征 , 在照片中產(chǎn)生非常細(xì)微的干擾 , 通過(guò)這些干擾來(lái)阻礙整個(gè)檢測(cè)系統(tǒng)的檢測(cè)效果 。
?。?)、香港中文大學(xué)。作為最早投入深度學(xué)習(xí)技術(shù)研發(fā)的華人團(tuán)隊(duì) , 在多年布局的關(guān)鍵技術(shù)基礎(chǔ)之上 , 香港中文大學(xué)教授湯曉鷗率領(lǐng)的團(tuán)隊(duì)迅速取得技術(shù)突破 。 2012 年國(guó)際計(jì)算視覺(jué)與模式識(shí)別會(huì)議 ( CVPR ) 上僅有的兩篇深度學(xué)習(xí)文章均出自其實(shí)驗(yàn)室 ;2011-2013 年間在計(jì)算機(jī)視覺(jué)領(lǐng)域兩大頂級(jí)會(huì)議 ICCV 和 CVPR 上發(fā)表了 14 篇深度學(xué)習(xí)論文 , 占據(jù)全世界在這兩個(gè)會(huì)議上深度學(xué)習(xí)論文總數(shù) ( 29 篇)的近一半 。 他在 2009 年獲得計(jì)算機(jī)視覺(jué)領(lǐng)域兩大最頂尖的國(guó)際學(xué)術(shù)會(huì)議之一 CVPR最佳論文獎(jiǎng) , 這是 CVPR 歷史上來(lái)自亞洲的論文首次獲獎(jiǎng) 。
?。?)、中科院自動(dòng)化所。中科院自動(dòng)化所是國(guó)內(nèi)領(lǐng)先的模式識(shí)別領(lǐng)域研究機(jī)構(gòu) 。 多年來(lái) , 在人臉識(shí)別領(lǐng)域開(kāi)展了廣泛的研究 。 自動(dòng)化所李子青研究員領(lǐng)導(dǎo)的人臉識(shí)別研究團(tuán)隊(duì) ,提出了基于近紅外的人臉識(shí)別技術(shù) , 對(duì)光照變化影響的處理有較好的效果 ,并將該技術(shù)應(yīng)用于 2008 年北京奧運(yùn)會(huì)安保項(xiàng)目 。
自動(dòng)化所孫哲南研究員團(tuán)隊(duì) , 在生成對(duì)抗網(wǎng)絡(luò)基礎(chǔ)上提出高保真度的姿態(tài)不變模型 (High Fidelity Pose Invariant Model, HF — PIM) 來(lái)克服人臉識(shí)別任務(wù)中最為經(jīng)典的姿態(tài)不一致問(wèn)題 。實(shí)驗(yàn)結(jié)果表明 , 該方法在基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)的視覺(jué)效果和定量性能指標(biāo)都優(yōu)于目前最好的基于對(duì)抗生成網(wǎng)絡(luò)的方法 。 此外 , HF-PIM 所支持的生成圖像分辨率也在原有方法的基礎(chǔ)上提升了一倍 。
?。?)、清華大學(xué)。清華大學(xué)是國(guó)內(nèi)最早從事人臉識(shí)別技術(shù)研究的研究機(jī)構(gòu)之一 。 清華大學(xué)蘇光大教授 , 自 1980 年代就開(kāi)始了人臉識(shí)別技術(shù)研究工作 。 蘇教授提出了 1 :1 圖像采樣理論和鄰域圖像并行處理機(jī)理論 , 并在 2005 年通過(guò)多計(jì)算機(jī)并行處理技術(shù) , 顯著提高了人臉識(shí)別處理的性能 。
這項(xiàng)技術(shù)與 2012 年由多倫多大學(xué) Hinton 團(tuán)隊(duì)提出的利用并行計(jì)算來(lái)提高反向傳播算法的運(yùn)算效能有異曲同工之妙 。 同時(shí) , 蘇教授團(tuán)隊(duì)提出了最佳二維人臉 、 不同類別的多特征描述以及MMP — PCA 等一系列人臉識(shí)別的理論和方法 。
科技類企業(yè)。在人臉識(shí)別技術(shù)研究領(lǐng)域 , 眾多科技類企業(yè)也起到了至關(guān)重要的作用 。 微軟亞洲研究院較早就開(kāi)始了人臉識(shí)別技術(shù)研究 , 發(fā)表了大量?jī)?yōu)秀的學(xué)術(shù)論文 ,2018 年 , 微軟亞洲研究院提出的深度學(xué)習(xí)殘差網(wǎng)絡(luò) RESNET, 在研究領(lǐng)域得到了廣泛認(rèn)可 ; 蘋果公司在人臉識(shí)別技術(shù)上進(jìn)行了深入研究 , 自 2017 年開(kāi)始 ,就在其 iphoneX 手機(jī)上引入了刷臉解鎖功能 ;
日本電氣 (NEC) 公司也是國(guó)際上人臉識(shí)別技術(shù)的先 行者之 一 , 很早就提出了基于人臉識(shí)別技術(shù)的公共安全解決方案 ;
國(guó)內(nèi)有 “ 人工智能四小龍 ” 之稱商湯 、 曠視、 依圖 、 云從等企業(yè) , 在人臉領(lǐng)域 , 從學(xué)術(shù)研究到產(chǎn)業(yè)實(shí)踐 , 都做了大量的工作 , 在復(fù)雜場(chǎng)景 , 大規(guī)模處理等領(lǐng)域 , 不斷取得新的成果 ; 國(guó)內(nèi)傳統(tǒng)科技企業(yè)百度 、 阿里 、 騰訊 、 平安科技 、 海康 、 大華等 , 也在人臉識(shí)別技術(shù)領(lǐng)域開(kāi)展廣泛深入的研究 , 并結(jié)合其原有的業(yè)務(wù)領(lǐng)域的場(chǎng)景 , 取得顯著的技術(shù)研究成果 。
3、人臉識(shí)別技術(shù)優(yōu)勢(shì)及局限性
技術(shù)優(yōu)勢(shì)。在不同的生物特征識(shí)別方法中 , 人臉識(shí)別技術(shù)有其自身特殊的優(yōu)勢(shì) , 因而在生物識(shí)別中有著重要的地位 。
?。?)、 非侵?jǐn)_性 , 人臉識(shí)別無(wú)需干擾人們的正常行為就能較好地達(dá)到識(shí)別效果 , 只要在攝像機(jī)前自然地停留片刻 , 用戶的身份就會(huì)被正確識(shí)別 。
?。?)、便捷性 , 人臉識(shí)別采集設(shè)備簡(jiǎn)單 , 使用快捷 。 一般來(lái)說(shuō) , 常見(jiàn)的攝像頭就可以用來(lái)進(jìn)行人臉圖像的采集 , 不需特別復(fù)雜的專用設(shè)備 。 圖像采集在數(shù)秒內(nèi)即可完成 。
?。?)、友好性 , 通過(guò)人臉識(shí)別身份的方法與人類的習(xí)慣一致 , 人和機(jī)器都可以使用人臉圖片進(jìn)行識(shí)別 。
?。?)、非接觸性 , 人臉圖像采集 , 用戶不需要與設(shè)備直接接觸 。 另外 , 可以在比較遠(yuǎn)的距離進(jìn)行人臉圖像的采集 。 裝配了光學(xué)變焦鏡頭的攝像頭 , 焦距可以提高到 10 倍以上 , 使景深范圍擴(kuò)展到 50 米以外 , 實(shí)現(xiàn)對(duì)遠(yuǎn)景清晰拍照 ,有效采集遠(yuǎn)處的人臉圖像 。
?。?)、可擴(kuò)展性 , 在人臉識(shí)別后 , 通過(guò)對(duì)識(shí)別結(jié)果數(shù)據(jù)進(jìn)行下一步處理和應(yīng)用 , 可以擴(kuò)展出眾多實(shí)際應(yīng)用方案 , 如應(yīng)用在出入門禁控制 、 人臉圖片搜索 、上下班刷卡 、 非法人員識(shí)別等各個(gè)領(lǐng)域 。
?。?)、隱蔽性強(qiáng) , 安全領(lǐng)域?qū)τ谙到y(tǒng)隱蔽性有較強(qiáng)要求 , 人臉識(shí)別在這方面比指紋等方式更具優(yōu)勢(shì) 。
?。?)、強(qiáng)大的事后追蹤能力 , 系統(tǒng)記錄的人臉信息是非常重要且易于利用的線索 , 更加有利于進(jìn)行事后追蹤應(yīng)用 。
?。?)、準(zhǔn)確度高 , 相比于人體 、 步態(tài)等其特征 , 人臉特征具備更強(qiáng)的鑒別性與更低的誤報(bào)率 , 所能應(yīng)用的底庫(kù)規(guī)模上高出許多 , 目前超大規(guī)模 ( 十億級(jí)別 ) 的人臉檢索已經(jīng)可以實(shí)用 。
技術(shù)局限。人臉識(shí)別技術(shù)由于相似臉 、 年齡 、 算法偏見(jiàn) 、 面臨的場(chǎng)景多樣化以及人臉圖像更易公開(kāi)獲取等原因 , 技術(shù)本身也面臨著一定的局限性 。
?。?)、相似臉較難解決 。 雙胞胎或者長(zhǎng)相很相近的人臉容易識(shí)別錯(cuò)誤 , 而該問(wèn)題在目前暫時(shí)沒(méi)有新技術(shù)能完全解決 。 NIST 分析報(bào)告指出 , 大部分情況下雙胞胎仍能區(qū)分分?jǐn)?shù)高低 , 但是往往都在閾值之上 , 在開(kāi)放環(huán)境下應(yīng)用效果較差 。
?。?)、算法偏見(jiàn)問(wèn)題 。 由于當(dāng)前人臉識(shí)別算法很大程度依賴于數(shù)據(jù)樣本 ,但是不同人群的人臉數(shù)據(jù)樣本存在差別 , 這導(dǎo)致了算法對(duì)不同地域 、 不同年齡人群的識(shí)別能力有差別 。
美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)研究院 NIST 的檢查表明 , 人臉識(shí)別軟件在不同地域 、 種族 、 性別 、 年齡上存在較大差異 。 比如 , 小孩子 , 老年人以及其他很少出現(xiàn)的人種或者膚色的人臉識(shí)別率相對(duì)較低 , 該問(wèn)題亟需解決 。
?。?)、人臉識(shí)別率易受多種因素影響 。 現(xiàn)有的人臉識(shí)別系統(tǒng)在用戶配合 、采集條件比較理想的情況下可以取得令人滿意的結(jié)果 。 但是 , 在用戶不配合 、采集條件不理想的情況下 , 會(huì)影響現(xiàn)有系統(tǒng)的識(shí)別率 。 例如根據(jù) NIST 的測(cè)試報(bào)告 , 戴口罩情況下大部分算法的錯(cuò)誤率會(huì)提高 1 個(gè)數(shù)量級(jí)以上 , 跨年齡 、 大角度等因素也會(huì)造成不同程度的下降 。
?。?)、年齡變化的影響 。 隨著年齡的變化 , 面部外觀也會(huì)變化 , 特別是對(duì)于青少年 , 這種變化更加明顯 。 對(duì)于不同的年齡段 , 人臉識(shí)別算法的識(shí)別率也不同。
?。?)、安全性問(wèn)題 。 人臉識(shí)別系統(tǒng)信息存儲(chǔ)同樣會(huì)面臨黑客的攻擊 。 所以對(duì)數(shù)據(jù)加密很重要 。 隨著技術(shù)的不斷提升 , 人臉識(shí)別技術(shù)在安全性上需要加強(qiáng) 。
同時(shí) , 人臉暴露度較高 , 相比對(duì)其它生物特征數(shù)據(jù)更容易實(shí)現(xiàn)被動(dòng)采集 。 這也同時(shí)意味著人臉信息的數(shù)據(jù)更容易被竊取 , 不僅可能侵犯?jìng)€(gè)人隱私 , 還會(huì)帶來(lái)財(cái)產(chǎn)損失 。 大規(guī)模的數(shù)據(jù)庫(kù)泄露還會(huì)對(duì)一個(gè)族群或國(guó)家?guī)?lái)安全風(fēng)險(xiǎn) 。
4、 人臉識(shí)別技術(shù)的發(fā)展趨勢(shì)
隨著人臉識(shí)別技術(shù)的廣泛應(yīng)用 , 也在不斷促進(jìn)技術(shù)本身持續(xù)發(fā)展 。 基礎(chǔ)算法研究 、 人臉重建技術(shù) 、 戴口罩人臉識(shí)別 、 3D 人臉識(shí)別技術(shù) 、 新型人臉采集技術(shù) 、人臉聚類技術(shù) 、 和低質(zhì)量人臉識(shí)別技術(shù) , 是產(chǎn)業(yè)界和學(xué)術(shù)界關(guān)注的熱點(diǎn)課題 ,也預(yù)示了人臉識(shí)別技術(shù)的發(fā)展趨勢(shì) 。
基礎(chǔ)算法技術(shù)熱點(diǎn)包括模型結(jié)構(gòu)設(shè)計(jì) 、 損失函數(shù)設(shè)計(jì) 、 無(wú)監(jiān)督 / 半監(jiān)督學(xué)習(xí)算法和分布式自學(xué)習(xí)算法等 。 模型結(jié)構(gòu)設(shè)計(jì)目前主要有手工設(shè)計(jì)與網(wǎng)絡(luò)結(jié)構(gòu)搜索 (NAS) 兩種思路 。 ICCV 2019 輕量級(jí)人臉識(shí)別 (Lightweight Face Recognition) 競(jìng)賽結(jié)果顯示 , 雖然對(duì)大模型場(chǎng)景下結(jié)構(gòu)改進(jìn)帶來(lái)的提升則較為有限 , 但是輕量級(jí)場(chǎng)景下網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)對(duì)于識(shí)別率提升較為明顯 。
損失函數(shù)設(shè)計(jì)的核心在于學(xué)習(xí)具備鑒別性且足夠魯棒的特征 。 近年來(lái)基于度量學(xué)習(xí)與各類 margin — based 方法逐漸成為主流。 在特征提取加速方面 , 主要的方法有輕量級(jí)網(wǎng)絡(luò) 、 模型蒸惚 、 稀疏量化等 ; 在特征比對(duì)加速方面 , 主要的思路有量化以及各類近似最近鄰檢索技術(shù) 。
低質(zhì)量人臉識(shí)別技術(shù)。在實(shí)際的動(dòng)態(tài)應(yīng)用場(chǎng)景下 , 人臉識(shí)別技術(shù)由于場(chǎng)景的不可控因素 , 采集到的圖片質(zhì)量與訓(xùn)練圖片的質(zhì)量有很大差異 , 如人臉偏轉(zhuǎn) , 大幅度側(cè)臉 ; 運(yùn)動(dòng)模糊和失焦模糊 ; 遮擋物(例如口罩 , 墨鏡) ; 低的光照強(qiáng)度和對(duì)比度 ; 視頻傳輸由于編解碼過(guò)程產(chǎn)生的人臉信息丟失等 , 這些因素導(dǎo)致準(zhǔn)確率極度下降 。
針對(duì)這些具體問(wèn)題 , 研究人員提出綜合利用各種圖像增強(qiáng)技術(shù)和圖像生成技術(shù)對(duì)人臉識(shí)別算法準(zhǔn)確率進(jìn)行提升的方法 , 如采用對(duì)抗式生成網(wǎng)絡(luò)對(duì)攝像頭的風(fēng)格進(jìn)行遷移 , 采用基于深度學(xué)習(xí)的方法對(duì)小尺寸模糊人臉進(jìn)行超分辨率重建和基于注意力機(jī)制對(duì)人臉圖片進(jìn)行去模糊處理等 。
此外 , 3D 人臉識(shí)別技術(shù)也可以有效解決復(fù)雜場(chǎng)景下人臉單模態(tài)魯棒性不足問(wèn)題 , 如大角度 、 遮擋引起的效果下降問(wèn)題 , 常用的融合策略有相似度融合 、 特征融合 、 決策融合等 。
戴口罩人臉識(shí)別技術(shù)。今年新型冠狀病毒疫情期間戴口罩人臉識(shí)別受到較大關(guān)注 。 常用的解決方法有數(shù)據(jù)增強(qiáng) 、 遮擋恢復(fù) 、 多部件模型融合等 , 可應(yīng)用在人臉布控 、 陌生人檢測(cè) 、 無(wú)感通行中 , 均不需要摘下口罩 , 在 30 萬(wàn)人像庫(kù)的規(guī)模下 , 戴口罩人臉識(shí)別準(zhǔn)確率可大于 90% 。
人臉聚類無(wú)論是在個(gè)人領(lǐng)域的相集管理還是在智慧城市治理領(lǐng)域都有較為廣泛的應(yīng)用 。 早期主要基于傳統(tǒng)的聚類方法如 k-means 等 , 但效果不佳 。 近年來(lái) , 基于 GCN 的人臉聚類方法嶄露頭角 。 實(shí)際業(yè)務(wù)中 , 時(shí)空信息的挖掘也是研究的熱點(diǎn) 。
特定群體識(shí)別技術(shù)。針對(duì)兒童/老人 、 不同膚色群體的人臉識(shí)別 , 有標(biāo)簽的數(shù)據(jù)較少 , 而無(wú)標(biāo)簽的數(shù)據(jù)更多些 。 研究人員提出可以利用半監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)方法帶來(lái)性能的進(jìn)一步提升 。 同時(shí) , 對(duì)抗 、 域適應(yīng)等方法也是研究人員較為關(guān)注的方法 。 在特定群體識(shí)別中 , 應(yīng)考慮如何方便老年人使用人臉識(shí)別系統(tǒng) 。
為了防范照片 、 視頻 、 頭模等假體對(duì)人臉識(shí)別系統(tǒng)的攻擊 , 呈現(xiàn)攻擊檢測(cè)算法也是研究的熱點(diǎn) , 主要檢測(cè)原理包括 :
a ) 離散圖像檢測(cè)方式 , 即利用一幅或多幅圖像進(jìn)行判斷 ;
b ) 連續(xù)圖像檢測(cè)方式 , 即采用連續(xù)圖像序列進(jìn)行判斷,如檢測(cè)顯示器邊緣 、 邊框 、 屏幕反光 、 像素點(diǎn) 、 條紋分析等進(jìn)行判斷 ;
c ) 用戶主動(dòng)配合檢測(cè)方式 , 即通過(guò)指令要求用戶完成相應(yīng)動(dòng)作如點(diǎn)頭 、 抬頭 、左右轉(zhuǎn)頭 、 張嘴 、 眨眼 、 跟讀屏顯提示信息等進(jìn)行判斷 ;
d ) 基于輔助硬件設(shè)備的檢測(cè)方式 , 即利用輔助硬件設(shè)備獲取更多判斷依據(jù)輔助進(jìn)行判斷 , 如利用深度攝像頭采集人臉深度信息或利用特定波長(zhǎng)光源投射并檢測(cè)在皮膚或非皮膚材質(zhì)上產(chǎn)生的發(fā)射率差異等 ;
e ) 用戶被動(dòng)配合檢測(cè)方式 , 如 : 利用靜脈血管 、 肌肉 、骨骼 、 靜脈血液中脫氧血色素對(duì)紅外線的吸收特性 , 判斷其是否來(lái)自活體 ; 通過(guò)特定指令引導(dǎo)用戶眼球運(yùn)動(dòng) , 并通過(guò)跟蹤眼球運(yùn)動(dòng)以判斷是否為真實(shí)活體 。
多模態(tài)融合識(shí)別技術(shù)。多模態(tài)融合識(shí)別技術(shù)可以有效解決復(fù)雜場(chǎng)景下人臉單模態(tài)魯棒性不足問(wèn)題 。 如大角度 、 遮擋 、 像素過(guò)低引起的效果下降問(wèn)題或應(yīng)用場(chǎng)景對(duì)于安全性可靠性要求很高的場(chǎng)景 , 多模態(tài)可以增強(qiáng)識(shí)別的可信度 。
多模態(tài)識(shí)別有兩個(gè)發(fā)展方向 , 一個(gè)方向是在臉部圖像特征識(shí)別的基礎(chǔ)上 , 增加頭肩和形體的識(shí)別 , 這種技術(shù)的好處是可以不必增加額外的采集單元 ; 另外一個(gè)方向是 , 融合其他生物識(shí)別模態(tài) , 如靜脈紋理 , 聲紋信息等 , 這種技術(shù)除了能夠提高算法的魯棒性之外 , 還可以提高活體驗(yàn)證的可信度 , 在行業(yè)里受到了較為廣泛的關(guān)注 。