攝像頭用AI識別圖像和視頻中的人臉和身體正變得越來越常見,小到超市、辦公室,大到自動駕駛、智慧城市,能夠快速抓取人體、識別人臉的智能攝像頭正變得無處不在。
不過,最近,一組研究團(tuán)隊(duì)設(shè)計(jì)了一張?zhí)貏e的彩色圖案,只要你將這塊40cmx40cm的神奇貼紙掛在身上,就可以避開AI攝像頭的監(jiān)控。
這個(gè)團(tuán)隊(duì)來自比利時(shí)魯汶大學(xué)(Katholieke Universiteit Leuven),他們發(fā)表了一篇論文,名為《欺騙自動監(jiān)控?cái)z像頭:針對攻擊人類監(jiān)控的對抗補(bǔ)?。‵ooling automated surveillance cameras: adversarial patches to attack person detection)》。
論文上署名的三位研究人員Simen Thys、Wiebe Van Ranst和Toon Goedeme使用了流行的YOLOv2開源對象識別探測器進(jìn)行了演示,他們通過用一些技巧成功騙過了探測器。
他們還已經(jīng)在論文中公布了源代碼:https://gitlab.com/EAVISE/adversarial-yolo。
我們先來看看這個(gè)研究小組究竟做了個(gè)什么東西。
如圖,右邊的人身上掛了一塊彩色貼紙,這張貼紙成功欺騙了AI系統(tǒng),使他即便正面攝像頭,也沒有像左邊的人那樣被AI系統(tǒng)檢測出來(粉色框)。右邊的人將貼紙反轉(zhuǎn)過來,立即被檢測出。等右邊的人將貼紙交給左邊的人后,AI瞬間就檢測不出左邊的人。
研究人員指出,該技術(shù)可用于“惡意繞過監(jiān)視系統(tǒng)”,允許入侵者“通過在他們的身體前面拿著一塊小紙板朝向監(jiān)控?cái)z像頭做些偷偷摸摸的行為(而不被發(fā)現(xiàn))”。
據(jù)外媒報(bào)道,論文作者之一Van Ranst透露,采用現(xiàn)成的視頻監(jiān)控系統(tǒng)來解決這個(gè)問題應(yīng)該不會太難?!澳壳拔覀冞€需要知道哪個(gè)探測器正在使用中。我們今后想要做的是生成一個(gè)同時(shí)適用于多個(gè)探測器的補(bǔ)丁”,“如果這樣有效,那么補(bǔ)丁也可能對監(jiān)控系統(tǒng)中使用的探測器起作用。”
目前,該小組現(xiàn)在正計(jì)劃將補(bǔ)丁應(yīng)用于服裝。研究人員表示:“我們相信,如果我們將這種技術(shù)與精致的服裝模擬結(jié)合起來,我們就可以設(shè)計(jì)出一種T恤印花,可以讓一個(gè)人對自動監(jiān)控相機(jī)幾乎不可見?!?/p>
未來他們的工作將側(cè)重于使補(bǔ)丁更加健壯和可遷移,因?yàn)樗鼈儾荒芎芎玫剡m用于不同的檢測架構(gòu),如Faster R-CNN 。
那“對抗補(bǔ)丁”是怎樣煉成的?
這項(xiàng)研究的核心目的是創(chuàng)造一個(gè)系統(tǒng),能夠生成可打印的對抗補(bǔ)丁,用于“愚弄”人類探測器。
研究人員寫道:“我們通過優(yōu)化圖像來實(shí)現(xiàn)這一目標(biāo),以最大限度地減少與探測器輸出中人物外觀相關(guān)的不同概率。在我們的實(shí)驗(yàn)中,我們比較了不同的方法,發(fā)現(xiàn)最小化對象丟失創(chuàng)造了最有效的補(bǔ)丁。”
然后他們打印出經(jīng)過優(yōu)化的補(bǔ)丁,并通過拍攝持有他們的人來測試它們。
研究人員發(fā)現(xiàn),只要定位正確,補(bǔ)丁就能很好地工作。
“根據(jù)我們的結(jié)果,我們可以看到我們的系統(tǒng)能夠顯著降低人體探測器的準(zhǔn)確性……在大多數(shù)情況下,我們的補(bǔ)丁能夠成功地將人員隱藏在探測器之外。在不是這種情況下,補(bǔ)丁與人的中心不對齊?!毖芯咳藛T說。
優(yōu)化器的目標(biāo)就是最小化總損失函數(shù)L。具體優(yōu)化目標(biāo)包括三個(gè)損失函數(shù):Lnps(非可打印性得分)、Ltv(圖像總變化)、Lobj(圖像中的最大對象分?jǐn)?shù))。
Lnps代表貼紙中的顏色在多大程度上可由普通打印機(jī)打印出來;
Ltv確保優(yōu)化器支持平滑顏色過渡的圖像并防止圖像噪聲;
Lobj用于對探測器輸出的目標(biāo)或類別分?jǐn)?shù)實(shí)現(xiàn)最小化。
上述三個(gè)損失函數(shù)相加即可得到總損失函數(shù):
YOLOv2探測器輸出一個(gè)單元網(wǎng)格,每個(gè)單元格包含一系列錨點(diǎn),每個(gè)錨點(diǎn)包含邊界框的位置、對象概率和類別得分。
為了讓探測器忽略圖像中的人,研究人員使用MS COCO數(shù)據(jù)集進(jìn)行訓(xùn)練,嘗試了三種不同的方法:最小化類人的分類得分,最小化對象得分,或兩者的組合。
其中,第一種方法可能致使生成的補(bǔ)丁被檢測成COCO數(shù)據(jù)集的另一個(gè)類,第二種方法不存在這一問題,但生成貼紙針對某個(gè)類的特定性比其他方法低。
通過對各類“補(bǔ)丁”做實(shí)驗(yàn),最后研究人員發(fā)現(xiàn),經(jīng)過多次圖像處理的隨機(jī)物體的照片效果最好,他們嘗試了多種隨機(jī)轉(zhuǎn)換,包括圖像旋轉(zhuǎn)、隨機(jī)放大和縮小、隨機(jī)添加隨機(jī)噪聲、隨機(jī)修改正確率和對比度等處理。
最終,研究人員將獲得的幾個(gè)補(bǔ)丁和NOISE(隨機(jī)添加噪聲)、CLEAN(無補(bǔ)丁baseline)一起放在Inria測試集上做評估,重點(diǎn)評估這些補(bǔ)丁能避開多少監(jiān)控系統(tǒng)產(chǎn)生的警報(bào)。
結(jié)果表明,OBJ補(bǔ)丁觸發(fā)的警報(bào)數(shù)量最低(25.53%)。不過,這個(gè)補(bǔ)丁并不是完美的,效果不好時(shí)可能是因?yàn)樗鼪]和人對齊。
最優(yōu)防御策略還在探索中
長期以來,對抗攻擊一直是機(jī)器學(xué)習(xí)領(lǐng)域有趣又非常重要的課題。
如今AI逐漸大面積應(yīng)用于日常監(jiān)控?cái)z像頭和軟件中,出現(xiàn)在零售、工作空間、社區(qū)、交通等諸多場景。而對抗樣本有可能會鉆神經(jīng)網(wǎng)絡(luò)的漏洞,比如使得一些小偷可以避開監(jiān)控?cái)z像頭在無人商店自由偷東西,或者使得入侵者成功進(jìn)入某棟建筑。
當(dāng)前,研究人員們還遠(yuǎn)未找到針對這些對抗樣本的最優(yōu)防御策略,我們不妨期待對這一激動人心的研究領(lǐng)域會在不久之后出現(xiàn)突破性的進(jìn)展。