12月13日,由中共肥東縣委、肥東縣人民政府、億達(dá)中國(guó)控股有限公司主辦,肥東縣投資促進(jìn)中心、合肥東部新城核心區(qū)綜合管理辦公室、合肥東部新城建設(shè)投資有限公司、億達(dá)合肥智慧科技城發(fā)展有限公司承辦,中國(guó)高科技行業(yè)門戶OFweek維科網(wǎng)協(xié)辦的“2019中國(guó)(合肥 · 肥東)AIoT產(chǎn)業(yè)發(fā)展論壇”在肥東安徽水利和順大酒店隆重開(kāi)幕。
在本次大會(huì)中,南京大學(xué)人工智能學(xué)院教授、博士生導(dǎo)師申富饒給我們帶來(lái)《機(jī)器學(xué)習(xí)應(yīng)用于圖像識(shí)別:發(fā)展與挑戰(zhàn)》主題分享,詳細(xì)介紹和分析了圖像識(shí)別的實(shí)現(xiàn)原理、主要算法類型,以及面臨的挑戰(zhàn)等研究成果,讓我們更清晰地了解人工智能的發(fā)展現(xiàn)狀。
機(jī)器學(xué)習(xí)的原理
在生活當(dāng)中,人類可以根據(jù)自身的經(jīng)驗(yàn)進(jìn)行總結(jié),歸納出一些規(guī)律,當(dāng)遇到新問(wèn)題時(shí),人類會(huì)利用這些規(guī)律來(lái)進(jìn)行預(yù)測(cè),從而做出適當(dāng)?shù)姆磻?yīng)。
而機(jī)器學(xué)習(xí)中的歷史數(shù)據(jù)就相當(dāng)于人類的經(jīng)驗(yàn),將這些歷史數(shù)據(jù)通過(guò)訓(xùn)練得到機(jī)器學(xué)習(xí)模型,當(dāng)機(jī)器要解決實(shí)際問(wèn)題時(shí)可以根據(jù)學(xué)習(xí)模型進(jìn)行預(yù)測(cè),從而得到關(guān)于未知數(shù)據(jù)的一些屬性以做出恰當(dāng)?shù)姆磻?yīng)。在現(xiàn)實(shí)生活中,機(jī)器學(xué)習(xí)有很多重要的應(yīng)用,而圖像識(shí)別是其中一個(gè)極其重要而又相當(dāng)具有挑戰(zhàn)性的課題。
圖像識(shí)別的模式分類
圖像識(shí)別是一個(gè)模式分類問(wèn)題,它的目標(biāo)是識(shí)別圖像中的物體,劃分到不同的類別,實(shí)現(xiàn)最小的分類誤差。現(xiàn)實(shí)生活中的圖像大致可分為語(yǔ)義級(jí)圖像、細(xì)粒度圖像、實(shí)例級(jí)圖像3種,申教授認(rèn)為,各個(gè)類別屬于不同的物種,往往具有較大的類間方差,而類內(nèi)則具有較小的類內(nèi)誤差。例如識(shí)別普適物體的小型數(shù)據(jù)集CIFAR-10,包含了6種動(dòng)物與4種交通工具。
對(duì)于圖像識(shí)別而言,人類可以輕易地判斷出圖像中的顏色、形狀、部件等特征,作為識(shí)別目標(biāo)的依據(jù),然而圖像在計(jì)算機(jī)中被保存為數(shù)字格式。申教授分析道:機(jī)器學(xué)習(xí)方法可行的前提條件是訓(xùn)練數(shù)據(jù)中包含對(duì)預(yù)測(cè)任務(wù)有意義的特征,這些特征隱藏在看似毫無(wú)意義的數(shù)字之中,因此必須先進(jìn)行特征的提取。
深度卷積網(wǎng)絡(luò)的發(fā)展
在圖像識(shí)別的研究歷程當(dāng)中,最主流的算法當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)以卷積核為基本結(jié)構(gòu)單元,通過(guò)局部連接、權(quán)值共享,模擬生物視覺(jué)系統(tǒng)的感受野機(jī)制,自動(dòng)學(xué)習(xí)圖像的特征表示。
LeNet5是早期的卷積神經(jīng)網(wǎng)絡(luò)模型,共有 7 層,具備了卷積層、池化層等深度卷積網(wǎng)絡(luò)中的核心結(jié)構(gòu);AlexNet對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練算法進(jìn)行了大量創(chuàng)新,奠定了深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的優(yōu)勢(shì)地位;ResNet通過(guò)引入殘差連接,基本消除了增加深度帶來(lái)的退化現(xiàn)象,能夠通過(guò)單純地增加網(wǎng)絡(luò)深度,來(lái)提高網(wǎng)絡(luò)性能;DenseNet將殘差連接的思想發(fā)展到極致,實(shí)現(xiàn)了資源的最大化利用和計(jì)算量的壓縮;Google提出的MobileNets是一個(gè)輕量級(jí)的深層神經(jīng)網(wǎng)絡(luò),面向移動(dòng)應(yīng)用設(shè)計(jì),大幅提升了計(jì)算速度。
圖像識(shí)別的三大挑戰(zhàn)
在人眼看來(lái),一張圖片就是一幅彩色的圖畫,但是在機(jī)器看來(lái),它就是一大串?dāng)?shù)字,在機(jī)器學(xué)習(xí)的各種應(yīng)用中,圖像識(shí)別是一個(gè)特別困難的任務(wù),申教授認(rèn)為主要面臨以下三個(gè)挑戰(zhàn)。
第一個(gè)挑戰(zhàn)是嵌入式深度學(xué)習(xí)。深度卷積網(wǎng)絡(luò)在圖像識(shí)別算法中占據(jù)了統(tǒng)治地位,模型精度也在不斷提升,然而相應(yīng)地也帶來(lái)了計(jì)算復(fù)雜度的提升。目前有很多嵌入式應(yīng)用需要使用圖像識(shí)別技術(shù),但嵌入式平臺(tái)往往受到芯片性能、內(nèi)存容量等硬件資源的限制,無(wú)法運(yùn)行當(dāng)前主流的深度神經(jīng)網(wǎng)絡(luò),或者無(wú)法滿足速度要求。
第二個(gè)挑戰(zhàn)是可解釋性。申教授分析道:圖像識(shí)別程序像是一個(gè)黑盒子,只給出結(jié)果,而不能說(shuō)明結(jié)果是如何產(chǎn)生的。我們能做的就是把數(shù)據(jù)丟給識(shí)別算法,期望它能夠給出正確的答案。但是當(dāng)答案發(fā)生錯(cuò)誤時(shí),我們無(wú)法得知錯(cuò)誤產(chǎn)生的原因,只能寄望于調(diào)節(jié)參數(shù)之類的手段能讓程序得到改善。目前,算法的可解釋性問(wèn)題正在逐漸得到重視。
第三個(gè)挑戰(zhàn)是對(duì)抗樣本問(wèn)題。深度學(xué)習(xí)中可解釋性的缺失帶來(lái)了另一個(gè)問(wèn)題,在某些應(yīng)用環(huán)境中,圖像識(shí)別程序可能會(huì)受到惡意攻擊,攻擊者試圖“欺騙”圖像識(shí)別程序,使程序的預(yù)測(cè)出錯(cuò)。這就要求我們?cè)O(shè)計(jì)可靠的神經(jīng)網(wǎng)絡(luò),能夠具有防止惡意攻擊的能力。
未來(lái)——不斷發(fā)展與完善
總的來(lái)說(shuō),即便仍然面臨著非常多的挑戰(zhàn),圖像識(shí)別還是取得了很大的成功。現(xiàn)在的神經(jīng)網(wǎng)絡(luò)都是由人來(lái)設(shè)計(jì),在未來(lái),或許會(huì)讓程序自己進(jìn)行設(shè)計(jì),讓機(jī)器進(jìn)行增量學(xué)習(xí)、終身學(xué)習(xí),到那時(shí),機(jī)器在應(yīng)用的過(guò)程當(dāng)中會(huì)不斷感知環(huán)境的變化,然后不斷調(diào)整自己的行為以適應(yīng)環(huán)境需要。
總之,圖像識(shí)別是人工智能的一個(gè)重要領(lǐng)域,隨著技術(shù)的不斷發(fā)展,圖像識(shí)別也會(huì)不斷進(jìn)行完善以適應(yīng)更多的需求。