人臉識別技術(shù)已經(jīng)從如何識別面部特征進展到必須判定目標(biāo)物體之間的‘意圖’,了解目標(biāo)物之間的支配或關(guān)系變化情況。
“人臉識別技術(shù)已經(jīng)從如何識別面部特征進展到必須判定目標(biāo)物體之間的‘意圖’,了解目標(biāo)物之間的支配或關(guān)系變化情況,而背后的支撐是來自于近年來獲得巨大進展的
深度學(xué)習(xí)和人工智能技術(shù),”香港中文大學(xué)教授林達華指出。
投入視覺技術(shù)研究多年的林達華日前在深圳市機器人協(xié)會主辦的服務(wù)型機器人技術(shù)與應(yīng)用大會中指出,深度學(xué)習(xí)技術(shù)正在驅(qū)動人工智能邁向成熟,落地到人臉/圖像識別、虛擬現(xiàn)實(VR)、機器人、無人車和語音理解等多個行業(yè)應(yīng)用中。
過去,林達華和他的研究團隊所專注的視覺技術(shù)大多運用在人臉和圖像識別領(lǐng)域,但隨著技術(shù)進展,視覺技術(shù)正在探索更廣泛的計算機應(yīng)用領(lǐng)域,這些進展主要得益于近年來發(fā)展快速的深度學(xué)習(xí)技術(shù)。
過去1~2年來,深度學(xué)習(xí)成為熱門詞匯,與人工智能緊密結(jié)合,在消費、計算、安防等領(lǐng)域中受到大量關(guān)注。事實上深度學(xué)習(xí)的研究已經(jīng)持續(xù)數(shù)十年,但2012年,這個領(lǐng)域出現(xiàn)了突破性的進展。
美國斯坦福大學(xué)曾經(jīng)組織一場比賽,目標(biāo)是讓參賽者從1,000萬張照片中將每張照片分到一千個類別里。在2012年之前,這個競賽的錯誤率一直停滯在26%,幾乎沒有進展,林達華說。但2012年多倫多大學(xué)的一個研究團隊設(shè)計的八層深度網(wǎng)絡(luò),將26%的錯誤率降至13%。這個結(jié)果震憾了整個計算機視覺研究領(lǐng)域,此后深度學(xué)習(xí)的研究開始從學(xué)術(shù)界的研究單位向業(yè)內(nèi)擴展,從谷歌、微軟到中小型企業(yè)都投入大量精力進行研究。
自2012年以來,許多大公司和研究團隊將精力放在深度網(wǎng)絡(luò)壓縮上,這讓深度網(wǎng)絡(luò)的層次呈現(xiàn)指數(shù)級的增長。2014年谷歌提出了22層的新網(wǎng)絡(luò);2015年微軟則提出更有效的方法來訓(xùn)練深度網(wǎng)絡(luò),將網(wǎng)絡(luò)深度從22層提高到169層。而幾個月之后,林華達和他的研究團隊在今年提出了接近800層的網(wǎng)絡(luò)模型。
林達華指出,導(dǎo)致深度學(xué)習(xí)成功的因素來自二方面:“首先是對大部分人工智能的模型來說有參與口徑,要發(fā)射出去飛上太空要兩個基本要素,一個是需要燃料,另外一個是需要有引擎,能夠把燃料轉(zhuǎn)化為動能。作為類比,對人工智能來說,我們的燃料就是數(shù)據(jù),最近幾年隨著大數(shù)據(jù)的普及,各行各業(yè)產(chǎn)生了大量數(shù)據(jù),這些數(shù)據(jù)為人工智能的起飛提供了燃料,深度學(xué)習(xí)看成對人工智能新一代的引擎。它可以說是非常革命性的提高了對燃料的觸覺能力。”
數(shù)據(jù)驅(qū)動了深度學(xué)習(xí)的大幅度進展,與2012年相比,目前高達800層的網(wǎng)絡(luò)模型的表達能力也大幅提升。但這么復(fù)雜的網(wǎng)絡(luò)需要強大的超級計算機集群才能做訓(xùn)練。“過去我們訓(xùn)練數(shù)百層的大型網(wǎng)絡(luò)時,要使用上萬個處理器內(nèi)核跑一個星期,”林達華說,但這種方法無法讓深度學(xué)習(xí)網(wǎng)絡(luò)落地到商業(yè)應(yīng)用中。
林達華和他的團隊通過許多手段對網(wǎng)絡(luò)進行檢測和壓縮,去除重復(fù)的神經(jīng)元及沒有用的連接。通過整合多種技術(shù),目前已經(jīng)能將超大型的深度網(wǎng)絡(luò)壓縮1,000倍,相當(dāng)于能將這樣的網(wǎng)絡(luò)用FPGA來實現(xiàn),與嵌入式GPU相比,每瓦特性能提高5倍,而成本則大幅降低。
深度網(wǎng)絡(luò)壓縮,可將超大型深度網(wǎng)絡(luò)壓縮1,000倍?!?/strong>(來源:香港中文大學(xué) / 林達華 )
通過在芯片上實現(xiàn)技術(shù)方案,大規(guī)模降低成本,象征著該領(lǐng)域的技術(shù)已臻成熟,終能落地到行業(yè)甚至消費應(yīng)用領(lǐng)域。“深度壓縮技術(shù)將推動嵌入式深度視覺的技術(shù)的發(fā)展,我們已經(jīng)有些成功的原型,能夠壓縮大型的、頂級性能的網(wǎng)絡(luò)。”林達華說。目前的人工智能技術(shù)已經(jīng)走出實驗室,未來幾年這些技術(shù)還將對整個產(chǎn)業(yè)界產(chǎn)生更大的沖擊。
免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟賠償!敬請諒解!