視頻大數(shù)據(jù)的三大挑戰(zhàn)

2019-09-04 13:22 閱讀 1479 來(lái)源：驅(qū)動(dòng)中國(guó) 評(píng)論區(qū)

北京大學(xué)博雅特聘教授&國(guó)家杰青田永鴻帶來(lái)了主題演講，對(duì)視頻大數(shù)據(jù)挑戰(zhàn)問(wèn)題進(jìn)行了深度剖析，并介紹了前沿的研究進(jìn)展。

　　8月31日，2019世界人工智能大會(huì)·開(kāi)發(fā)者日，極鏈科技主題論壇在上海世博中心成功舉辦，現(xiàn)場(chǎng)匯聚了300多位行業(yè)人士到場(chǎng)，其中包括全球頂尖AI專(zhuān)家、技術(shù)大牛、知名企業(yè)代表以及開(kāi)發(fā)者，大會(huì)以“重構(gòu)視界·見(jiàn)未來(lái)”為主題，圍繞計(jì)算機(jī)視覺(jué)技術(shù)和“AI+視頻”的開(kāi)發(fā)實(shí)踐進(jìn)行分享和解讀。

　　大會(huì)現(xiàn)場(chǎng)，北京大學(xué)博雅特聘教授&國(guó)家杰青田永鴻帶來(lái)了主題演講，對(duì)視頻大數(shù)據(jù)挑戰(zhàn)問(wèn)題進(jìn)行了深度剖析，并介紹了前沿的研究進(jìn)展。

　　視頻大數(shù)據(jù)三大挑戰(zhàn)問(wèn)題

　　當(dāng)前，已迎來(lái)視頻大數(shù)據(jù)爆炸時(shí)代，IDC分析報(bào)告顯示，互聯(lián)網(wǎng)總數(shù)據(jù)到2025年將達(dá)到175ZB，其中視覺(jué)數(shù)據(jù)為80ZB。大數(shù)據(jù)技術(shù)與AI是孿生兄弟，大數(shù)據(jù)賦能AI，讓AI能力更進(jìn)一步，但也提出了一些新挑戰(zhàn)。

　　視頻數(shù)據(jù)分析識(shí)別長(zhǎng)期以來(lái)的模式，是通過(guò)壓縮形成碼流，解碼后進(jìn)行特征提取，再進(jìn)行分析識(shí)別。而最近幾年深度學(xué)習(xí)應(yīng)用后，大量深度神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練把特征提取和分析識(shí)別以端到端方式提取出來(lái)。典型的圖像/視頻分析處理系統(tǒng)就是云模式，視頻存儲(chǔ)、分析與識(shí)別均在云上完成，分析識(shí)別的視頻路數(shù)與云服務(wù)器的算力成正比。這樣的模式下，有很多潛在問(wèn)題。

　　問(wèn)題一，“數(shù)據(jù)大不等于大數(shù)據(jù)”的挑戰(zhàn)。數(shù)據(jù)量大一定是分散存儲(chǔ)，而大數(shù)據(jù)分析需要視頻數(shù)據(jù)匯聚在一起，涉及到帶寬支持、視頻壓縮編碼等技術(shù)，目前條件很難將視頻大量匯聚。

　　問(wèn)題二，“高通量&低延時(shí)”的挑戰(zhàn)。視頻本身是實(shí)時(shí)媒體，具有高通量的特征。其中，網(wǎng)絡(luò)直播視頻和廣電節(jié)目對(duì)實(shí)時(shí)性要求很高。對(duì)視頻傳輸技術(shù)是一個(gè)很大挑戰(zhàn)。

　　問(wèn)題三，“低價(jià)值密度”的挑戰(zhàn)。大量正常視頻是低價(jià)值密度，而少量敏感視頻是高價(jià)值密度。分布非均衡分布對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法提出了很大挑戰(zhàn)。

　　面對(duì)挑戰(zhàn)，在國(guó)家和省部項(xiàng)目支持下，田永鴻教授及其團(tuán)隊(duì)推出了視頻大數(shù)據(jù)處理分析平臺(tái)及示范應(yīng)用，支持高效編碼、特征表達(dá)、對(duì)象識(shí)別和行為分析，應(yīng)用在電視節(jié)目、網(wǎng)絡(luò)視頻、城市監(jiān)管等應(yīng)用中。

　　仿眼類(lèi)腦是視覺(jué)處理系統(tǒng)演進(jìn)的必由之路

　　眾所周知，數(shù)碼相機(jī)的生物學(xué)原型是人類(lèi)的視網(wǎng)膜。就像數(shù)碼相機(jī)中能采集“像素”一樣，視網(wǎng)膜能獲取并編碼大量的視覺(jué)數(shù)據(jù)。視網(wǎng)膜中間有兩個(gè)部分，一是中央凹，即瞳孔，是為了看清楚東西，另一個(gè)是外周，與中央凹的視覺(jué)神經(jīng)網(wǎng)絡(luò)不一樣，外周神經(jīng)網(wǎng)絡(luò)可以提取并編碼場(chǎng)景或物體的特征，如紋理、輪廓等。從這個(gè)角度來(lái)看，傳統(tǒng)的數(shù)碼相機(jī)僅僅只模擬視網(wǎng)膜的一部分功能。

　　因此，一個(gè)自然的問(wèn)題就是，如何借鑒“人類(lèi)視網(wǎng)膜同時(shí)具有影像編碼與特征編碼功能”這一生物特性來(lái)研究和設(shè)計(jì)一種更高效的攝像頭。我們稱(chēng)之為數(shù)字視網(wǎng)膜攝像頭(retina-likecamera)，簡(jiǎn)稱(chēng)為數(shù)字視網(wǎng)膜。數(shù)字視網(wǎng)膜架構(gòu)本質(zhì)特征為：一，有全網(wǎng)統(tǒng)一時(shí)間和精確地理位置；二，能夠進(jìn)行視頻編碼和特征編碼；三，自適應(yīng)可擴(kuò)展架構(gòu)，包括模型可更新、注意可調(diào)節(jié)和軟件可定義。

　　視網(wǎng)膜表示的核心技術(shù)是視頻特征的緊湊表達(dá)，需要對(duì)識(shí)別分析準(zhǔn)且快，且特征需要小才可以大量匯聚。對(duì)此，田永鴻教授團(tuán)隊(duì)建立了深度特征的幀內(nèi)幀間壓縮框架，利用Hash網(wǎng)絡(luò)將浮點(diǎn)型深度特征進(jìn)行量化，并根據(jù)不同的內(nèi)容設(shè)計(jì)了不同的幀間編碼結(jié)構(gòu)與模式。另外，僅預(yù)定義的屬性不能有效區(qū)分表觀相似對(duì)象，但可以利用大規(guī)模匯聚特征表示挖掘隱含視覺(jué)屬性。

　　基于此，田永鴻教授團(tuán)隊(duì)與企業(yè)合作開(kāi)發(fā)了城市視頻大數(shù)據(jù)分析平臺(tái)，包括特征與結(jié)構(gòu)分析，計(jì)算平臺(tái)匯聚網(wǎng)關(guān)，業(yè)務(wù)應(yīng)用系統(tǒng)等等。應(yīng)用在城市范圍內(nèi)特定對(duì)象精準(zhǔn)追蹤、智能交通實(shí)現(xiàn)數(shù)字視網(wǎng)膜AI賦能、視頻節(jié)目流異常檢測(cè)與識(shí)別問(wèn)題中。

　　雖然傳統(tǒng)認(rèn)知將眼睛視為視覺(jué)圖像的簡(jiǎn)單預(yù)濾器，但現(xiàn)在看來(lái)，數(shù)據(jù)打通當(dāng)中，內(nèi)腦仿眼是視覺(jué)處理系統(tǒng)演進(jìn)的必由之路?？梢允褂媚軌蛏蓮?qiáng)大解決方案的機(jī)器，以此發(fā)現(xiàn)更多未知算法，這些算法或許會(huì)超越視覺(jué)領(lǐng)域，不僅僅是視覺(jué)，還有包括聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等，實(shí)現(xiàn)未來(lái)的VideoAI。

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請(qǐng)聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請(qǐng)諒解！