人工智能技術(shù)在近幾年已經(jīng)成為全球大型互聯(lián)網(wǎng)公司的必爭之地。Google、微軟、蘋果和Facebook等都在積極進(jìn)行人工智能等前沿技術(shù)的研發(fā),以改進(jìn)旗下服務(wù)和產(chǎn)品在圖像、視頻及語音處理方面的能力。此前美國知名高科技網(wǎng)站Xconomay的一篇介紹性報道指出,來自中國的搜索巨頭百度,正在成長為全球人工智能領(lǐng)域的領(lǐng)袖型企業(yè)。此次發(fā)布的盲人助手“小明”,百度將其作為在人工智能領(lǐng)域研發(fā)的又一項成果。
從產(chǎn)品介紹來看,DuLight實際上是一套人工智能操作系統(tǒng),對于盲人使用者而言,在家只需手機端安裝,即刻將百度領(lǐng)先的計算機視覺和語音等技術(shù)變成身邊觸手可及的生活助理。當(dāng)需要出門的時候,DuLight也配備一臺由百度大腦驅(qū)動的智能可穿戴設(shè)備,“小明”的硬件端形態(tài)很像藍(lán)牙耳機,用戶佩戴之后就可以用語音的方式對“小明”發(fā)出指令。“小明”獲取外界信息的方式除了接受用戶發(fā)出的語音指令以外,更多地是通過內(nèi)置攝像頭捕捉用戶第一視角的視覺信息,并通過用攝像頭捕捉到的信息進(jìn)行圖像識別,隨后通過圖像語義理解對核心信息進(jìn)行分析和講解,通過一段時間的使用之后,設(shè)備還能智能推演出用戶下一步可能進(jìn)行的行為。
從發(fā)布現(xiàn)場的介紹來看,目前“小明”主要可以實現(xiàn)四個方面的圖像識別功能。圖像識別技術(shù)典型的任務(wù)包括物體識別、物體檢測、圖像分類標(biāo)注等,百度構(gòu)筑了的這套比較完整的圖像識別系統(tǒng),能夠有效地處理特定物體的檢測識別(如人臉、文字以及商品和各類物體)、通用圖像的分類標(biāo)注、以及主觀圖像質(zhì)量評估等問題。這次在DuLight圖像技術(shù)上尤其凸顯實力的是通用識別功能,這是百度最新研發(fā)的“機器讀圖”技術(shù),“小明”可以根據(jù)拍攝到的圖片內(nèi)容自動生成一段描述文字,這項技術(shù)基于百度大腦的深度學(xué)習(xí)技術(shù),在高層語義層面建立了圖像和自然語言之間的橋梁,使計算機能夠真正地學(xué)習(xí)、建立語言體系,并感知到的物理世界之間的聯(lián)系,可以說是人工智能領(lǐng)域的一次技術(shù)飛躍。
除了應(yīng)用了百度IDL領(lǐng)先的機器智能技術(shù)之外,“小明”還可以通過對用戶第一視角的畫面進(jìn)行視頻直播,讓遠(yuǎn)程協(xié)助者可以實時看到盲人朋友眼前的狀況,從而幫助盲人朋友即時解決衣食住行等生活問題。“小明”還特別針對人民幣錢幣進(jìn)行了識別優(yōu)化,再也不用擔(dān)心紙幣上的盲文因使用過多而變得難以通過觸覺識別了。另外,“小明”還配備了人臉識別功能,目前百度的人臉識別的錯誤率僅為0.23%。
百度稱,盲人助手“小明”的推出,不僅可以幫助盲人“感知”真實世界,還可以成為新的實體搜索入口。通過對用戶第一視角的視覺信息進(jìn)行圖像分析,并結(jié)合百度大數(shù)據(jù)分析能力和自然人機交互技術(shù),“小明”可以為大眾提供所見實體背后的信息及相關(guān)服務(wù),更好地幫助用戶認(rèn)知世界并連接服務(wù),百度深度學(xué)習(xí)實驗室的主任研發(fā)架構(gòu)師顧嘉唯提到,伴隨著人工智能和人機交互技術(shù)的不斷發(fā)展,從BaiduEye到DuLight,可穿戴設(shè)備形態(tài)的對話式智能助理正在走向真實場景。