隨著語音識(shí)別、圖像識(shí)別和人臉識(shí)別等技術(shù)越來越精確和高效,智能終端、智能家居乃至機(jī)器人等“智能硬件”變得能聽、能說、能看,不斷提高著機(jī)器的“智商”,更好地為人們服務(wù)。
買個(gè)東西?刷臉就行
作為一個(gè)資深“智能手機(jī)控”,“90后”姑娘小夏當(dāng)然會(huì)嘗鮮“智能生活”。
早上起床,小夏打開手機(jī)語音助手,說“今天我有哪些活動(dòng)?”手機(jī)屏幕馬上自動(dòng)出現(xiàn)小夏之前設(shè)定好的當(dāng)天行程表。吃蘋果還是吃香蕉當(dāng)早飯?用“拍照搜索”的手機(jī)APP(應(yīng)用程序)拍張照片,兩種水果的熱量多少就一目了然。上班路上,看到不知名的花,小夏覺得好看,拍下來后仍舊用手機(jī)APP識(shí)別,就能知道花的品種名稱。
到了公司門口,小夏在門禁系統(tǒng)前一揚(yáng)臉,嘟一聲,門就自動(dòng)解鎖。午休時(shí)閑聊,小夏看到同事的裙子很漂亮,征得同意后給同事拍了個(gè)照,手機(jī)APP一識(shí)別,手機(jī)上馬上出現(xiàn)了相同款式的價(jià)格和可購(gòu)買的電商渠道。收到男朋友的短信,小夏懶得打字,拿起手機(jī)說了一段話,說完自動(dòng)轉(zhuǎn)換成文字回了過去。下班坐地鐵回家,小夏想起有首歌很好聽,想給男朋友發(fā)個(gè)鏈接,但一時(shí)間想不起歌名了,于是對(duì)著手機(jī)哼了一段旋律搜索歌曲,熟悉的歌名真的出現(xiàn)了。
對(duì)小夏來說,這些真實(shí)便利的“智能生活”,要感謝計(jì)算機(jī)識(shí)別技術(shù)的發(fā)展。隨著語音識(shí)別、圖像識(shí)別和人臉識(shí)別等技術(shù)越來越精確和高效,智能終端、智能家居乃至機(jī)器人等“智能硬件”變得能聽、能說、能看,不斷提高著“智商”,更好地為人們服務(wù)。
“人臉識(shí)別、圖像識(shí)別都屬于計(jì)算機(jī)視覺技術(shù)。”微軟亞洲研究院首席研究員孫劍說,計(jì)算機(jī)視覺就是讓機(jī)器可以像人一樣能夠看圖片或者看視頻,并能夠理解這個(gè)圖片的內(nèi)容,建造一個(gè)像人眼睛一樣的機(jī)器。比如,隨便一張圖,計(jì)算機(jī)可以識(shí)別圖里的物體,包括杯子、電腦、桌子等等。
“語音識(shí)別的目的,是讓人說的話能被機(jī)器聽清楚,之后還要聽明白。語音合成,目的是要讓機(jī)器能夠用最自然、最清晰的方式說話。”語音專家、微軟亞洲研究院首席研究員宋謌平認(rèn)為,現(xiàn)在很多情況,機(jī)器只是“聽到”了,和“聽懂”還是有距離。就像去看抽象畫,每個(gè)顏色都認(rèn)得,每個(gè)線條都知道,但可能還是不知道這個(gè)抽象畫是什么意思。
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的崛起,這些計(jì)算機(jī)識(shí)別技術(shù)日益深入生活。馬云在前不久的德國(guó)漢諾威電子展上演示了在淘寶刷臉支付。最近火爆全球互聯(lián)網(wǎng)的“顏齡機(jī)器人”網(wǎng)站How-Old.net,能夠判斷用戶上傳照片中人物的性別和年齡。
語音識(shí)別應(yīng)用方面,目前大部分的手機(jī)輸入法都已支持語音輸入轉(zhuǎn)文字功能,也出現(xiàn)了蘋果希瑞和微軟小娜等通過語音交互的智能助手。百度語音技術(shù)內(nèi)嵌在手機(jī)百度、百度輸入法、百度地圖、百度導(dǎo)航等一系列產(chǎn)品中,可以延伸應(yīng)用到汽車、醫(yī)療、電商、家電和車載等許多方向。微軟即時(shí)通話軟件Skype也剛剛對(duì)所有用戶開放了Skype Translator中文預(yù)覽版實(shí)時(shí)語音翻譯技術(shù)。
報(bào)個(gè)菜名?手機(jī)就會(huì)
“長(zhǎng)時(shí)間來,讓計(jì)算機(jī)能看、能聽、能說一直是我和計(jì)算機(jī)界同行們孜孜以求的目標(biāo)。”孫劍說,但要研發(fā)出一個(gè)像科幻大片《星際穿越》里“Tars”一樣能看懂周圍世界、聽懂人類語言并和人類進(jìn)行流暢對(duì)話的智能機(jī)器人,要走的路還有很長(zhǎng)。
比如,對(duì)計(jì)算機(jī)而言,識(shí)別一個(gè)在不同環(huán)境下的人,還不如識(shí)別在同一環(huán)境下的兩個(gè)人來得簡(jiǎn)單。這是因?yàn)椋畛跹芯空咴噲D將人臉想象為一個(gè)模板,然而人臉雖然看起來是固定的,但角度、光線、打扮不同,樣子也有差別,這都令簡(jiǎn)單的模板難以匹配所有人臉。如果單純識(shí)別面部,而不考慮發(fā)型和身體的其他部分,人類的正確率約為97.5%,計(jì)算機(jī)目前則能達(dá)到99%以上。
“這是否意味著計(jì)算機(jī)已經(jīng)勝過了人類?不是,因?yàn)槿藗儾恢挥^察面部,身材和體態(tài)都有助于人們認(rèn)出對(duì)方。在復(fù)雜光照的真實(shí)環(huán)境下,人能夠更智能地選擇這些分支幫助自己決策,而計(jì)算機(jī)在這方面則要遜色許多。”孫劍說。
幸運(yùn)的是,在互聯(lián)網(wǎng)海量數(shù)據(jù)的幫助下,以及深層神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、大數(shù)據(jù)處理等人工智能技術(shù)的另辟蹊徑,包括計(jì)算機(jī)在內(nèi)的智能機(jī)器有了大量的素材進(jìn)行學(xué)習(xí)。以往學(xué)術(shù)界做語音識(shí)別通常是幾十小時(shí)的訓(xùn)練語料,而互聯(lián)網(wǎng)公司有大量的服務(wù)器集群并行計(jì)算,可以處理成千上萬小時(shí)的訓(xùn)練語料。同樣的,在用人工智能的深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練計(jì)算機(jī)圖形識(shí)別能力時(shí),也能夠投入海量的圖像。
區(qū)別于現(xiàn)在的圖像識(shí)別技術(shù),還有一種叫做光學(xué)字符識(shí)別的技術(shù),已經(jīng)在把圖書館藏書掃描轉(zhuǎn)化為電子書過程中發(fā)揮關(guān)鍵作用。而結(jié)合其他的計(jì)算機(jī)識(shí)別技術(shù)和實(shí)時(shí)翻譯功能,這種技術(shù)又挖掘出新的應(yīng)用:把手機(jī)攝像頭對(duì)準(zhǔn)菜單上的法語菜名,屏幕上實(shí)時(shí)顯示出翻譯好的中文菜名,甚至能念給你聽;街景地圖采集車游走于大街小巷,拍攝街景的同時(shí)也從街景圖像中自動(dòng)提取文字標(biāo)識(shí),讓地圖信息更豐富更準(zhǔn)確。
此外,微軟亞洲研究院還與中國(guó)科學(xué)院計(jì)算技術(shù)研究所、北京聯(lián)合大學(xué)合作了一個(gè)項(xiàng)目,致力于通過姿勢(shì)捕捉設(shè)備,利用手勢(shì)識(shí)別和語音技術(shù),使得聽力障礙人士在觀眾面前用手語演講,每位觀眾都能不費(fèi)吹灰之力聽懂他的演說。
過去幾年里,全球互聯(lián)網(wǎng)領(lǐng)域的幾大巨頭——谷歌、蘋果、微軟、臉書以及百度,都在積極進(jìn)行人工智能方面的研發(fā),以改進(jìn)其在圖像、視頻及語音信息處理方面的服務(wù)能力,因此,人工智能技術(shù)——企圖了解智能的實(shí)質(zhì),并生產(chǎn)出能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,也被認(rèn)為是互聯(lián)網(wǎng)產(chǎn)業(yè)的下一個(gè)引爆點(diǎn)。
是敵是友?門禁知道
盡管目前智能手機(jī)上的語音助手已經(jīng)算是標(biāo)配應(yīng)用,但人與人交流并不只靠語音,還有手勢(shì)、眼神、視覺、環(huán)境等等。在人工智能技術(shù)的支持下,語音識(shí)別、圖像識(shí)別等技術(shù)歸根結(jié)底都是在做一個(gè)事情,讓機(jī)器更聰明,這樣就可以理解人,可以與人自然地交流,可以越來越多地幫助人類去執(zhí)行一些任務(wù),未來是一個(gè)智能化的世界。像智能門禁、智能手機(jī)、智能手表和智能汽車都需要類似于語音助手的操控。智能家居要根據(jù)主人的生活規(guī)律、外部環(huán)境、階梯電價(jià)多個(gè)因素來提供最舒適最環(huán)保的方案,這些場(chǎng)景,都離不開圖像識(shí)別、語音識(shí)別等技術(shù)。
孫劍認(rèn)為,除了人類自身也能做到的識(shí)別功能外,計(jì)算機(jī)視覺還可應(yīng)用在那些人類能力所限,感覺器官不能及的領(lǐng)域和單調(diào)乏味的工作上:在微笑瞬間自動(dòng)按下快門,幫助汽車駕駛員泊車入位,捕捉身體的姿態(tài)與電腦游戲互動(dòng),忙碌的購(gòu)物季節(jié)幫助倉(cāng)庫(kù)分揀商品,離開家時(shí)掃地機(jī)器人清潔房間,自動(dòng)將數(shù)碼照片進(jìn)行識(shí)別分類……
“或許在不久的將來,超市電子秤就能辨別出蔬菜的種類;門禁系統(tǒng)能分辨出帶著禮物的朋友,抑或手持撬棒的即將行竊的歹徒;可穿戴設(shè)備和手機(jī)幫助我們識(shí)別出鏡頭中的任何物體并搜索出相關(guān)信息。更奇妙的是,它還能超越人類雙眼的感官,用聲波、紅外線來感知這個(gè)世界,觀察云層的洶涌起伏預(yù)測(cè)天氣,監(jiān)測(cè)車輛的運(yùn)行調(diào)度交通,甚至突破我們的想象,幫助理論物理學(xué)家分析超過三維的空間中物體運(yùn)動(dòng)。”孫劍說。
而在宋謌平想象中,智能語音技術(shù)的終極目標(biāo)之一,是做出一個(gè)“全球翻譯器”的語音合成器,通過這個(gè)翻譯器,說中文的人,不懂英文也照樣能“說” 得標(biāo)準(zhǔn),而且聲音就跟本人一樣,不同語種不同膚色的人們之間都可以無障礙溝通。“以后大家都可以像會(huì)多種語言的錢鍾書先生一樣,用法語、拉丁文、英文、中文夾雜著說一段話。”