隨著機(jī)器學(xué)習(xí)和人工智能的熱鬧,國(guó)內(nèi)語(yǔ)音行業(yè)也可謂是百花齊放,尤其是最近幾年,不僅涌現(xiàn)了很多國(guó)內(nèi)外的小公司,而且巨頭們也開(kāi)始加速語(yǔ)音識(shí)別行業(yè)的布局。本文就詳細(xì)盤點(diǎn)一番國(guó)內(nèi)外的大型公司,并對(duì)他們掌握的技術(shù)進(jìn)行分析,同時(shí)預(yù)測(cè)一下未來(lái)的語(yǔ)音識(shí)別趨勢(shì),期望帶給行業(yè)內(nèi)外的專業(yè)人士些許參考,借此更進(jìn)一步推進(jìn)整個(gè)行業(yè)的發(fā)展。
國(guó)外語(yǔ)音識(shí)別行業(yè)收購(gòu)盤點(diǎn)和技術(shù)分析
傳統(tǒng)語(yǔ)音識(shí)別行業(yè)貴族Nuance逐漸沒(méi)落
任何時(shí)候提到語(yǔ)音識(shí)別,都不能避過(guò)Nuance這家公司,這家公司曾經(jīng)在語(yǔ)音領(lǐng)域一統(tǒng)江湖,世界上有超過(guò)80%的語(yǔ)音識(shí)別都用過(guò)Nuance識(shí)別引擎技術(shù),其語(yǔ)音產(chǎn)品可以支持超過(guò)50種語(yǔ)言,在全球擁有超過(guò)20億用戶,幾乎壟斷了金融和電信行業(yè)。就算現(xiàn)在,仍舊是瘦死的駱駝比馬大,Nuance依舊是全球最大的語(yǔ)音技術(shù)公司,掌握著全球最多的語(yǔ)音技術(shù)專利。蘋果語(yǔ)音助手Siri、三星語(yǔ)音助手S-Voice、各大航空公司和頂級(jí)銀行的自動(dòng)呼叫中心,剛開(kāi)始都是采用他們的語(yǔ)音識(shí)別引擎技術(shù)。Nuance已經(jīng)登陸了納斯達(dá)克,三星、蘋果和百度都和它傳過(guò)緋聞,傳言多次收購(gòu),但是全都無(wú)疾而終。
事實(shí)上,Nuance有點(diǎn)過(guò)于自大了,語(yǔ)音技術(shù)即便冠絕全球,但是在具體應(yīng)用上,差距就沒(méi)有那么大了。語(yǔ)音識(shí)別技術(shù)并非高不可攀,實(shí)際上一款用戶體驗(yàn)較好的語(yǔ)音識(shí)別系統(tǒng),很大程度上依靠數(shù)據(jù)和經(jīng)驗(yàn),專利和算法什么的并沒(méi)有那么重要。聰明人自然很多,所以巨頭們只需考慮挖到專業(yè)人士或者收購(gòu)初創(chuàng)公司,自主研發(fā)出不遜于Nuance的語(yǔ)音識(shí)別技術(shù)也不是太難的事情,又何必花費(fèi)巨資看Nuance臉色呢。
蘋果收購(gòu)Siri、Novauris Technologies、VocallQ和Emotient
蘋果的Siri已經(jīng)鼎鼎大名了,也算世界上語(yǔ)音識(shí)別的執(zhí)牛耳者。Siri并不是蘋果自己研發(fā)的技術(shù),而是2010年蘋果收購(gòu)Siri Inc.公司的產(chǎn)品,2011年蘋果將該技術(shù)融入到iPhone 4S中并發(fā)布了Siri語(yǔ)音助理。Siri Inc.這家公司成立于2007年,原本核心技術(shù)是CALO人工智能項(xiàng)目。當(dāng)然Siri剛開(kāi)始發(fā)布的時(shí)候語(yǔ)音識(shí)別的體驗(yàn)還很差,眾多果粉也是四處吐槽。因此2013年蘋果又收購(gòu)了語(yǔ)音識(shí)別公司Novauris Technologies。Novauris是一種可識(shí)別整個(gè)短語(yǔ)的語(yǔ)音識(shí)別技術(shù),這種技術(shù)并非簡(jiǎn)單識(shí)別單個(gè)詞句,而是試圖利用超過(guò)2.45億個(gè)短語(yǔ)的識(shí)別輔助理解上下文,當(dāng)然這是很有難度的一件事情。不管怎樣,這次收購(gòu)也讓蘋果進(jìn)一步完善了Siri的功能。
但是這還是不夠,因此2015年蘋果又收購(gòu)了英國(guó)語(yǔ)音技術(shù)初創(chuàng)公司VocalIQ。VocalIQ開(kāi)發(fā)的人工智能軟件,能夠幫助計(jì)算機(jī)與用戶進(jìn)行更為自然的對(duì)話。VocalIQ使用機(jī)器學(xué)習(xí)(machine learning)開(kāi)發(fā)虛擬助手,將語(yǔ)音處理和機(jī)器學(xué)習(xí)技術(shù)整合到可穿戴設(shè)備、家庭聯(lián)網(wǎng)設(shè)備當(dāng)中的同時(shí),這家公司還特別關(guān)注車載應(yīng)用的開(kāi)發(fā)。這次收購(gòu)也證實(shí)了蘋果將來(lái)邁入汽車領(lǐng)域的決心。Siri應(yīng)該是通用語(yǔ)音識(shí)別領(lǐng)域用戶體驗(yàn)當(dāng)前較好的產(chǎn)品,特別是在兒童語(yǔ)音識(shí)別領(lǐng)域,這也得益于蘋果極易上手的特性吸引了眾多小朋友,也包括筆者家里的小朋友。
當(dāng)然,Siri還是距離我們的實(shí)際應(yīng)用需求還差很遠(yuǎn),因此蘋果最近又收購(gòu)了美國(guó)圣地牙哥 AI 技術(shù)公司 Emotient,接收其臉部表情分析與情緒辨別技術(shù)。據(jù)悉,Emotient開(kāi)發(fā)的情緒引擎可讀取人們的面部表情并且預(yù)測(cè)其情緒狀態(tài)。
谷歌收購(gòu)SayNow,Phonetic Arts,Wavii,SR Tech Group及出門問(wèn)問(wèn)
這個(gè)領(lǐng)域當(dāng)然少不了大名鼎鼎的谷歌,但是谷歌動(dòng)作稍微遲緩,2011年谷歌才出手收購(gòu)語(yǔ)音通信公司SayNow和語(yǔ)音合成公司Phonetic Arts。SayNow可以把語(yǔ)音通信、點(diǎn)對(duì)點(diǎn)對(duì)話、以及群組通話和Facebook、Twitter、MySpace、Android和 iPhone等等應(yīng)用等整合在一起,而Phonetic Arts可以把錄制的語(yǔ)音對(duì)話轉(zhuǎn)化成語(yǔ)音庫(kù),然后把這些聲音結(jié)合到一起,從而生成聽(tīng)上去非常逼真的人聲對(duì)話。
當(dāng)然,這才只是開(kāi)始,實(shí)際上語(yǔ)音技術(shù)遠(yuǎn)沒(méi)那么簡(jiǎn)單,因此2013年谷歌以超過(guò)3000萬(wàn)美元收購(gòu)了新聞閱讀應(yīng)用開(kāi)發(fā)商Wavii。Wavii擅長(zhǎng)“自然語(yǔ)言處理”技術(shù),可以通過(guò)掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并直接給出一句話摘要及鏈接。但是谷歌忙活了這么久,似乎還沒(méi)真正介入語(yǔ)音識(shí)別行業(yè),因此谷歌還收購(gòu)了SR Tech Group 的多項(xiàng)語(yǔ)音識(shí)別相關(guān)的專利,這些技術(shù)和專利谷歌也很快應(yīng)用到市場(chǎng),比如YouTube已提供標(biāo)題自動(dòng)語(yǔ)音轉(zhuǎn)錄支持,Google Glass使用了語(yǔ)音控制技術(shù),Android也整合了語(yǔ)音識(shí)別技術(shù)等等,Google Now更是擁有了完整的語(yǔ)音識(shí)別引擎。但是相比蘋果的戰(zhàn)略布局,谷歌總喜歡玩花樣,似乎戰(zhàn)略考慮上欠缺一些。谷歌似乎也意識(shí)到了這個(gè)問(wèn)題,因此2015年入資了中國(guó)的出門問(wèn)問(wèn),這是一款以語(yǔ)音導(dǎo)航為主的公司,最近也發(fā)布了智能手表,出門問(wèn)問(wèn)也有國(guó)內(nèi)著名聲學(xué)器件廠商歌爾聲學(xué)的背景,谷歌的這個(gè)動(dòng)作也被認(rèn)為是谷歌重返中國(guó)的策略。
亞馬遜收購(gòu)Yap,Evi,Ivona Software
Amazon放在此處凸顯重要,這可是一家最有可能把語(yǔ)音識(shí)別落地到消費(fèi)市場(chǎng)的巨頭。Amazon的語(yǔ)音技術(shù)起步于2011年收購(gòu)語(yǔ)音識(shí)別公司Yap,Yap成立于2006年,主要提供語(yǔ)音轉(zhuǎn)換文本的服務(wù)。2012年Amazon又收購(gòu)了語(yǔ)音技術(shù)公司Evi,繼續(xù)加強(qiáng)語(yǔ)音識(shí)別在商品搜索方面的應(yīng)用,不得不提的是,Evi這家公司也曾經(jīng)應(yīng)用過(guò)Nuance的語(yǔ)音識(shí)別技術(shù)。2013年,Amazon繼續(xù)收購(gòu)語(yǔ)音技術(shù)公司Ivona Software,Ivona是一家波蘭公司,主要做文本語(yǔ)音轉(zhuǎn)換,其技術(shù)已被應(yīng)用在Kindle Fire的文本至語(yǔ)音轉(zhuǎn)換功能、語(yǔ)音命令和Explore by Touch應(yīng)用之中,其最近推出的智能音箱Echo也是利用了這項(xiàng)技術(shù)。
Facebook收購(gòu)MobileTechnologies和Wit.ai
Facebook也是巨頭了,任何視頻平臺(tái)無(wú)論如何都不能忽略了聲學(xué)技術(shù),因此Facebook在2013年收購(gòu)了語(yǔ)音識(shí)別公司Mobile Technologies。Mobile Technologies是一家創(chuàng)業(yè)型的小公司,其產(chǎn)品Jibbigo允許用戶在25種語(yǔ)言中進(jìn)行選擇,使用其中一種語(yǔ)言進(jìn)行語(yǔ)音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時(shí)根據(jù)選擇的語(yǔ)言大聲朗讀出來(lái)。這一技術(shù)使得 Jibbigo成為出國(guó)旅游的常用工具,很好地代替了常用語(yǔ)手冊(cè)。當(dāng)然這遠(yuǎn)不能滿足Facebook的野心,F(xiàn)acebook繼續(xù)收購(gòu)了語(yǔ)音識(shí)別公司W(wǎng)it.ai。Wit.ai是一家語(yǔ)音交互解決方案服務(wù)商,允許用戶直接通過(guò)語(yǔ)音來(lái)控制移動(dòng)應(yīng)用程序、穿戴設(shè)備和機(jī)器人,以及幾乎任何智能設(shè)備。簡(jiǎn)單來(lái)說(shuō),就是“能把語(yǔ)言轉(zhuǎn)化為可操作的數(shù)據(jù)”。當(dāng)然Facebook的想法也很簡(jiǎn)單,將這種技術(shù)應(yīng)用到定向廣告之中,這種巨頭更希望將技術(shù)和自己的商業(yè)模式緊密結(jié)合在一起。
微軟戰(zhàn)略發(fā)展Skype、Cortana和微軟小冰
微軟這個(gè)總是以發(fā)論文為自豪的公司,技術(shù)自然很牛,也給國(guó)內(nèi)這個(gè)行業(yè)培養(yǎng)了很多人才。例如Skype Translator,起初是為英語(yǔ)和西班牙語(yǔ)用戶提供實(shí)時(shí)翻譯服務(wù),后來(lái)開(kāi)始支持漢語(yǔ)和意大利語(yǔ)兩種語(yǔ)言。Skype計(jì)劃在所有相關(guān)的平臺(tái)上翻譯盡可能多的語(yǔ)言,從而帶來(lái)與電影《星際迷航》中一樣的智能翻譯工具,這個(gè)宏偉目標(biāo)也只有這種不差錢的土豪才能說(shuō)出來(lái),萬(wàn)一實(shí)現(xiàn)了呢?
當(dāng)然微軟最吸引眼球的并非Skype,而是微軟的Cortana和微軟小冰。Cortana是一款個(gè)人用戶助理,是微軟在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試。Cortana可以記錄用戶的行為和使用習(xí)慣,利用云計(jì)算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析,讀取和學(xué)習(xí)包括手機(jī)中的文本文件、電子郵件、圖片、視頻等數(shù)據(jù),來(lái)理解用戶的語(yǔ)義和語(yǔ)境,從而實(shí)現(xiàn)人機(jī)交互。而微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機(jī)器人,微軟小冰除了智能對(duì)話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點(diǎn)評(píng)等實(shí)用技能,實(shí)際上,這個(gè)被微軟亞洲研究院定位于18歲少女的小冰,被訓(xùn)練的更具有女流氓氣質(zhì)。
國(guó)外其他行業(yè)的巨頭也加入收購(gòu)
另外還有一些巨頭也相繼進(jìn)入語(yǔ)音這個(gè)行業(yè),例如2013年英特爾收購(gòu)了西班牙的語(yǔ)音識(shí)別技術(shù)公司Indisys,同年雅虎也收購(gòu)了自然語(yǔ)言處理技術(shù)初創(chuàng)公司SkyPhrase。而美國(guó)最大的有線電視公司Comcast也開(kāi)始推出自己的語(yǔ)音識(shí)別交互系統(tǒng)。Comcast希望利用語(yǔ)音識(shí)別技術(shù)讓用戶通過(guò)語(yǔ)音就可以更自由控制電視,并完成一些遙控器無(wú)法完成的事情,例如用戶可以對(duì)著電視說(shuō)出一些關(guān)鍵詞,就可以從他們的DVR中找出相關(guān)的視頻,而且這也將支持Comcast直播的電視節(jié)目。
國(guó)內(nèi)語(yǔ)音識(shí)別行業(yè)的發(fā)展和技術(shù)分析
科大訊飛:中科院典范,站穩(wěn)教育市場(chǎng)
科大訊飛是目前國(guó)內(nèi)最有影響力的語(yǔ)音技術(shù)公司,成立于1999年底,依靠中科大的語(yǔ)音處理技術(shù)以及國(guó)家的大力扶持,很快就走上了正軌。在2008年的時(shí)候就已經(jīng)掛牌上市,目前市值接近500億,根據(jù)2014年語(yǔ)音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調(diào)查顯示,科大訊飛占據(jù)了超過(guò)60%的市場(chǎng)份額,絕對(duì)是語(yǔ)音技術(shù)的龍頭企業(yè)。一提到科大訊飛,可能大家想到的都是語(yǔ)音識(shí)別很牛,但其實(shí)它最大的收益來(lái)源是教育,特別是在2013年左右,收購(gòu)了很多家語(yǔ)音評(píng)測(cè)公司,包括啟明科技等,對(duì)教育市場(chǎng)形成了壟斷,經(jīng)過(guò)一系列的收購(gòu)后,目前所有省份的口語(yǔ)評(píng)測(cè)用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點(diǎn),所有的學(xué)校及家長(zhǎng)都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動(dòng)。
百度語(yǔ)音:有錢任性,技術(shù)實(shí)力很強(qiáng)大
百度語(yǔ)音這個(gè)怎么描述才好呢,百度語(yǔ)音其實(shí)很早就被確立為戰(zhàn)略方向,2010年與中科院聲學(xué)所合作研發(fā)語(yǔ)音識(shí)別技術(shù),但是市場(chǎng)發(fā)展相對(duì)緩慢。百度幾乎成為了很多歸國(guó)人員刷簡(jiǎn)歷的跳板,包括一些高層,其簡(jiǎn)歷表上都被各大巨頭公司排滿了。但這對(duì)公司來(lái)說(shuō),有個(gè)卵用。因此直到2014年,百度重新梳理了戰(zhàn)略,終于找對(duì)了人,請(qǐng)來(lái)了人工智能領(lǐng)域的泰斗級(jí)大師吳恩達(dá),正式組建了語(yǔ)音團(tuán)隊(duì),專門研究語(yǔ)音相關(guān)技術(shù),由于有百度強(qiáng)大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場(chǎng)份額,其技術(shù)實(shí)力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗(yàn)積累的科大訊飛相提并論。
捷通和信利:也是老牌,發(fā)展卻很坎坷
同樣也是在2000年左右,還有兩家公司也相繼成立,這就是捷通華聲和中科信利。捷通華聲憑借的是清華技術(shù),成立初期力邀中科院聲學(xué)所的呂士楠老先生加入,奠定了語(yǔ)音合成的基礎(chǔ)。中科信利則完全依托于中科院聲學(xué)所,其成立初期技術(shù)實(shí)力極為雄厚,不僅為國(guó)內(nèi)語(yǔ)音識(shí)別行業(yè)培養(yǎng)了大量人才,而且也在行業(yè)領(lǐng)域,特別是軍工領(lǐng)域發(fā)揮著至關(guān)重要的作用。中科院聲學(xué)所培養(yǎng)的這些人才,對(duì)于國(guó)內(nèi)語(yǔ)音識(shí)別行業(yè)的發(fā)展極為重要,姑且稱之為聲學(xué)系,但是相對(duì)于市場(chǎng)來(lái)說(shuō),這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場(chǎng)背景,目前基本上不再參與市場(chǎng)運(yùn)作,而捷通華聲最近也因?yàn)槟洗箅娮?ldquo;嬌嬌”機(jī)器人的造假事件被推上了風(fēng)口浪尖,著實(shí)是一個(gè)非常負(fù)面的影響。聲學(xué)相關(guān)類公司不同于其他行業(yè),技術(shù)才是其發(fā)展壯大的根基。
思必馳:放棄教育市場(chǎng),進(jìn)軍智能硬件
在2009年左右,DNN被用于語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)音識(shí)別率得到大幅提升,識(shí)別率突破90%,達(dá)到商用標(biāo)準(zhǔn),這極大的推動(dòng)了語(yǔ)音識(shí)別領(lǐng)域的發(fā)展,這幾年內(nèi)又先后成立許多語(yǔ)音識(shí)別相關(guān)的創(chuàng)業(yè)公司。成立較早一點(diǎn)的是思必馳,2007年成立,創(chuàng)始人大部分來(lái)源于劍橋團(tuán)隊(duì),其技術(shù)有一定的國(guó)外基礎(chǔ),當(dāng)時(shí)公司主要側(cè)重于語(yǔ)音評(píng)測(cè),也就是教育,但經(jīng)過(guò)多年的發(fā)展,雖然占有了一些市場(chǎng),但在科大訊飛把持著考試制高點(diǎn)的情況下,也很難得到突破。于是在2014年的時(shí)候,思必馳痛下決心將負(fù)責(zé)教育行業(yè)的部門剝離,以9000萬(wàn)賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和移動(dòng)互聯(lián)網(wǎng),最近更是集中精力聚焦車載語(yǔ)音助手,推出了“蘿卜”,可市場(chǎng)反響非常一般。雖然思必馳最近獲得了阿里戰(zhàn)略注資,但是筆者訪問(wèn)其官網(wǎng)的時(shí)候,卻發(fā)現(xiàn)放在首要位置的竟是小智音箱,不知道這個(gè)賣了沒(méi)幾臺(tái)的音箱能帶給思必馳什么?
云知聲:融資迅猛,就是不見(jiàn)落地
借著2011年蘋果Siri的宣傳勢(shì)頭,2012年云知聲成立。云知聲團(tuán)隊(duì)主要來(lái)源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業(yè),與科大訊飛可以說(shuō)是師兄弟。但語(yǔ)音識(shí)別技術(shù)則更多的源于中科院自動(dòng)化所,其語(yǔ)音識(shí)別技術(shù)有一定的獨(dú)到之處,有一小段時(shí)期內(nèi)語(yǔ)音識(shí)別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達(dá)到3億,主要瞄準(zhǔn)智能家居市場(chǎng)。但至今已經(jīng)成立了3年多,聽(tīng)到的更多是宣傳,市場(chǎng)發(fā)展較為緩慢,B2B市場(chǎng)始終不見(jiàn)起色,B2C市場(chǎng)也很少聽(tīng)到實(shí)際應(yīng)用,估計(jì)目前還處在燒錢階段。但是這樣個(gè)燒法總是危險(xiǎn),科大訊飛已經(jīng)上市暫且不論,思必馳和出門問(wèn)問(wèn)也懷抱巨資試圖落地,而且語(yǔ)音識(shí)別行業(yè)這個(gè)玩法,國(guó)內(nèi)巨頭必然也會(huì)學(xué)習(xí)國(guó)外巨頭的思路,顯然收購(gòu)初創(chuàng)企業(yè)擁有更多話語(yǔ)權(quán),相對(duì)更為實(shí)在。
出門問(wèn)問(wèn):歌爾和谷歌入資,主打移動(dòng)
出門問(wèn)問(wèn)也是成立于2012年,其CEO曾經(jīng)在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司,并立志打造下一代移動(dòng)語(yǔ)音搜索產(chǎn)品——“出門問(wèn)問(wèn)”。出門問(wèn)問(wèn)的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內(nèi)置地圖的情況下,為啥還要下載這個(gè)軟件,顯然有時(shí)候比直接查找地圖還要麻煩。出門問(wèn)問(wèn)同樣也具有較強(qiáng)的融資能力,2015年更是拿到了Google的C輪融資,融資額累計(jì)已經(jīng)7500萬(wàn)美元。出門問(wèn)問(wèn)主要瞄準(zhǔn)可穿戴市場(chǎng),最近自己也推出了智能手表等產(chǎn)品,但也是雷聲大,雨點(diǎn)小,沒(méi)見(jiàn)得其智能手表的銷量如何。
再數(shù)數(shù)其他的一些業(yè)界公司
語(yǔ)音識(shí)別的門檻并不高,聲學(xué)在線很多文章里提到過(guò),因此國(guó)內(nèi)各大公司也逐漸加入進(jìn)來(lái)。搜狗開(kāi)始采用的是云知聲的語(yǔ)音識(shí)別引擎,但很快就搭建起自己的語(yǔ)音識(shí)別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。騰訊當(dāng)然不會(huì)落后,微信也建立了自己語(yǔ)音識(shí)別引擎,用于將語(yǔ)音轉(zhuǎn)換為文字,但這個(gè)做的還是有點(diǎn)差距,想必大家也都體驗(yàn)過(guò)。阿里,愛(ài)奇藝,360,樂(lè)視等等也都在搭建自己的語(yǔ)音識(shí)別引擎,但這些大公司更多的是自研自用,基本上技術(shù)上泛善可陳,業(yè)界也沒(méi)有什么影響力。
國(guó)內(nèi)外巨頭布局語(yǔ)音識(shí)別的策略差異
上面歷數(shù)了國(guó)內(nèi)外各個(gè)巨頭陸續(xù)建立語(yǔ)音識(shí)別引擎的過(guò)程和優(yōu)勢(shì)技術(shù),有一點(diǎn)我們還是要特別留意一下:國(guó)外巨頭欲進(jìn)入語(yǔ)音識(shí)別行業(yè),首先想到的就是收購(gòu)初創(chuàng)的團(tuán)隊(duì),這些團(tuán)隊(duì)大都也在5-20人之間,掌握著一定的優(yōu)勢(shì)技術(shù)。顯然收購(gòu)一家初創(chuàng)團(tuán)隊(duì)很難滿足其戰(zhàn)略發(fā)展,因此一旦技術(shù)與公司業(yè)務(wù)融合以后,這些巨頭都會(huì)頻繁出手再次收購(gòu)以補(bǔ)齊短板,逐漸建立起適合自己公司發(fā)展的語(yǔ)音識(shí)別優(yōu)勢(shì)。對(duì)于技術(shù)相對(duì)重要而且技術(shù)點(diǎn)又比較分散的科技型公司,國(guó)外巨頭一般不會(huì)采取收購(gòu)商業(yè)模式公司的那種大手筆來(lái)收購(gòu),這也是導(dǎo)致Nuance最終無(wú)人問(wèn)津的重要因素。想想也是,巨頭自然不會(huì)用別人家引擎以免將來(lái)掣肘,何況收購(gòu)技術(shù)類的大型公司無(wú)疑也是給自己找了個(gè)麻煩。
國(guó)內(nèi)的語(yǔ)音識(shí)別發(fā)展脈路沒(méi)有那么清晰,剛開(kāi)始各個(gè)巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來(lái)醒悟過(guò)來(lái),紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒(méi)有啥實(shí)質(zhì)性進(jìn)展。這一點(diǎn)從他們?cè)噲D低薪聘請(qǐng)語(yǔ)音識(shí)別相關(guān)人才的策略上,也可知道其戰(zhàn)略上沒(méi)什么可發(fā)展的。語(yǔ)音識(shí)別行業(yè)屬于聲學(xué)和計(jì)算機(jī)的交叉技術(shù),本來(lái)培養(yǎng)的人才就很稀缺,而從上述分析可以看出,國(guó)內(nèi)外的技術(shù)源頭實(shí)際上大概集中,無(wú)非就是業(yè)界相關(guān)的研究機(jī)構(gòu)和擁有研發(fā)實(shí)力的巨頭公司。
語(yǔ)音識(shí)別行業(yè)平衡之下的技術(shù)發(fā)展趨勢(shì)
語(yǔ)音識(shí)別行業(yè)現(xiàn)在似乎維持著最大的平衡,因?yàn)閲?guó)內(nèi)外各家的引擎識(shí)別率都基本在同一個(gè)水平線上,差不多達(dá)到了當(dāng)前語(yǔ)音識(shí)別技術(shù)的極限,彼此之間差距不是那么明顯。本來(lái)蘋果發(fā)布Siri被寄予厚望,這是將語(yǔ)音技術(shù)進(jìn)行大眾推廣的絕佳良機(jī),但是Siri的表現(xiàn)卻與預(yù)期相差甚遠(yuǎn)。即便國(guó)內(nèi)非?;馃岬奈⑿?,其中又有幾人使用,甚至知道其中的語(yǔ)音識(shí)別技術(shù)呢?倒是同樣源自聲學(xué)技術(shù)的微信搖一搖功能非?;馃帷_@個(gè)技術(shù)相對(duì)語(yǔ)音識(shí)別來(lái)說(shuō),簡(jiǎn)直就是小巫見(jiàn)大巫,但是應(yīng)用場(chǎng)景契合的很好。因此,傳統(tǒng)的語(yǔ)音識(shí)別行業(yè)公司都在謀求轉(zhuǎn)型發(fā)展,比如Nuance、科大訊飛等,轉(zhuǎn)型失敗或者技術(shù)儲(chǔ)備不足的,或許將來(lái)就是最早倒下的,而且這幾年也有不少家類似公司倒下了。
未來(lái)的語(yǔ)音識(shí)別市場(chǎng),預(yù)計(jì)將會(huì)有越來(lái)越多的公司參與,以后語(yǔ)音識(shí)別的性能可能更多的體現(xiàn)在前端技術(shù)和語(yǔ)義理解上。機(jī)器要與人自然交流,當(dāng)然就不能重復(fù)手機(jī)這套語(yǔ)音對(duì)話規(guī)則,必然就要考慮到用戶說(shuō)話的環(huán)境、周圍環(huán)境的噪音、用戶發(fā)音不準(zhǔn)或者方言等等諸多因素,這就要求前端技術(shù)更加精準(zhǔn)的模擬人體結(jié)構(gòu),仿真出機(jī)器人聽(tīng)覺(jué)系統(tǒng),以實(shí)現(xiàn)解放雙手自由對(duì)話的目的。另外,機(jī)器能不能與人自由的交流,不僅需要機(jī)器能將語(yǔ)音轉(zhuǎn)換成文字,更需要機(jī)器從文字中理解說(shuō)話人的含義,這一方面是基于大樣本的機(jī)器學(xué)習(xí)需要更進(jìn)一步,另外一方面也需要小樣本的自主學(xué)習(xí),沒(méi)有舉一反三的功能,似乎語(yǔ)義理解也無(wú)法自主適應(yīng)陌生的環(huán)境。這兩個(gè)新興的技術(shù)領(lǐng)域,或許又會(huì)孕育出幾家獨(dú)角獸企業(yè),將真正推動(dòng)語(yǔ)音從識(shí)別走向交互的自然體驗(yàn),從而向著人工智能再次邁進(jìn)一步。