就像剛才戴文淵博士講的,人工智能三起兩落,從創(chuàng)立到寒冬,到現(xiàn)在新的時代,大數(shù)據(jù)和高性能計算點爆了深度學習。這個過程都是與產(chǎn)業(yè)界密不可分的。從三起兩落也看出了,產(chǎn)業(yè)界對人工智能的期許非常高。我們把產(chǎn)業(yè)界的發(fā)展看成四個階段,從信息時代到互聯(lián)網(wǎng),再更進一步的物聯(lián)網(wǎng)和智聯(lián)網(wǎng)時代,整個過程中人工智能一直被廣泛關(guān)注,雖然一度被認為距離應(yīng)用很遙遠。那么現(xiàn)在是什么讓人們廣泛認為人工智能是下一步的科技浪潮?其中重要的一點就是深度學習。
如果我們把人工智能系統(tǒng)看作是一個火箭的話,那么大數(shù)據(jù)就是燃料,深度學習算法就是火箭的引擎,我們還需要高性能技術(shù)(火箭的外殼)來點爆這個過程。
相比其他機器學習的算法或者工具,深度學習能夠更好地擬合海量數(shù)據(jù),利用端對端的學習方法,提升深度模型的預(yù)測精度。
自深度學習的復(fù)興以來,各項人工智能技術(shù)都有很大的突破。就像十幾年前廣泛認為人工智能很難在產(chǎn)業(yè)界形成很大的影響,很多技術(shù)、方法被認為是不能落地的,剛才前面的嘉賓談到問題,包括產(chǎn)業(yè)界人士和畢業(yè)生不好找工作,我也都碰到過。
我們看現(xiàn)在,不知不覺深度學習已經(jīng)深入到各種領(lǐng)域細節(jié),包括最早的語音識別、人臉、圖像、生命科學都有廣泛的應(yīng)用。
商湯的定位:以原創(chuàng)技術(shù)為根基
在這樣的背景下,商湯科技的定位是希望走一條與傳統(tǒng)產(chǎn)業(yè)化不同的道路,我們是來自于學術(shù)界的科學家,希望堅持我們原創(chuàng)性的技術(shù)。從人臉開始,我們是將深度學習成功運用于計算機視覺的團隊。在2014年,我們的人臉檢測算法超過了Facebook的人臉識別準確率。在ImageNet,兩指標達到世界第一。在這個算法背后我們建立自己的超算集群Deeplink,此外我們輻射到各種各樣的行業(yè)。
我們團隊的特點,就是擁有一批國際廣泛影響力的成果。在人工智能領(lǐng)域,我們拿到的最佳論文數(shù)量應(yīng)該是全世界之一。在2013年之前,計算機視覺領(lǐng)域內(nèi)總共有29篇論文涉及到深度學習,其中有14篇是屬于我們團隊,我們的數(shù)量僅次于谷歌微軟這樣大的公司。
簡單的介紹幾個核心任務(wù)。ImageNet的特點就是數(shù)據(jù)規(guī)模特別大,種類很多。從傳統(tǒng)圖像分類、定位、一般物品檢測、場景理解和層次結(jié)構(gòu)化的分割,基本上覆蓋了從底層視覺到高層視覺。從2010年以來,這個比賽一直是風向標。我們團隊從2014年開始參加這個挑戰(zhàn)賽,2014年是亞軍,今年我們在三項任務(wù)中獲得冠軍,并且與競爭對手有較大的差距。
我們最早提出了DeepID,當時在LFW數(shù)據(jù)集上,首次匯報超過人類肉眼的算法,這也成為了當年AAAI的最佳學術(shù)論文。
另外就是在更早以前,我們提出了在圖像視頻中的“快速去霧算法”,當時獲得了2009年的最佳論文獎。
下圖右邊是我們搭建出來的一千層的網(wǎng)絡(luò),我們提出高效、可拓展、靈活性的框架。從算法、硬件平臺到軟件框架的設(shè)計能力,我們是全覆蓋的。
此外我們還有前端,我們強調(diào)的是深度學習的學習能力。PPL是我們自己做的,所以在X86、ARM或者CUDA等不同的處理器架構(gòu)上,我們有比較明顯的優(yōu)勢。
現(xiàn)在我們有60多名的全職博士、100多名來自于北大清華的研發(fā)人員,還有來自于百度、微軟、聯(lián)想的大量工程團隊。
產(chǎn)業(yè)化:四個領(lǐng)域布局
我們有了這么多的原創(chuàng)算法,有這么多的頂級科研,怎么在產(chǎn)業(yè)化做進一步的驅(qū)動?目前商湯科技主要是在四個行業(yè)里做產(chǎn)業(yè)化布局,包括:安防-智慧城市、金融行業(yè)(主要是互聯(lián)網(wǎng)身份認證)、移動(娛樂互聯(lián)網(wǎng))和智慧商業(yè)。
我們看第一個,我們是最早做人臉比對系統(tǒng)的公司。基于視頻,這是SenseFace的場景,可能大家知道一個新聞,在北京西站的乘客不用查身份證,已經(jīng)可以通過刷臉進站了,這就是我們公司的產(chǎn)品。
這是今年新做的全局圖象視頻解析。因為我本人就是做這個出身的,在十年前做這個的時候,也獲得了獎項。這種圖象視頻解析到產(chǎn)業(yè)界還有很長的距離,我們來看能不能在監(jiān)控環(huán)境下實現(xiàn)精細化的人車屬性、層次結(jié)構(gòu)、運動信息的分析并且進行結(jié)構(gòu)化存儲,使得大量的視頻數(shù)據(jù)和圖象數(shù)據(jù)能夠有效檢索查詢。這在交通行業(yè)和安防行業(yè)都將有廣泛深刻的影響,我相信這個應(yīng)該會促進下一個變革。
這是另外一個場景,基于多目標智能跟蹤一體機。它能夠通過預(yù)測對可疑目標進行抓拍,包括對車牌的快速抓拍識別。
這是我們在移動互聯(lián)網(wǎng)另外一個場景,叫借貸寶,互聯(lián)網(wǎng)金融一個難點就是如何實現(xiàn)實名認證,通過我們的算法能夠?qū)崿F(xiàn)檢測,可以看出這是真人還是照片。
另外中國移動也已經(jīng)實現(xiàn)了三億的手機卡實名認證,這是我們線上的產(chǎn)品,通過人的運動來區(qū)分身份證進行比對。
這是移動互聯(lián)網(wǎng)產(chǎn)品,有些比較潮的朋友可能都試過這樣的產(chǎn)品,包括娛樂化、人臉的關(guān)鍵化定位、增強虛擬現(xiàn)實等。
我們還是最早將深度學習應(yīng)用于城市學的公司,包括去模糊、去抖動等等。
這是我們將圖象視頻從安防領(lǐng)域推廣到商業(yè)領(lǐng)域,我們叫智慧商業(yè),包括對人群屬性分析、人群區(qū)域?qū)傩苑治龅龋瑏硗诰蚋嗟纳虡I(yè)價值,這都是基于視頻的大數(shù)據(jù)分析。
我們的目標是AI+,我們希望通過2C端的技術(shù)來改變行業(yè)和相關(guān)的垂直領(lǐng)域,謝謝。