日前,京東數(shù)字科技集團(tuán)AI實(shí)驗(yàn)室首席科學(xué)家薄列峰首次對(duì)外披露了京東數(shù)科聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,向業(yè)界介紹了京東數(shù)科獨(dú)創(chuàng)的快速安全的聯(lián)邦學(xué)習(xí)框架。薄列峰還分享了京東數(shù)科兩項(xiàng)業(yè)界首創(chuàng)的技術(shù)突破——“基于核的非線性聯(lián)邦學(xué)習(xí)算法”和“分布式的快速同態(tài)加密技術(shù)”,這兩項(xiàng)技術(shù)創(chuàng)新成果都形成了論文,并已經(jīng)被頂級(jí)學(xué)術(shù)會(huì)議KDD 2020接受。
在香港人工智能與機(jī)器人學(xué)會(huì)主辦的AI金融公開課上,薄列峰指出,隨著大數(shù)據(jù)的發(fā)展,重視數(shù)據(jù)隱私和安全已經(jīng)成為一種世界性的趨勢(shì),歐盟頒布了《通用數(shù)據(jù)保護(hù)條例》(GDPR)、中國發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見稿)》并公開征求意見。越來越嚴(yán)格的法規(guī)給人工智能的落地應(yīng)用帶來了挑戰(zhàn)。在這樣的背景下,聯(lián)邦學(xué)習(xí)作為新一代人工智能技術(shù)應(yīng)運(yùn)而生,從源頭出發(fā)解決數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)安全問題。
聯(lián)邦學(xué)習(xí)是在滿足數(shù)據(jù)隱私、安全和監(jiān)管要求的前提下,讓人工智能系統(tǒng)能夠更加高效、準(zhǔn)確的共同使用各自數(shù)據(jù)的機(jī)器學(xué)習(xí)框架。多個(gè)企業(yè)在不用給出己方數(shù)據(jù)的情況下也可以聯(lián)合進(jìn)行模型訓(xùn)練并得到模型結(jié)果。
據(jù)薄列峰介紹,京東數(shù)科在聯(lián)邦學(xué)習(xí)領(lǐng)域已經(jīng)成功實(shí)現(xiàn)了落地應(yīng)用。京東數(shù)科將其用于人臉識(shí)別,在配合式場(chǎng)景下(如自拍照對(duì)比自拍照),當(dāng)誤檢率為十萬分之一的情況下,通過率高達(dá)99.96%,當(dāng)誤檢率為萬分之一的情況下,通過率則高達(dá)99.99%。聯(lián)邦學(xué)習(xí)使用多方聯(lián)合數(shù)據(jù),使得模型結(jié)果超出預(yù)期。
目前,聯(lián)邦學(xué)習(xí)在產(chǎn)業(yè)應(yīng)用方面面臨著一系列挑戰(zhàn)——由于需要傳遞梯度信息,容易導(dǎo)致基于梯度信息的構(gòu)造攻擊;需要對(duì)梯度加密,雖然增加了安全性,但是也極大損失了算法的效率;傳統(tǒng)聯(lián)邦學(xué)習(xí)基于同步更新,浪費(fèi)了大量的計(jì)算資源。如何設(shè)計(jì)既能保證安全性又具有高效率的聯(lián)邦學(xué)習(xí)算法以滿足產(chǎn)業(yè)AI應(yīng)用需求,是業(yè)界面臨的突出難題。為解決這一問題,京東數(shù)科推出了快速安全的聯(lián)邦學(xué)習(xí)框架。
薄列峰介紹說:“快速安全的聯(lián)邦學(xué)習(xí)框架具有三大特點(diǎn)。第一,在數(shù)據(jù)和模型隱私方面,不同參與方之間沒有直接交換本地?cái)?shù)據(jù)和模型參數(shù),而是交換更新參數(shù)所需的中間數(shù)值。同時(shí),為了避免從這些中間數(shù)值中恢復(fù)數(shù)據(jù)信息,我們也采用增加擾動(dòng)對(duì)這些數(shù)值進(jìn)行保護(hù),確保了數(shù)據(jù)和模型的隱私安全。其次,在通訊方面,我們引入中心化數(shù)據(jù)交換的概念,使得數(shù)據(jù)的交換獨(dú)立于參與方。最后,我們采用了異步計(jì)算框架,極大地提高了模型訓(xùn)練的速度?!?/p>
在京東數(shù)科開發(fā)快速安全的聯(lián)邦學(xué)習(xí)框架過程中,實(shí)現(xiàn)了多項(xiàng)業(yè)界首創(chuàng)技術(shù),譬如近期實(shí)現(xiàn)的“基于核的非線性聯(lián)邦學(xué)習(xí)算法”和“分布式的快速同態(tài)加密技術(shù)”。
利用雙隨機(jī)梯度下降法,京東數(shù)科在業(yè)界首次實(shí)現(xiàn)了快速安全的“基于核的非線性聯(lián)邦學(xué)習(xí)算法”。在安全性上,這一方法不傳輸原始樣本及梯度信息,充分保護(hù)數(shù)據(jù)隱私;在快速性方面,這一方法使用首創(chuàng)的雙隨機(jī)梯度下降,大大提高計(jì)算速度,充分利用計(jì)算資源,通過增加擾動(dòng)提高數(shù)據(jù)的安全保護(hù)。這一技術(shù)創(chuàng)新已經(jīng)形成了論文《解決多方垂直聯(lián)邦學(xué)習(xí)的安全核學(xué)習(xí)算法》(Federated Doubly Stochastic Kernel Learning for VerticallyPartitioned Data),并被頂級(jí)學(xué)術(shù)會(huì)議KDD 2020接受?!胺植际降目焖偻瑧B(tài)加密技術(shù)”則使得京東數(shù)科在業(yè)內(nèi)首次實(shí)現(xiàn)了大規(guī)模、高速、安全的同態(tài)加密技術(shù),這項(xiàng)創(chuàng)新成果同樣形成論文——《用分布式計(jì)算極大加速同態(tài)加密的算法》(Faster Secure DataMining via Distributed Homomorphic Encryption),并被KDD2020接受。
人工智能已經(jīng)被明確列為新基建的重要領(lǐng)域,對(duì)產(chǎn)業(yè)數(shù)字化升級(jí)具有重大促進(jìn)作用。薄列峰表示,今年初京東數(shù)科就成立了產(chǎn)業(yè)AI中心。該中心集成了京東數(shù)科旗下AI實(shí)驗(yàn)室、數(shù)據(jù)智能實(shí)驗(yàn)室、智能風(fēng)控實(shí)驗(yàn)室等多個(gè)研發(fā)機(jī)構(gòu)的AI研發(fā)力量,致力于將以聯(lián)邦學(xué)習(xí)為代表的前沿AI技術(shù)投入產(chǎn)業(yè)級(jí)應(yīng)用,推動(dòng)產(chǎn)業(yè)數(shù)字化進(jìn)程。除了將自身的AI能力實(shí)現(xiàn)產(chǎn)業(yè)級(jí)應(yīng)用之外,將AI能力“基礎(chǔ)設(shè)施化”也是產(chǎn)業(yè)AI中心成立的初衷。聯(lián)邦學(xué)習(xí)是未來機(jī)器學(xué)習(xí)乃至整個(gè)人工智能的重要基石,京東數(shù)科將持續(xù)加大對(duì)聯(lián)邦學(xué)習(xí)的投入。