數(shù)據(jù)可以說是人工智能的燃料。但隨著AI落地各個(gè)應(yīng)用場景,數(shù)據(jù)隱私泄露問題日益嚴(yán)重。數(shù)據(jù)的交流使用和數(shù)據(jù)的隱私保護(hù)似乎成為了不可調(diào)和的矛盾。
如何在不泄露各自數(shù)據(jù)隱私的情況下實(shí)現(xiàn)數(shù)據(jù)的共享和模型的共建,同時(shí)連通數(shù)據(jù)割裂的孤島是當(dāng)前所面臨的問題。目前各機(jī)構(gòu)正試圖利用聯(lián)邦學(xué)習(xí)打通人工智能應(yīng)用的最后一公里,促進(jìn)人工智能落地。
數(shù)據(jù)孤島阻礙機(jī)器學(xué)習(xí)訓(xùn)練
“互聯(lián)網(wǎng)時(shí)代產(chǎn)生的海量數(shù)據(jù),其背后的價(jià)值如何能挖掘出來,又會(huì)對(duì)我們產(chǎn)生什么樣的影響?”近日,在由中國計(jì)算機(jī)學(xué)會(huì)發(fā)起的第四次聯(lián)邦學(xué)習(xí) 主題研討會(huì)上,微眾銀行人工智能首席科學(xué)家范力欣說,如何發(fā)掘和利用這些信息是現(xiàn)在一個(gè)非常熱門的研究方向,但要安全合規(guī)地發(fā)揮這些海量數(shù)據(jù)背后的價(jià)值,就涉及到隱私保護(hù)問題。
隨著人工智能的發(fā)展,其可能帶來的隱私泄露風(fēng)險(xiǎn)也日益凸顯。除了備受關(guān)注的臉書(Facebook)等巨頭公司的用戶隱私泄露事件外,目前用于算法訓(xùn)練的數(shù)據(jù)的來源也讓人擔(dān)憂。有媒體日前報(bào)道,在網(wǎng)絡(luò)商城中有商家公開售賣“人臉數(shù)據(jù)”,數(shù)量達(dá)17萬條。目前網(wǎng)絡(luò)商城運(yùn)營方已認(rèn)定涉事商家違規(guī),涉事商品已被下架處理。
為了應(yīng)對(duì)隱私泄露風(fēng)險(xiǎn),各國都采取了相應(yīng)措施。如2018年歐盟出臺(tái)了首個(gè)關(guān)于數(shù)據(jù)隱私保護(hù)的法案《通用數(shù)據(jù)保護(hù)條例》;2019年5月美國舊金山禁用人臉識(shí)別,禁止政府機(jī)構(gòu)購買和使用人臉識(shí)別技術(shù),以此來消除技術(shù)帶來的隱患;從2009年開始到2019年十年間,我國也出臺(tái)了非常嚴(yán)格的隱私保護(hù)法案。
但同時(shí),數(shù)據(jù)隱私的保護(hù)也對(duì)依賴數(shù)據(jù)的機(jī)器學(xué)習(xí)形成了巨大挑戰(zhàn)。如《通用數(shù)據(jù)保護(hù)條例》要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用,這份條例的實(shí)行讓許多大數(shù)據(jù)公司在數(shù)據(jù)交流方面非常謹(jǐn)慎。
“人工智能需要通過大量的數(shù)據(jù)學(xué)習(xí)才能把數(shù)據(jù)后面的知識(shí)挖掘、整理出來,把價(jià)值發(fā)揮出來。但現(xiàn)實(shí)的情況是一方面很多數(shù)據(jù)質(zhì)量不好,缺乏標(biāo)簽;另一方面,數(shù)據(jù)完全分散在各個(gè)數(shù)據(jù)主體、企業(yè)的個(gè)案里面,是一個(gè)個(gè)數(shù)據(jù)孤島,無法把它們連接起來?!狈读π勒f,如何在保護(hù)數(shù)據(jù)隱私同時(shí)打破數(shù)據(jù)孤島是我們現(xiàn)在面臨的問題。
聯(lián)邦學(xué)習(xí)或?qū)⑻峁┙鉀Q辦法
在人工智能領(lǐng)域,傳統(tǒng)的數(shù)據(jù)處理模式往往是一方收集數(shù)據(jù),再轉(zhuǎn)移到另一方進(jìn)行處理、清洗并建模,最后把模型賣給第三方。但隨著法規(guī)的完善和監(jiān)控愈加嚴(yán)格,如果數(shù)據(jù)離開收集方或者用戶不清楚模型的具體用途,運(yùn)營者都可能會(huì)觸犯法律。同時(shí),數(shù)據(jù)是以孤島的形式存在的,解決孤島的直接方案就是把數(shù)據(jù)整合到一方進(jìn)行處理。但目前粗暴地將數(shù)據(jù)聚合是法律法規(guī)所禁止的。
范力欣表示,聯(lián)邦學(xué)習(xí)正是針對(duì)數(shù)據(jù)孤島和隱私保護(hù)而產(chǎn)生的一種解決方式。值得一提的是,2019年4月,李開復(fù)也曾在演講中提到聯(lián)邦學(xué)習(xí)。他表示,為了防止最嚴(yán)重的數(shù)據(jù)濫用,需要制定相應(yīng)的法規(guī)。與此同時(shí)也可以嘗試“以子之矛攻己之盾”——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn),例如同態(tài)加密、聯(lián)邦學(xué)習(xí)等技術(shù)。
作為一種分布式機(jī)器學(xué)習(xí)技術(shù),聯(lián)邦學(xué)習(xí)可以實(shí)現(xiàn)各個(gè)企業(yè)的自有數(shù)據(jù)不出本地,而是通過加密機(jī)制下的參數(shù)交換方式共建模型,即在不違反數(shù)據(jù)隱私法規(guī)的情況下,建立一個(gè)虛擬的共有模型。由于數(shù)據(jù)本身不移動(dòng),因此也不會(huì)涉及隱私泄露和數(shù)據(jù)合規(guī)問題。這樣,建好的模型將在各自的區(qū)域僅為本地的目標(biāo)服務(wù)。在這樣一個(gè)聯(lián)邦機(jī)制下,參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)下共建模型,各個(gè)參與者的身份和地位相同,這就是為什么這個(gè)體系叫做聯(lián)邦學(xué)習(xí)。
微眾銀行人工智能部高級(jí)研究員范濤介紹,如SecureBoost聯(lián)邦模型,核心是大家共同構(gòu)建了一棵“樹”,每一方都可以看見這棵“樹”,但是每一方看見的東西是不一樣的。通過構(gòu)建這樣一棵“樹”能夠?qū)崿F(xiàn)算法的性能提升。
“聯(lián)邦學(xué)習(xí)所使用的數(shù)據(jù)是不能移動(dòng)的,但數(shù)據(jù)背后的知識(shí)、數(shù)據(jù)背后的價(jià)值是可以移動(dòng)、轉(zhuǎn)移、共建的。所有貢獻(xiàn)數(shù)據(jù)的參與者都有同等的權(quán)利、獲得同等的回饋,這是共同獲益的機(jī)制?!狈稘f。
如此,大家就有了動(dòng)力共建聯(lián)邦學(xué)習(xí)的生態(tài)。
“聯(lián)邦學(xué)習(xí) 大體可以分為橫向聯(lián)邦和縱向聯(lián)邦。橫向聯(lián)邦特征維度都一樣,通過擴(kuò)充樣本的方式提升模型質(zhì)量;縱向聯(lián)邦樣本相通,通過擴(kuò)充特征的方式來實(shí)現(xiàn)數(shù)據(jù)的信息互通,提升模型質(zhì)量?!狈稘f,比如目前的傳統(tǒng)反洗錢模型存在樣本少、數(shù)據(jù)質(zhì)量低的問題,使用橫向聯(lián)邦的技術(shù)可以解決這樣的問題,在橫向聯(lián)邦里面,不需要進(jìn)行樣本對(duì)齊。
聯(lián)邦學(xué)習(xí)正在邁向積累經(jīng)驗(yàn)的落地階段
事實(shí)上,聯(lián)邦學(xué)習(xí)早在2015年就被提出了,當(dāng)時(shí)只是作為一個(gè)算法工具。隨后,隨著聯(lián)邦學(xué)習(xí)切實(shí)地解決了上述問題,開始受到關(guān)注?!艾F(xiàn)在聯(lián)邦學(xué)習(xí)已經(jīng)進(jìn)入一個(gè)新的時(shí)期,就是落地時(shí)期?!蔽⒈娿y行首席人工智能官楊強(qiáng)表示,在經(jīng)歷以隱私保護(hù)為重點(diǎn)的第一階段之后,目前的聯(lián)邦學(xué)習(xí)正在邁向積累經(jīng)驗(yàn)的落地階段。
“在聯(lián)邦學(xué)習(xí)這個(gè)生態(tài)之中,我們可以看到各種各樣的落地場景,比如智慧城市、智慧終端、智慧醫(yī)療等。”范力欣說,比如在醫(yī)療領(lǐng)域,健康監(jiān)護(hù)需要在普適環(huán)境下實(shí)現(xiàn)開放域用戶行為的智能感知和理解,而面向疾病診斷的智能算法研究存在著限制移動(dòng)、時(shí)空受限等缺陷。
針對(duì)以上難題,中科院計(jì)算所泛在計(jì)算系統(tǒng)研究中心主任研究員陳益強(qiáng)及其團(tuán)隊(duì)利用聯(lián)邦學(xué)習(xí)技術(shù),將范式驅(qū)動(dòng)的限定場景下面向疾病的診斷模型向普適場景下的健康狀態(tài)監(jiān)測(cè)進(jìn)行聯(lián)邦遷移。
“此外云服務(wù)也是聯(lián)邦學(xué)習(xí)一個(gè)比較理想的落地途徑,聯(lián)邦學(xué)習(xí)其自身具備的特點(diǎn),適合在云上和多個(gè)用戶進(jìn)行部署和使用,例如可以把在公有云里面聯(lián)邦學(xué)習(xí)的機(jī)構(gòu)組織加進(jìn)來,形成一個(gè)異構(gòu)系統(tǒng)或者生態(tài)系統(tǒng),為不同的組織之間的數(shù)據(jù)對(duì)接提供平臺(tái)?!盫Mware中國研發(fā)中心技術(shù)總監(jiān)張海寧說。
與此同時(shí),聯(lián)邦學(xué)習(xí)也正面臨著諸多挑戰(zhàn)和機(jī)會(huì)。“工業(yè)實(shí)踐者在具體部署聯(lián)邦學(xué)習(xí)技術(shù)以滿足業(yè)務(wù)合規(guī)化的同時(shí),還需要為現(xiàn)有的聯(lián)邦學(xué)習(xí)配置‘保護(hù)鎖’與‘疫苗’,以更好地保護(hù)自身的商業(yè)機(jī)密?!眲?chuàng)新工場南京國際人工智能研究院執(zhí)行院長馮霽介紹,聯(lián)邦學(xué)習(xí)框架內(nèi)不同模塊可能會(huì)遇到的潛在攻擊方式,如數(shù)據(jù)下毒、信道監(jiān)聽以及對(duì)抗樣本等都是聯(lián)邦學(xué)習(xí)需要面臨的挑戰(zhàn)。
范力欣表示,建立數(shù)據(jù)價(jià)值聯(lián)盟將是聯(lián)邦學(xué)習(xí)的最終愿景?!伴L期來看,聯(lián)邦學(xué)習(xí)的期望是把數(shù)據(jù)背后的知識(shí)和價(jià)值拿出來,參與各方共建一個(gè)數(shù)據(jù)價(jià)值聯(lián)盟,這個(gè)聯(lián)盟里有的成員作出了貢獻(xiàn), 讓其他成員享受到其所提供的服務(wù),當(dāng)然其他成員也需要付出他們認(rèn)為該付出的,來進(jìn)行對(duì)等交換?!睋?jù)了解,聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)草案預(yù)計(jì)將于2020年2月推出。