一、深度學(xué)習(xí)和知識(shí)圖譜的缺陷
人工智能經(jīng)歷了幾番沉浮,迎來(lái)了第三次發(fā)展浪潮,當(dāng)前取得的進(jìn)展突出體現(xiàn)在:以知識(shí)圖譜為代表的知識(shí)工程和以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的發(fā)展。
1、深度學(xué)習(xí)
深度學(xué)習(xí)作為一種結(jié)合了統(tǒng)計(jì)機(jī)器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的新學(xué)習(xí)方法,其與傳統(tǒng)模式識(shí)別方法的最大不同在于,它能夠利用深度神經(jīng)網(wǎng)絡(luò)從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)有效的層次化特征表示。得益于大規(guī)模標(biāo)注數(shù)據(jù),目前深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得了優(yōu)異效果,然而在某些方面仍存在著局限性,主要表現(xiàn)在:
01 對(duì)數(shù)據(jù)的強(qiáng)依賴:—深度學(xué)習(xí)需要大量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練才能達(dá)到較好的泛化能力,數(shù)據(jù)量的大小直接影響深度學(xué)習(xí)模型的推理效果。但在很多實(shí)際應(yīng)用場(chǎng)景中,我們難以找到充足的高質(zhì)量訓(xùn)練數(shù)據(jù)。另一方面,用于訓(xùn)練深度學(xué)習(xí)模型的數(shù)據(jù)需要耗費(fèi)大量的人力進(jìn)行收集和標(biāo)注,且手動(dòng)標(biāo)注的信息具有一定的局限性。
02 缺乏對(duì)常識(shí)的學(xué)習(xí):—人工智能的知識(shí)表示包括專業(yè)知識(shí)與常識(shí)知識(shí)。常識(shí)是指人類在生活中總結(jié)出來(lái)的科學(xué)知識(shí),當(dāng)人類遇到新情況時(shí),能夠通過(guò)既有的常識(shí)來(lái)推測(cè)和判斷。而神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的本質(zhì)是對(duì)相關(guān)性的挖掘和記憶,缺乏推理能力和抽象能力。這一缺陷使其在面對(duì)新情況時(shí)無(wú)法像人類一樣擁有“舉一反三”的能力。
03 缺乏可解釋性:—深度學(xué)習(xí)模型是一種端到端的學(xué)習(xí),輸入的是原始數(shù)據(jù)(始端),輸出的直接是最終目標(biāo)(末端),中間的學(xué)習(xí)和預(yù)測(cè)過(guò)程不可知。類似一個(gè)黑箱(Black Box)系統(tǒng),其推理效果很好,卻不知道為何好,這也大大制約了深度學(xué)習(xí)的應(yīng)用推廣。比如在投資領(lǐng)域,不可解釋的投資相當(dāng)于投機(jī)。
2、知識(shí)圖譜
知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),表達(dá)了各類實(shí)體、概念及其之間的語(yǔ)義關(guān)系。相對(duì)于傳統(tǒng)知識(shí)表示形式,知識(shí)圖譜具有實(shí)體/概念覆蓋率高、語(yǔ)義關(guān)系多樣、結(jié)構(gòu)友好以及質(zhì)量較高等優(yōu)勢(shì),日益成為人工智能時(shí)代最為主要的知識(shí)表示方式。然而,目前的知識(shí)圖譜應(yīng)用還處在初期的階段,其落地難點(diǎn)主要有以下幾方面:
01 高質(zhì)量圖譜構(gòu)建難題:—知識(shí)圖譜的構(gòu)建是整個(gè)應(yīng)用鏈條的第一步,圖譜構(gòu)建的質(zhì)量直接決定了上層應(yīng)用的效果。由于各種原因,數(shù)據(jù)大部分以非結(jié)構(gòu)化形式存儲(chǔ),而面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取在準(zhǔn)確度、完整度等方面面臨技術(shù)挑戰(zhàn)。
02 依賴專家經(jīng)驗(yàn):—知識(shí)圖譜本質(zhì)是一種知識(shí)的組織形式,本身不具備學(xué)習(xí)能力,圖譜的構(gòu)建涉及到了大量的人工設(shè)計(jì)和人力勞動(dòng),特別是行業(yè)知識(shí)圖譜尤其依賴領(lǐng)域從業(yè)人員對(duì)業(yè)務(wù)邏輯的精準(zhǔn)梳理。因此,知識(shí)的爆炸式增長(zhǎng)對(duì)知識(shí)圖譜構(gòu)建的可移植性、可擴(kuò)展性均提出更高要求。
03 覆蓋率制約應(yīng)用表現(xiàn):—知識(shí)圖譜構(gòu)建的目的不僅在于數(shù)據(jù)的可視化,還需要賦予業(yè)務(wù)信息在實(shí)際應(yīng)用場(chǎng)景中的可計(jì)算能力,但當(dāng)前知識(shí)圖譜普遍存在覆蓋率低、數(shù)據(jù)稀疏和更新緩慢等問(wèn)題,限制了知識(shí)圖譜分析挖掘優(yōu)勢(shì)的發(fā)揮和落地效果。 綜合來(lái)看,深度學(xué)習(xí)與知識(shí)圖譜在技術(shù)本身與應(yīng)用落地方面均存在一定缺陷,許多結(jié)合二者優(yōu)勢(shì)的新方法隨之而生。
二、認(rèn)知中臺(tái)在策略推演領(lǐng)域的應(yīng)用
中臺(tái)的核心價(jià)值在于對(duì)資源整合運(yùn)用效率的最大化。構(gòu)建中臺(tái)來(lái)支撐業(yè)務(wù)銜接,不僅能夠幫助實(shí)現(xiàn)AI技術(shù)的可落地方案,更能夠?qū)崿F(xiàn)能力的復(fù)用,取得規(guī)?;?yīng)。
在策略推演領(lǐng)域,以分布式圖存儲(chǔ)為基礎(chǔ),集成圖計(jì)算與可視化分析引擎的認(rèn)知中臺(tái),能夠幫助挖掘、發(fā)現(xiàn)、推演出相關(guān)隱藏知識(shí)或跨領(lǐng)域新知識(shí),促進(jìn)決策推薦的準(zhǔn)確性和及時(shí)性,提升對(duì)策略推演過(guò)程及結(jié)果的可解釋性。在金融營(yíng)銷與風(fēng)控、金融量化投資、軍事兵棋推演等領(lǐng)域有廣闊的應(yīng)用前景。
1、金融營(yíng)銷與風(fēng)控
眾所周知,金融行業(yè)兩大核心業(yè)務(wù)是:營(yíng)銷和風(fēng)控,兩者的核心都是基于數(shù)據(jù)對(duì)客戶行為進(jìn)行分析和對(duì)未來(lái)場(chǎng)景變化進(jìn)行預(yù)判。傳統(tǒng)的數(shù)據(jù)分析技術(shù)建立在關(guān)系型數(shù)據(jù)庫(kù)基礎(chǔ)上,難以發(fā)現(xiàn)數(shù)據(jù)間的多層級(jí)的“隱性關(guān)系”。 利用知識(shí)圖譜可以將金融領(lǐng)域內(nèi)所有實(shí)體(包括:公司、人物、地名、產(chǎn)品、資訊、研報(bào)、事件等)和關(guān)系(股權(quán)關(guān)系、競(jìng)爭(zhēng)關(guān)系、對(duì)外投資等)用圖的形式進(jìn)行表達(dá),形成一個(gè)“金融多關(guān)系圖”,從而幫助金融從業(yè)人員從事件、空間等多維度更好的分析客戶交易行為,有助于建立客戶畫像,進(jìn)行精準(zhǔn)營(yíng)銷。 其次,圖數(shù)據(jù)庫(kù)、圖挖掘、圖計(jì)算模型等技術(shù)特別適用于復(fù)雜關(guān)系網(wǎng)絡(luò)下的賬戶關(guān)聯(lián)關(guān)系挖掘及資金交易流轉(zhuǎn)追蹤,能夠幫助發(fā)現(xiàn)傳統(tǒng)風(fēng)控場(chǎng)景下無(wú)法發(fā)現(xiàn)的包括信用卡套現(xiàn)、團(tuán)伙騙貸、跨境洗錢等復(fù)雜多變的欺詐風(fēng)險(xiǎn)行為。
2、金融量化投資
近年來(lái),以追求絕對(duì)收益為目標(biāo)的量化對(duì)沖投資策略以其風(fēng)險(xiǎn)低、收益穩(wěn)定的特性,成為機(jī)構(gòu)投資者的主要投資策略之一。簡(jiǎn)單來(lái)說(shuō),量化投資就是用機(jī)器構(gòu)建一個(gè)框架,在這個(gè)框架下做交易。運(yùn)用機(jī)器學(xué)習(xí)技術(shù)可以有效地找到數(shù)據(jù)之間的關(guān)系,并使用它來(lái)預(yù)測(cè)或分類新數(shù)據(jù),成為量化投資框架構(gòu)建的新的有效策略。 其次,利用知識(shí)圖譜對(duì)影響投資的事件進(jìn)行實(shí)體和關(guān)系抽取,比如公司與公司相關(guān)的股票信息等實(shí)體,比如可能影響股票交易價(jià)格行為(管理層變動(dòng)、新品發(fā)布等)的事件,構(gòu)建金融量化投資知識(shí)圖譜,再通過(guò)大量表示學(xué)習(xí)方法,將知識(shí)圖譜中的實(shí)體和關(guān)系轉(zhuǎn)化為高維連續(xù)向量,輸入到深度學(xué)習(xí)模型中,使其學(xué)習(xí)每個(gè)事件在發(fā)生后給市場(chǎng)帶來(lái)的影響,能夠進(jìn)一步提升金融量化投資策略的實(shí)戰(zhàn)效果。
3、軍事兵棋推演
隨著信息化技術(shù)在現(xiàn)代戰(zhàn)爭(zhēng)中的應(yīng)用,一體化聯(lián)合作戰(zhàn)已經(jīng)成為現(xiàn)代戰(zhàn)爭(zhēng)的主要作戰(zhàn)樣式,戰(zhàn)場(chǎng)要素不斷增多,戰(zhàn)場(chǎng)范圍呈現(xiàn)出全球化的趨勢(shì)。這一背景下的兵棋推演系統(tǒng)面臨著推演要素不斷增多、推演范圍不斷擴(kuò)大的挑戰(zhàn)。 兵棋推演的核心是在人機(jī)協(xié)同環(huán)境中的不完全信息下的動(dòng)態(tài)博弈和實(shí)時(shí)對(duì)抗,鑒于兵棋推演中規(guī)則和計(jì)算等方面的復(fù)雜性,運(yùn)用人工智能系統(tǒng),能夠更加快速準(zhǔn)確的進(jìn)行態(tài)勢(shì)分析和戰(zhàn)略決策,并最大程度的減少錯(cuò)誤的發(fā)生。 在推演時(shí),兵棋推演系統(tǒng)自動(dòng)搜集戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù),記錄每個(gè)作戰(zhàn)單位的屬性,作戰(zhàn)半徑、攻擊力、前進(jìn)速度、掩護(hù)的使用情況、從屬關(guān)系等,并通過(guò)收集到的戰(zhàn)場(chǎng)態(tài)勢(shì)信息,在模擬對(duì)抗中學(xué)習(xí)戰(zhàn)術(shù)規(guī)則、獲取作戰(zhàn)經(jīng)驗(yàn)并優(yōu)化策略,進(jìn)而進(jìn)行戰(zhàn)前態(tài)勢(shì)分析、科學(xué)化制定作戰(zhàn)方案以及提升作戰(zhàn)過(guò)程中的實(shí)時(shí)決策能力和突發(fā)情況應(yīng)急能力。
三、什么是兵棋推演
如果你清楚你的問(wèn)題,你不需要兵棋推演;當(dāng)你不知道如何應(yīng)對(duì)不確定復(fù)雜局勢(shì)時(shí),你可能需要兵棋推演。
——《海灣打擊》兵棋設(shè)計(jì)者,馬克.赫爾曼
兵馬未動(dòng),兵棋先行。利用戰(zhàn)爭(zhēng)模擬系統(tǒng)來(lái)推演戰(zhàn)爭(zhēng),就是兵棋推演。從軍事游戲到沙盤模擬,再到錯(cuò)綜復(fù)雜的計(jì)算機(jī)程序,兵棋推演在模擬真實(shí)戰(zhàn)爭(zhēng)、輔助指揮決策方面的作用日益突出,已經(jīng)發(fā)展成為現(xiàn)代戰(zhàn)爭(zhēng)的關(guān)鍵環(huán)節(jié)。
據(jù)悉,美軍在伊拉克戰(zhàn)爭(zhēng)中的作戰(zhàn)經(jīng)過(guò)與戰(zhàn)前的兵棋推演結(jié)果高度相似;擊斃本·拉登的過(guò)程也已在五角大樓的兵棋推演系統(tǒng)上演習(xí)過(guò)無(wú)數(shù)遍;以日本為藍(lán)軍進(jìn)行了數(shù)百次兵棋推演,也為美軍扭轉(zhuǎn)珍珠港事件后的不利局面奠定了基礎(chǔ)。
隨著現(xiàn)代戰(zhàn)爭(zhēng)的規(guī)模逐漸擴(kuò)大,陸、海、空、天、電磁等不同戰(zhàn)場(chǎng)相互混合交織,各軍兵種協(xié)同配合日益復(fù)雜,兵棋推演的重要性也越來(lái)越受到重視。美國(guó)陸軍指揮總參學(xué)院、Lemay中心、美國(guó)國(guó)防大學(xué)、美國(guó)研究生院、美國(guó)海軍軍事學(xué)院的章程中都或多或少明確了兵棋推演的這一用途。
另一方面,計(jì)算機(jī)技術(shù)的興起,將傳統(tǒng)沙盤上的兵棋推演進(jìn)一步轉(zhuǎn)化為嚴(yán)謹(jǐn)?shù)亩M(jìn)制計(jì)算并在屏幕上直觀呈現(xiàn)。結(jié)合科學(xué)技術(shù)的大型兵棋推演系統(tǒng)將在信息化戰(zhàn)爭(zhēng)模擬對(duì)抗中發(fā)揮著更加重要的作用。
四、 AlphaWar :一個(gè)同時(shí)具備常識(shí)、指揮藝術(shù)和實(shí)時(shí)智能的兵棋推演/作戰(zhàn)指揮平臺(tái))
作戰(zhàn)指揮是一個(gè)集裝備體系、作戰(zhàn)環(huán)境、指揮藝術(shù)和智能研判等多學(xué)科多任務(wù)的綜合策略型活動(dòng),兵棋推演則是對(duì)戰(zhàn)爭(zhēng)全過(guò)程進(jìn)行仿真、模擬與推演,是一次微型版的作戰(zhàn)指揮過(guò)程。
許多大型即時(shí)策略游戲也具備類似的特性。以暴雪的《星際爭(zhēng)霸II》為例,其復(fù)雜度介于兵棋推演、實(shí)際戰(zhàn)場(chǎng)作戰(zhàn)指揮中間,具體比較如下:
雖然復(fù)雜度有所差異,但兵棋推演、實(shí)際戰(zhàn)場(chǎng)、星際爭(zhēng)霸II三者的核心本質(zhì)都是即時(shí)策略推演類型,都是先驗(yàn)知識(shí)和即時(shí)智能的綜合應(yīng)用。 淵亭科技多年來(lái)一直致力于知識(shí)圖譜和自學(xué)習(xí)體系平臺(tái)的研究和應(yīng)用,特別是近幾年在國(guó)防、金融、安全等領(lǐng)域的多個(gè)大型實(shí)戰(zhàn)項(xiàng)目中抽象出多個(gè)通用認(rèn)知智能引擎和組件。
戰(zhàn)略推演平臺(tái)是淵亭科技關(guān)于常識(shí)、行業(yè)先驗(yàn)圖譜、態(tài)勢(shì)感知、即時(shí)研判等綜合智能應(yīng)用自動(dòng)化的探索思考,應(yīng)用場(chǎng)景包括國(guó)防作戰(zhàn)指揮、反恐怖、經(jīng)濟(jì)犯罪偵查、投資交易等。
我們以復(fù)雜度中等的《星際爭(zhēng)霸II》作為研究目標(biāo),利用知識(shí)圖譜和強(qiáng)化學(xué)習(xí)等技術(shù),設(shè)計(jì)一個(gè)可以設(shè)計(jì)擊敗對(duì)手策略AI的自動(dòng)化平臺(tái)——AlphaWar。
今天,我們一起來(lái)揭開這個(gè)淵亭科技神秘在研產(chǎn)品的面紗。
AlphaWar以行業(yè)先驗(yàn)圖譜為基礎(chǔ)、策略編輯器作為主體、多智能體策略網(wǎng)絡(luò)為核心思想,包含以下核心組件:
1、決策控制:—包含一些跨領(lǐng)域通用的決策控制組件,例如最優(yōu)路徑搜索、目標(biāo)識(shí)別等。
2、戰(zhàn)術(shù)體系:—可以是人類經(jīng)驗(yàn)驗(yàn)證過(guò)的戰(zhàn)術(shù)(類似指揮藝術(shù)),也可以是AI訓(xùn)練得到的模式(例如世界頂尖星際玩家的對(duì)戰(zhàn)訓(xùn)練結(jié)果)。戰(zhàn)術(shù)體系是一個(gè)完整的操作序列,涉及游戲中所有的單位及其行為,戰(zhàn)術(shù)體系對(duì)外只暴露戰(zhàn)術(shù)核心參數(shù)。
3、智能體:在本系統(tǒng)中,智能體的定義是:某個(gè)單位(可以是作戰(zhàn)單位、建筑等)在某個(gè)場(chǎng)景(也可以是所有場(chǎng)景)下面向特定目標(biāo)的最優(yōu)解。例如,星靈機(jī)械哨兵的力場(chǎng)時(shí)機(jī)和位置。這個(gè)是可以大量應(yīng)用強(qiáng)化學(xué)習(xí)訓(xùn)練的地方。
4、先驗(yàn)圖譜:先驗(yàn)圖譜是站在巨人肩膀上的關(guān)鍵,由于目前深度學(xué)習(xí)相關(guān)技術(shù)的局限性,完全零先驗(yàn)比較天方夜譚。對(duì)于《星際爭(zhēng)霸II》或軍事實(shí)戰(zhàn)指揮來(lái)說(shuō),先驗(yàn)圖譜包括戰(zhàn)場(chǎng)環(huán)境(基本信息)、敵我雙方裝備體系(不完備信息)、戰(zhàn)術(shù)體系等。
當(dāng)然,除了這些核心組件還有各種態(tài)勢(shì)感知、作戰(zhàn)控制(單兵、群體協(xié)作等)等組件,所有的組件都可以以知識(shí)表示、專家系統(tǒng)、AI模型的方式生成。 組件都是手腳,需要一個(gè)大腦來(lái)指揮控制。
在AlphaWar中,指標(biāo)控制中心有兩種實(shí)現(xiàn),第一種是策略編輯器,例如我方(蟲族)探測(cè)到對(duì)方(星靈)裸開雙礦,對(duì)于態(tài)勢(shì)感知來(lái)說(shuō)可以得出一個(gè)可快速壓制的策略,這個(gè)時(shí)候只需要一個(gè)態(tài)勢(shì)分類器和一個(gè)快速壓制的智能體就足以完成整個(gè)指揮控制過(guò)程;第二種則比較復(fù)雜,也是實(shí)際戰(zhàn)爭(zhēng)中的常規(guī)情況,態(tài)勢(shì)瞬息萬(wàn)變,這個(gè)時(shí)候需要一個(gè)基于LSTM的深度指控網(wǎng)絡(luò)。(這個(gè)是個(gè)很大的話題,后續(xù)有機(jī)會(huì)單獨(dú)展開)
以上是AlphaWar的基本組成,接下來(lái)我們用例子來(lái)說(shuō)明它是怎么工作,一個(gè)一行代碼都不用寫實(shí)現(xiàn)一個(gè)擊敗《星際爭(zhēng)霸II》全種族最難級(jí)別的戰(zhàn)術(shù)機(jī)器人!
五、 案例演示:光影沐浴者
光影沐浴者,俗稱速隱刀戰(zhàn)術(shù)。利用星際爭(zhēng)霸II的反隱單位或建筑通常需要前置的科技建筑才能生產(chǎn),星靈在早期以最快速度(并欺騙對(duì)手)出黑暗圣堂武士,經(jīng)??梢云鸬揭慌e定輸贏的效果。
以下是光影沐浴者在系統(tǒng)中的搭建:
如圖所示,大多組件都是策略性的實(shí)現(xiàn),可以理解為指揮控制中的常規(guī)開局操作。跟知識(shí)圖譜、深度學(xué)習(xí)比較相關(guān),需要訓(xùn)練模型或知識(shí)推理的四個(gè)組件:
1、 偷水晶+機(jī)械臺(tái):—偷水晶和機(jī)械臺(tái)的主要目的是加快進(jìn)攻的時(shí)間,進(jìn)攻越晚對(duì)手出反隱裝置的可能性越高。水晶和機(jī)械臺(tái)的需要用replay來(lái)訓(xùn)練最佳隱蔽位置,躲過(guò)對(duì)方農(nóng)民探路路線以及蟲族房子可能路線等。
2、 優(yōu)先解除反隱:—這是一個(gè)典型的知識(shí)圖譜+AI的智能體。首先,要從知識(shí)圖譜中查詢出對(duì)方種族反隱的實(shí)現(xiàn)裝置,并采用對(duì)應(yīng)的反制戰(zhàn)術(shù)。這個(gè)過(guò)程中有大量的可能性,需要用AI得到一個(gè)最優(yōu)解。例如,對(duì)方是人族,在這個(gè)時(shí)候一般已經(jīng)有偵測(cè)掃描了,如果所有黑暗圣堂武士一起空投有可能被一波吃掉。需要分批(一批1個(gè))消耗對(duì)方的掃描次數(shù),等對(duì)方掃描次數(shù)(知識(shí)圖譜獲?。┯猛炅嗽俅笠?guī)模折躍黑暗圣堂武士,這個(gè)訓(xùn)練只需幾十個(gè)樣本就可以完美實(shí)現(xiàn)。
3、 折躍部隊(duì):—這是一個(gè)態(tài)勢(shì)感知網(wǎng)絡(luò)和兵種相克圖譜相融合的策略。例如對(duì)方(蟲族)開始變眼蟲反隱,這個(gè)時(shí)候就要折躍追獵者來(lái)清除障礙。
4、 暗堂操作:—微操是勝敗的關(guān)鍵要素,著名的AlphaStar中有大量作戰(zhàn)單位微操智能體,同等條件下可以以最小損失殲滅對(duì)方主力部隊(duì)。 (關(guān)于如何訓(xùn)練戰(zhàn)術(shù)和智能體,后續(xù)有機(jī)會(huì)再單獨(dú)深入講解)
結(jié)果直接上圖:在對(duì)方(藍(lán)方)經(jīng)濟(jì)和部隊(duì)都有優(yōu)勢(shì)的情況下?lián)艨逅?/p>
未來(lái)的戰(zhàn)爭(zhēng)勝利將取決于認(rèn)知速度,即讓機(jī)器正確理解作戰(zhàn)態(tài)勢(shì)并做出決策。而認(rèn)知速度的快慢,極大程度上取決于智能技術(shù)的運(yùn)用。因此,智能體輔助是兵棋系統(tǒng)升級(jí)換代的關(guān)鍵。