文/周明耀 ??低晥D像處理與分析部
大數(shù)據(jù)技術(shù)正在逐漸成為人們茶余飯后的必談話題,它為各行各業(yè)提供了日新月異的變化思路。國內(nèi)外產(chǎn)業(yè)界、學(xué)術(shù)界和政府機(jī)構(gòu)正在以最快速度,大力推動(dòng)大數(shù)據(jù)技術(shù)的反戰(zhàn),比較有代表性的是制造業(yè)、服務(wù)業(yè)、金融業(yè)、互聯(lián)網(wǎng)、交通、醫(yī)療等諸多領(lǐng)域使用大數(shù)據(jù)技術(shù)的研究和發(fā)展,??低暈榇淼陌卜榔髽I(yè)也在智慧城市、平安城市、民用領(lǐng)域等快速布局大數(shù)據(jù)理念、技術(shù)、產(chǎn)品。通過3年時(shí)間的積累,大數(shù)據(jù)時(shí)代真正來臨了。
一、大數(shù)據(jù)介紹
大數(shù)據(jù)(Big Data)目前已經(jīng)成為IT領(lǐng)域最為流行的詞匯,其實(shí)它并不是一個(gè)全新的概念。早在1980年,著名未來學(xué)家阿爾文.托夫勒在《第三次浪潮》一書中,明確提出“數(shù)據(jù)就是財(cái)富”這一觀點(diǎn),并將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。
2001年,知名咨詢公司Gartner的資深分析師Douglas Laney發(fā)表了一篇名為“3D Data Management:Controlling Data Volume, Velocity, and Variety”的文章,指出大數(shù)據(jù)管理面臨三個(gè)V的挑戰(zhàn):數(shù)據(jù)量、數(shù)據(jù)多樣性、高速。“3V”后來成為大數(shù)據(jù)公認(rèn)的三個(gè)基本特征。
2011年5月,麥肯錫全球研究院發(fā)表白皮書,指出企業(yè)正在面臨海量的交易數(shù)據(jù)、顧客信息、供貨商信息和運(yùn)營數(shù)據(jù)等,需要對(duì)這些數(shù)據(jù)進(jìn)行管理與挖掘。在物聯(lián)網(wǎng)環(huán)境下,傳感器、智能手機(jī)、工業(yè)設(shè)備等都在產(chǎn)生海量數(shù)據(jù)?;ヂ?lián)網(wǎng)中的多媒體數(shù)據(jù)量也在以指數(shù)級(jí)上升,如何處理這些數(shù)據(jù),為用戶提供有用的信息,成為需要考慮的重要問題。
2012年2月11日,紐約時(shí)報(bào)發(fā)表《The Age of Big Data》,向大眾宣傳大數(shù)據(jù)時(shí)代的到來。
2012年3月22日,奧巴馬宣布2億美元投資大數(shù)據(jù)領(lǐng)域,在次日的電話會(huì)議上,美國政府將數(shù)據(jù)定義為“未來的新石油”,美國政府認(rèn)識(shí)到一個(gè)國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分,未來對(duì)數(shù)據(jù)的占有和控制甚至將成為繼陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心資產(chǎn)。
2012年7月10日,聯(lián)合國在紐約總部發(fā)布了一份大數(shù)據(jù)政務(wù)白皮書,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民。
二、大數(shù)據(jù)研究內(nèi)容及現(xiàn)狀
2012年冬季,來自谷歌、IBM、微軟、MIT、斯坦福、伯克利、UIUC等產(chǎn)業(yè)界和學(xué)術(shù)界的數(shù)據(jù)庫領(lǐng)域?qū)<彝ㄟ^在線的方式共同發(fā)布了一個(gè)關(guān)于大數(shù)據(jù)的白皮書,該白皮書指出大數(shù)據(jù)面臨著5個(gè)主要問題,分別是異構(gòu)型、規(guī)模、時(shí)間性、復(fù)雜性和隱私性。白皮書指出現(xiàn)有的工作對(duì)數(shù)據(jù)的隱私性和易用性方面考慮不周。另外,大數(shù)據(jù)的分析包含多個(gè)步驟,目前的研究大多關(guān)注數(shù)據(jù)建模和分析,而對(duì)其他階段考慮不夠。即使是在數(shù)據(jù)分析階段,目前的研究仍然沒有很好地理解數(shù)據(jù)建模與分析在多租戶集群環(huán)境下的復(fù)雜性,在該環(huán)境中,多個(gè)用戶程序會(huì)并發(fā)執(zhí)行。為了應(yīng)對(duì)上述挑戰(zhàn),白皮書建議采用現(xiàn)有成熟技術(shù)解決大數(shù)據(jù)帶來的挑戰(zhàn)。
大數(shù)據(jù)處理過程大致分為數(shù)據(jù)獲取/記錄、信息抽取/清洗/注記、數(shù)據(jù)集成/聚集/表現(xiàn)、數(shù)據(jù)分析/建模和數(shù)據(jù)解釋5個(gè)主要階段,貫穿所有節(jié)點(diǎn),系統(tǒng)需要考慮數(shù)據(jù)的異構(gòu)型、規(guī)模、時(shí)間性、隱私性和人機(jī)協(xié)作等方面的因素。在每一個(gè)階段,都面臨著各自的研究問題與挑戰(zhàn)。
1. 數(shù)據(jù)獲取和記錄階段的主要問題是如何利用在線處理技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行智能化處理,自動(dòng)生成正確的元數(shù)據(jù),過濾不需要的數(shù)據(jù),而不需要存儲(chǔ)后再進(jìn)行過濾。該階段可能的研究方向包括數(shù)據(jù)壓縮技術(shù)、在線數(shù)據(jù)分析技術(shù)、實(shí)時(shí)數(shù)據(jù)流分析技術(shù)、元數(shù)據(jù)自動(dòng)獲取技術(shù)和相關(guān)系統(tǒng);
2. 信息抽取和清洗階段的主要問題是數(shù)據(jù)多樣性、數(shù)據(jù)真?zhèn)涡浴3槿〉膶?duì)象可能包含圖像、視頻等具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù),而且該過程通常是與應(yīng)用高度相關(guān)的。除此以外,由于監(jiān)控?cái)z像頭、裝載有GPS的智能手機(jī)、相機(jī)和其他便攜設(shè)備無處不在,豐富的、高保真度的位置和軌跡數(shù)據(jù)也可以被收集于處理。數(shù)據(jù)清洗的現(xiàn)有工作通常假設(shè)數(shù)據(jù)是真實(shí)有效的,這些假設(shè)在大數(shù)據(jù)領(lǐng)域不再正確;
3. 數(shù)據(jù)集成、聚集和表現(xiàn)階段由于大量異構(gòu)數(shù)據(jù)的存在,大數(shù)據(jù)處理不能只對(duì)數(shù)據(jù)進(jìn)行記錄,然后就將其存入存儲(chǔ)中。對(duì)大規(guī)模數(shù)據(jù)進(jìn)行有效分析需要以自動(dòng)化的方式對(duì)數(shù)據(jù)進(jìn)行定位、識(shí)別、理解和引用。為了實(shí)現(xiàn)該目標(biāo),需要研究數(shù)據(jù)結(jié)構(gòu)和語義的統(tǒng)一描述方式與智能理解技術(shù),實(shí)現(xiàn)機(jī)器自動(dòng)處理,從這一角度看,對(duì)數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)的設(shè)計(jì)也顯得尤為重要;
4. 查詢處理、數(shù)據(jù)建模和分析階段頻繁模式和相關(guān)分析得到的一般筒機(jī)數(shù)據(jù)通常強(qiáng)于具有波動(dòng)性的個(gè)體數(shù)據(jù),此外互聯(lián)的大數(shù)據(jù)可形成大型異構(gòu)的信息網(wǎng)絡(luò),可以發(fā)現(xiàn)隱藏的關(guān)系和模式。大數(shù)據(jù)使下一代的交互式數(shù)據(jù)分析實(shí)現(xiàn)實(shí)時(shí)解答,需要在TB級(jí)別上的可伸縮復(fù)雜交互查詢技術(shù)的進(jìn)一步研究與落地?,F(xiàn)有的數(shù)據(jù)處理方式是前述的交互式復(fù)雜處理過程的一個(gè)障礙,需要研究并實(shí)現(xiàn)將聲明性查詢語言與數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計(jì)包有機(jī)整合在一起的數(shù)據(jù)分析系統(tǒng);
5. 數(shù)據(jù)解釋階段應(yīng)該支持用戶不斷提供附加資料,解釋這種結(jié)果是如何產(chǎn)生的。這種附加資料稱之為數(shù)據(jù)的出處。通過研究如何最好地捕獲、存儲(chǔ)和查詢數(shù)據(jù)出處,同時(shí)配合相關(guān)技術(shù)捕獲足夠的元數(shù)據(jù),就可以創(chuàng)建一個(gè)基礎(chǔ)設(shè)施,為用戶提供解釋分析結(jié)果,重復(fù)分析不同假設(shè)、參數(shù)和數(shù)據(jù)集的能力。
目前國內(nèi)外的學(xué)術(shù)界主要研究方式是與政府、大公司共同成立針對(duì)大數(shù)據(jù)研究實(shí)驗(yàn)室,主要針對(duì)大數(shù)據(jù)在計(jì)算平臺(tái)、可伸縮的算法、機(jī)器學(xué)習(xí)和理解、隱私和安全等多個(gè)方面的科學(xué)問題與解決方案。學(xué)術(shù)界與專業(yè)機(jī)構(gòu)的結(jié)合有利于業(yè)界大數(shù)據(jù)產(chǎn)品的落地,例如通過定期組織生物學(xué)、醫(yī)學(xué)、計(jì)算機(jī)等方面專家就大數(shù)據(jù)問題研討,可以跨科學(xué)地研究和探討大數(shù)據(jù)問題,為生物醫(yī)學(xué)專業(yè)的相關(guān)研究工作提供大數(shù)據(jù)支持。
谷歌作為全球技術(shù)領(lǐng)先企業(yè),一直在致力于大數(shù)據(jù)技術(shù)的推動(dòng)工作,通過不斷開源已有系統(tǒng)、發(fā)布未來技術(shù)相關(guān)論文的方式,在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域做出了杰出的貢獻(xiàn)。
三、大數(shù)據(jù)的應(yīng)用領(lǐng)域
全球著名咨詢公司麥肯錫對(duì)醫(yī)療保健、零售、公共領(lǐng)域、制造、個(gè)人位置數(shù)據(jù)等5個(gè)領(lǐng)域進(jìn)行了重點(diǎn)分析,提出了可以利用“大數(shù)據(jù)”的5種方法。
1. 以時(shí)效性更高的方式向用戶提供“大數(shù)據(jù)”。在公共領(lǐng)域,跨部門提供“大數(shù)據(jù)”能大幅減少檢索與處理時(shí)間。在制造業(yè),集成來自研發(fā)、工程、制造單元的數(shù)據(jù)可以實(shí)現(xiàn)并行工程,縮短產(chǎn)品投放市場的時(shí)間。
2. 通過展開數(shù)據(jù)分析和實(shí)驗(yàn)尋找變化因素并改善產(chǎn)品性能。由于越來越多的交易數(shù)據(jù)都以數(shù)字形式存在,各機(jī)構(gòu)可以收集有關(guān)產(chǎn)品或用戶的更加精確和詳盡的數(shù)據(jù)。
3. 區(qū)分用戶群,提供個(gè)性化服務(wù)。“大數(shù)據(jù)”能幫助機(jī)構(gòu)對(duì)用戶群進(jìn)行更加細(xì)化的區(qū)分,并針對(duì)用戶的不同需求提供更加個(gè)性化的服務(wù)。這是營銷和危機(jī)管理方面常用的方法,但也可以為公共領(lǐng)域等帶來變革。
4. 利用自動(dòng)化算法支持或替代人工決策。復(fù)雜分析能極大改善決策效果,降低風(fēng)險(xiǎn),并挖掘出其他方法無法實(shí)現(xiàn)的寶貴信息。此類復(fù)雜分析可用于稅務(wù)機(jī)構(gòu)、零售商等。
5. 商業(yè)模式、產(chǎn)品與服務(wù)創(chuàng)新。制造商正在利用產(chǎn)品使用過程中獲得的數(shù)據(jù)來改善下一代產(chǎn)品開發(fā),以及提供創(chuàng)新性售后服務(wù)。實(shí)時(shí)位置數(shù)據(jù)的興起帶來了一系列基于位置的移動(dòng)服務(wù),例如導(dǎo)航和人物跟蹤。
目前已經(jīng)逐漸落地的應(yīng)用模式主要集中在金融業(yè)、制造業(yè)、服務(wù)業(yè)、交通行業(yè)、醫(yī)療行業(yè)及互聯(lián)網(wǎng)行業(yè)。
四、安防大數(shù)據(jù)
今后幾年平安城市將不斷向智慧城市靠攏,智慧城市中必須實(shí)現(xiàn)的是數(shù)據(jù)的共享,跨區(qū)域視頻監(jiān)控聯(lián)網(wǎng)、監(jiān)控資源整合與共享,政府各部門之間的視頻監(jiān)控資源的共享等等。近幾年平安城市、智能交通、智能建筑等行業(yè)的快速發(fā)展,大集成、大聯(lián)網(wǎng)推動(dòng)安防行業(yè)進(jìn)入大數(shù)據(jù)時(shí)代。面對(duì)大數(shù)據(jù)的存儲(chǔ)、管理、分析,出現(xiàn)了一系列問題:首先是PB級(jí)數(shù)據(jù)的存儲(chǔ)管理問題,這個(gè)問題目前主要通過分布式存儲(chǔ)方案來解決;其次是海量視頻數(shù)據(jù)中的有價(jià)值數(shù)據(jù)如何挖掘問題,這些問題都是安防行業(yè)需要使用大數(shù)據(jù)理念和相關(guān)技術(shù)去解決的。
視頻云存儲(chǔ)采用分布式存儲(chǔ)技術(shù),能夠提供海量視頻、圖片的存儲(chǔ),具備高容量、高帶寬、高可靠、高擴(kuò)展等特性;交通卡口大數(shù)據(jù)處理平臺(tái)主要應(yīng)用于智能交通中,存儲(chǔ)和處理海量的交通卡口過車數(shù)據(jù),能夠針對(duì)海量過車數(shù)據(jù)提供快速檢索、智能研判、統(tǒng)計(jì)分析等服務(wù),具體包括車輛軌跡研判、車輛誘導(dǎo)、車流量統(tǒng)計(jì)、車輛信息查詢等服務(wù);視頻圖像信息數(shù)據(jù)庫主要應(yīng)用于公安行業(yè)中,能夠存儲(chǔ)和處理案事件信息、卡口過車信息,針對(duì)海量數(shù)據(jù)能夠提供高效的數(shù)據(jù)處理服務(wù),包括全文檢索等。
中小型項(xiàng)目更應(yīng)該選擇中小型廠商嗎?