根據(jù)IDC一份EMC贊助的報(bào)告,消費(fèi)者和企業(yè)所累積的數(shù)據(jù)量預(yù)計(jì)在未來(lái)十年內(nèi)將增加44倍。很多信息就是所謂的大數(shù)據(jù)。很顯然,大數(shù)據(jù)需要存儲(chǔ)以及企業(yè)提供的其他產(chǎn)品和服務(wù),因此我們毫不驚奇地看到EMC將大數(shù)據(jù)列為它的關(guān)鍵市場(chǎng)之一?,F(xiàn)在,讓我們分析一下大數(shù)據(jù)的定義以及它的意義,然后簡(jiǎn)要的描述一下EMC是如何通過(guò)最近對(duì)Isilon和Greenplum的收購(gòu)來(lái)面對(duì)大數(shù)據(jù)市場(chǎng)的。
EMC對(duì)大數(shù)據(jù)的工作定義就是:"數(shù)據(jù)集,或信息,它的規(guī)模、發(fā)布、位置在不同的孤島上,或它的時(shí)間線要求客戶部署新的架構(gòu)來(lái)捕捉、存儲(chǔ)、整合(到一個(gè)數(shù)據(jù)集)、管理和分析這些信息以便實(shí)現(xiàn)企業(yè)價(jià)值。"現(xiàn)在,這個(gè)定義需要一定的時(shí)間來(lái)消化,因?yàn)檫@個(gè)定義符合的是EMC的框架和EMC所想做的事。不過(guò),這個(gè)定義覆蓋了關(guān)鍵的要素,而且有一定的意義。我們來(lái)看看一些實(shí)例來(lái)更好地理解大數(shù)據(jù)在真實(shí)世界中的廣泛分布:
醫(yī)療信息--包括醫(yī)療圖像,比如MRI(磁共振成像),以及電子健康記錄(EHR);
Web對(duì)帶寬越來(lái)越高的使用--包括Facebook用戶目前每周上傳的20億張圖片,以及上傳到Y(jié)outube和其他多媒體網(wǎng)站的無(wú)數(shù)的視頻;
視頻監(jiān)控--這是一個(gè)正在蓬勃發(fā)展的行業(yè),需要大量的存儲(chǔ),同時(shí)需要先進(jìn)的分析手段來(lái)分析圖像資料;
移動(dòng)設(shè)備的廣泛使用--短信浪潮還不會(huì)停止;
智能設(shè)備--基于傳感器的對(duì)信息的搜集有很光明的前景,這帶來(lái)了智能電網(wǎng)、智能建筑和許多其他智能類型的公共和工業(yè)基礎(chǔ)設(shè)施;
非傳統(tǒng)IT設(shè)備--包括對(duì)RFID(射頻識(shí)別)的使用以及GPS導(dǎo)航系統(tǒng);
對(duì)傳統(tǒng)IT信息的非傳統(tǒng)使用--包括將OLTP(聯(lián)機(jī)事務(wù)處理)轉(zhuǎn)換成,比如,一個(gè)數(shù)據(jù)倉(cāng)庫(kù),以便應(yīng)用分析工具、電子發(fā)現(xiàn)和Web信息產(chǎn)生工具;
行業(yè)專門需求--包括在基因研究、油氣勘探、娛樂(lè)媒體等領(lǐng)域的高性能計(jì)算解決方案;
有人批評(píng)說(shuō)這里沒(méi)有任何新穎的地方。例如,醫(yī)療圖像和寬帶Web訪問(wèn)已經(jīng)存在了很長(zhǎng)時(shí)間。回答是,與大數(shù)據(jù)相關(guān)的變化雖然很可能是程度大小的問(wèn)題,但是從一定程度上來(lái)說(shuō),也是形式的問(wèn)題。程度問(wèn)題來(lái)自于超越我們過(guò)去認(rèn)知的日益密集的使用和更大的規(guī)模--PB級(jí)的存儲(chǔ)。形式的問(wèn)題則與數(shù)據(jù)從模擬到數(shù)字的轉(zhuǎn)型有關(guān),而且需要用新的途徑來(lái)挖掘企業(yè)價(jià)值。不過(guò)這里需要記住的一點(diǎn)是,大數(shù)據(jù)是一個(gè)龐大的市場(chǎng),能夠帶來(lái)"豐厚的利潤(rùn)"。從一個(gè)IT企業(yè)的角度來(lái)看,這就是大數(shù)據(jù)為什么重要之處。
從一個(gè)IT人員的角度來(lái)看,信息架構(gòu)的變化大概經(jīng)歷了三次浪潮。不過(guò),這些新的浪潮并沒(méi)有取代舊的浪潮,舊的還在發(fā)展?,F(xiàn)在是三種類型的數(shù)據(jù)結(jié)構(gòu)一直在并存著,不過(guò)有一種類型的結(jié)構(gòu)有可能主導(dǎo)其他類型:
結(jié)構(gòu)化信息--這種信息位于相關(guān)數(shù)據(jù)庫(kù),多年來(lái)主導(dǎo)IT的使用;它仍然是任務(wù)關(guān)鍵型OLTP系統(tǒng)業(yè)務(wù)依賴的信息;你可以對(duì)結(jié)構(gòu)化信息進(jìn)行排序和查詢;
半結(jié)構(gòu)化信息--這是IT界的第二股重要浪潮;這種信息包括電子郵件、辦公處理文檔,以及許多存儲(chǔ)在Web上的信息;半結(jié)構(gòu)化信息是基于內(nèi)容的信息,可以被搜索,因此它也是Google存在的理由;
非結(jié)構(gòu)化信息--從本來(lái)形式上來(lái)說(shuō),這可以被認(rèn)為是主要是比特映射的數(shù)據(jù);這種數(shù)據(jù)可以被感知(比如在音頻、視頻和多媒體文件上看到或聽到);許多大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),而且它龐大的規(guī)模和極高的復(fù)雜性要求高級(jí)的分析工具來(lái)創(chuàng)建或給它賦予一個(gè)適合人們感知或互動(dòng)的形式;[nextpage]
不幸的是,這種分類框架仍然不夠完美。首先,現(xiàn)實(shí)世界中有無(wú)數(shù)的復(fù)合形式,比如嵌入在Word文檔中的圖片。其次,雖然"記錄"是一個(gè)可以適用于數(shù)據(jù)庫(kù)的術(shù)語(yǔ),而且許多半結(jié)構(gòu)化信息存儲(chǔ)在文件中,但是許多其他信息存在于信息流中,比如視頻攝像頭捕捉到的圖像。此外,許多對(duì)象有完全不同的概念。
傳統(tǒng)IT架構(gòu),包括服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò),是圍繞結(jié)構(gòu)化信息而構(gòu)建的,而且也適應(yīng)半結(jié)構(gòu)化信息。不過(guò),它們實(shí)際上不太適用于大數(shù)據(jù)所帶來(lái)的多方面的結(jié)構(gòu)要求、規(guī)模和分析需求。
因此,EMC在他們對(duì)大數(shù)據(jù)的定義中強(qiáng)調(diào)新的架構(gòu),同時(shí)這也是他們?yōu)槭裁匆召?gòu)Isilon和Greenplum的原因。對(duì)于這兩次收購(gòu),已經(jīng)有許多分析和報(bào)道,因此我主要是簡(jiǎn)要的描述一下這些公司如何體現(xiàn)了我們需要針對(duì)大數(shù)據(jù)的不同架構(gòu)。