大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),但不是每個(gè)人都在接受它的洗禮。更準(zhǔn)確的說(shuō),現(xiàn)如今我們所謂的“大數(shù)據(jù)”,其實(shí)就是硅谷的互聯(lián)網(wǎng)大佬們?nèi)舾赡昵八龅氖?,之所以現(xiàn)如今被人們所重新認(rèn)識(shí),覺(jué)得它是新鮮有趣的,那是因?yàn)楝F(xiàn)在推動(dòng)大數(shù)據(jù)的技術(shù),已經(jīng)完全開(kāi)源,并且普及到了大部分的企業(yè)和公司。
在與歐洲很多傳統(tǒng)企業(yè)的對(duì)話中,我們可以越發(fā)清楚的察覺(jué)到大數(shù)據(jù)除了能夠讓開(kāi)發(fā)應(yīng)用項(xiàng)目在非硅谷的地方迅速成熟起來(lái)之外,無(wú)甚新奇之處。之所以提及歐洲,那是因?yàn)樵贗T技術(shù)發(fā)展上,它落后于美國(guó)。無(wú)論是云計(jì)算或者大數(shù)據(jù)計(jì)算,歐洲都落后美國(guó)一到兩年的時(shí)間。所以當(dāng)我們看到歐洲的公司都在鄭重其事的談?wù)摯髷?shù)據(jù)項(xiàng)目,那么就意味著大數(shù)據(jù)的概念確實(shí)開(kāi)始深入人心。
Gartner報(bào)道稱:42%的IT企業(yè)領(lǐng)導(dǎo)已經(jīng)深入大數(shù)據(jù)項(xiàng)目的開(kāi)發(fā)中。換句話說(shuō),它還有長(zhǎng)足發(fā)展的空間。但我懷疑這個(gè)數(shù)字被低估了,這涉及到了如何定義"大數(shù)據(jù)"這樣一個(gè)概念。比如,當(dāng)我問(wèn)一個(gè)IT企業(yè)的專家是否會(huì)開(kāi)發(fā)一個(gè)大數(shù)據(jù)項(xiàng)目時(shí),一般得到的回答都是"NO"。但當(dāng)我進(jìn)一步闡明我的意思,你所要從事的項(xiàng)目并不是那種涉及兆兆字節(jié)甚至更大規(guī)模的數(shù)據(jù)量,相反,是一種可以從分散的端口來(lái)拉取數(shù)據(jù)的軟件,進(jìn)而能夠進(jìn)行實(shí)時(shí)分析的項(xiàng)目產(chǎn)品。當(dāng)換成這樣一個(gè)問(wèn)法的時(shí)候,往往她的答案就是“YES"!這樣的項(xiàng)目當(dāng)然也是在"大數(shù)據(jù)"的范疇內(nèi)。但是"大數(shù)據(jù)"這樣的字眼,讓人們往往更加關(guān)注的是”大“,而非數(shù)據(jù),所以人們就走進(jìn)了誤區(qū)。
這個(gè)結(jié)論在NewVantage的調(diào)查中,變得更加清楚明朗,其中只有15%的受訪者是在處理超大規(guī)模的數(shù)據(jù)。而從剩下的85%的受訪者那里,我們可以看到企業(yè)最關(guān)心的目標(biāo),是要有能力不斷的管理日益多樣化,并且不斷膨脹的數(shù)據(jù)資源,而非簡(jiǎn)單的處理超大規(guī)模數(shù)據(jù)。所以,當(dāng)我們看到連Hadoop公司,這家以存儲(chǔ)及加工超大規(guī)模數(shù)據(jù)聞名的公司,更加頻繁的介入到ETL過(guò)程中,也就不足為奇了。(ETL:即構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去)
在大數(shù)據(jù)的概念里,規(guī)模真的并不重要。
Google公司和Facebook公司早已經(jīng)發(fā)明出MapReduce以及NoSql這樣的數(shù)據(jù)庫(kù),來(lái)應(yīng)付應(yīng)用軟件(這類軟件主要由數(shù)據(jù)來(lái)驅(qū)動(dòng))對(duì)實(shí)時(shí)數(shù)據(jù)分析處理的需要?,F(xiàn)在這樣的技術(shù)已經(jīng)開(kāi)源,隨處都可以得到并使用,以至于現(xiàn)在的互聯(lián)網(wǎng)大佬們已經(jīng)將目光投向“更大規(guī)模數(shù)據(jù)”的技術(shù)開(kāi)發(fā)和利用,而其他人,將在若干年后享受這些技術(shù)帶來(lái)的便利。也許,讀寫網(wǎng)的布萊恩·普羅斯特對(duì)Hadoop網(wǎng)站價(jià)值的揭示更加能夠說(shuō)明問(wèn)題。他說(shuō):“Hadoo也僅僅是讓本該變得昂貴的數(shù)據(jù)存儲(chǔ)變得便宜而已。”而GigaOm的德里克·哈里斯(DerrickHarris)也對(duì)NoSql這么評(píng)論道:“它并沒(méi)有在管理復(fù)雜交易上,把其他數(shù)據(jù)庫(kù)的角色取而代之。相反,NoSql催生出來(lái)一系列的應(yīng)用軟件,能夠在處理半結(jié)構(gòu)化數(shù)據(jù)方面反映更加迅速。”所以這在我看來(lái),定義大數(shù)據(jù)最好的的方式,應(yīng)該站在你處理數(shù)據(jù)的角度,而跟所要處理的數(shù)據(jù)規(guī)模沒(méi)有任何關(guān)系。
最近我遇到了一位歐洲的IT企業(yè)老板,他說(shuō)現(xiàn)在已經(jīng)把他的工作團(tuán)隊(duì)從”瀑布式”的開(kāi)發(fā)方式轉(zhuǎn)換為更為靈巧機(jī)敏的開(kāi)發(fā)方式。該團(tuán)隊(duì)面向市場(chǎng)上實(shí)時(shí)的客戶反饋,從3000個(gè)服務(wù)器中讀取信息,每天要生成500G的信息量,同時(shí)從開(kāi)發(fā)到配置僅僅需要24分鐘的時(shí)間。該公司毫無(wú)疑問(wèn),是在向由數(shù)據(jù)驅(qū)動(dòng)的模式轉(zhuǎn)型。這意味著他們要有能力一掃舊有僵化的數(shù)據(jù)基礎(chǔ)系統(tǒng),同時(shí)在轉(zhuǎn)變過(guò)程中會(huì)遭遇很多阻力和挫折,但最終我相信能夠達(dá)到他們的目標(biāo)。
不過(guò)最值得人們期待的是:是否更多的主流企業(yè)都將發(fā)展自身的大數(shù)據(jù)技術(shù),來(lái)滿足那些互聯(lián)網(wǎng)巨頭不曾有過(guò)的一些需求,或者革新將“回流”至硅谷呢!
時(shí)間會(huì)告訴我們一切。