然而到了今天,存儲行業(yè)的現(xiàn)實狀況并不樂觀。
一方面,大數(shù)據(jù)發(fā)展的潮流不斷地全速前進。盡管企業(yè)對于大數(shù)據(jù)的Volume(大批量)、Velocity(高速傳遞)、Variety(多樣性)等特征一直保持著高度的興致,但企業(yè)對于大數(shù)據(jù)技術(shù)的采用率仍然很低,主要仍集中在實驗階段。同時,一些大數(shù)據(jù)初創(chuàng)企業(yè)繼續(xù)吸引著大量的資金,并認為這些大數(shù)據(jù)的賭博會讓他們完好無損。
大數(shù)據(jù)存儲沒什么大不了的
而另一方面,盡管市場似乎已經(jīng)為廣大的存儲企業(yè)帶來了明顯的理想優(yōu)勢,但存儲企業(yè)并沒有充分融入到大數(shù)據(jù)發(fā)展的潮流中,盡管其中也不乏一些企業(yè)在朝著這方面努力。在過去的幾年中,我們已經(jīng)看到許多存儲企業(yè)投資于該領(lǐng)域——包括技術(shù)方面以及純營銷方面,以便隨著大數(shù)據(jù)發(fā)展的趨勢而進行自身的調(diào)整。
在技術(shù)方面,大部分都傾向于相信大多數(shù)存儲企業(yè)均擅長于高效地存儲和保護大量數(shù)據(jù)——能夠十拿九穩(wěn)的戰(zhàn)勝那些部署Hadoop的企業(yè)。
當(dāng)您企業(yè)的數(shù)據(jù)中心可能已經(jīng)有了價值數(shù)百萬美元的專用存儲設(shè)備,也具備相關(guān)的專業(yè)知識時,為什么要在Hadoop中依靠相當(dāng)有限的數(shù)據(jù)存儲模型呢?因此,存儲行業(yè)的巨頭如EMC、賽門鐵克和IBM,以及一些較小存儲供應(yīng)商如Cleversafe,曾將他們的軟件技術(shù)與Hadoop進行整合。
但是,這些方面的努力對于促進企業(yè)用戶采用大數(shù)據(jù)技術(shù)方面的收效甚微。當(dāng)然,我們也可以看到某些極個別采用了大數(shù)據(jù)技術(shù)的案例,但到目前為止,存儲行業(yè)并未能找到一種能夠很好的融入大數(shù)據(jù)的方式。在我們與長期運行Hadoop社區(qū)的廣泛對話中,我們被告知無論是分銷商和終端用戶都從未提及過關(guān)于存儲的話題。其根本就不被視為一個問題。
這種與大數(shù)據(jù)相關(guān)的明顯的矛盾,也明顯存在于我們對于最終用戶調(diào)研中。
當(dāng)我們在采訪一些大中型企業(yè)的存儲專業(yè)人士關(guān)于其所在企業(yè)就大數(shù)據(jù)解決方案方面的投資計劃時,四分之一的受訪者表示說他們已經(jīng)在這方面有了投資,而有40%的受訪者則表示他們沒有這方面的計劃。其余的14%的受訪者表示他們已經(jīng)制定了在大數(shù)據(jù)方面的投資計劃,有13%的受訪者說他們未來可能會制定大數(shù)據(jù)投資計劃。
許多企業(yè)受訪者告訴我們,他們處理大數(shù)據(jù)存儲的方式是通過利用現(xiàn)有的SAN。而這些企業(yè)表示,連續(xù)兩年的大數(shù)據(jù)運行僅占其總存儲的3%。
大數(shù)據(jù)并不在數(shù)據(jù)中心
顯然,這有一些混亂。但這對于一個在短期內(nèi)被以驚人的程度大量使用,甚至是濫用的術(shù)語而言并不奇怪。詢問一名存儲專業(yè)人士關(guān)于如何看待大數(shù)據(jù),他們腦海中所思考的大數(shù)據(jù)可能與數(shù)據(jù)科學(xué)家們的想象有很大的不同。
但是,讓我們來分析一些最為真實的大數(shù)據(jù)倡議吧(最典型的是基于Hadoop的項目),其并不在數(shù)據(jù)中心的核心運行。其運行在一個特設(shè)的個別部門的基礎(chǔ)實驗,如工程,產(chǎn)品開發(fā)和市場營銷。
核心的IT部門可能甚至都不知道有這樣的項目正在進行中。在這樣的情況下,很容易了解到為什么存儲不受重視;重要的是,存儲的成本是很便宜的而且也易于使用。成本昂貴且難以管理的外部系統(tǒng),如SAN和NAS被視為矯枉過正的DAS規(guī)則。
雖然我們并不指望能夠在短時間內(nèi)會發(fā)生大的變化,但圍繞Hadoop項目長期存在的一個問題是,當(dāng)其達到一定的規(guī)模,成熟度和重要性時,有必要把他們交付給IT部門來管理。
大數(shù)據(jù)存儲的前景
是否已經(jīng)有關(guān)于大數(shù)據(jù)存儲發(fā)展的一些跡象了呢?是的,但其仍然處于早期。當(dāng)我們在采訪存儲專業(yè)人士關(guān)于驅(qū)動數(shù)據(jù)增長的因素的話題時,14%的受訪者說:“雖然我們已經(jīng)注意到大數(shù)據(jù)(先進的分析技術(shù))正受到許多數(shù)據(jù)類型/應(yīng)用程序快速增長的影響。但其優(yōu)先級仍然被排在了許多更為緊迫的問題之后,如服務(wù)器虛擬化和滿足新的和現(xiàn)有的業(yè)務(wù)應(yīng)用程序的需要。
與此同時,一些供應(yīng)商也開始了一些獨辟蹊徑的思路思考如何增加價值。如希捷公司的Kinetic開放存儲平臺,通過一個鍵值存儲實現(xiàn)以太網(wǎng)功能的硬盤,開辟了非常簡單的大規(guī)模存儲系統(tǒng),可以作為大數(shù)據(jù)和基于對象的應(yīng)用程序具有成本效益的后端。
EMC采取了稍微不同的策略,將其VIPR產(chǎn)品作為一款平臺,可以從一個單一的界面管理多款應(yīng)用程序和存儲環(huán)境。雖然其最初是將重點放在傳統(tǒng)的存儲協(xié)議如文件和存儲塊等,現(xiàn)在也支持對象存儲,并也能夠管理Hadoop環(huán)境。
其他的一些存儲企業(yè)也采取了一些類似的舉措,例如Scality和Inktank將文件和對象存儲功能集成到一個平臺,部分原因是由于大量非結(jié)構(gòu)化數(shù)據(jù)駐留在一個共同的存儲庫是奏效的,而不管實際的數(shù)據(jù)訪問方法。
事實上,這些廠商認為集中管理最終將有助于IT經(jīng)理。大數(shù)據(jù),無論是Hadoop或其他技術(shù)的變形,畢竟都只是另一種數(shù)據(jù)類型,都應(yīng)該以同樣的方式對待。
很多IT部門所面臨的一大挑戰(zhàn)是,存儲已經(jīng)分散到太多的筒倉領(lǐng)域,而大數(shù)據(jù)的風(fēng)險在于,其正成為另一個獨立于一切的數(shù)據(jù)孤島,并進一步加劇了整體管理成本。
在這種情況下,我們給存儲廠商的建議是提出了一些創(chuàng)新的技術(shù)解決方案。不幸的是,到目前為止的現(xiàn)實狀況是,這些方法是遠遠領(lǐng)先于市場的,并在很大程度上已經(jīng)成為一個尋找問題的解決方案。
盡管如此,我們?nèi)匀粯酚^的認為存儲最終將在整個大數(shù)據(jù)領(lǐng)域發(fā)揮更突出的作用,但其確切的性質(zhì)和時間表仍有待確定。