科技營銷緊跟正在上升的有力潮流來盈利,這是個長期公認的做法。在互聯(lián)網(wǎng)熱潮(.com boom)時期,和互聯(lián)網(wǎng)一點兒關系沒有的公司都在名字里加上了“.com”。環(huán)保產(chǎn)品滿身綠色。云端產(chǎn)品都和“云”貼邊?,F(xiàn)在又興起用大數(shù)據(jù)來貼金。
這些夸張的手段是否弊大于利呢?也許因為營銷中利用了“大數(shù)據(jù)”這個詞,人們能去接觸并了解一個不然他們不會去考慮的產(chǎn)品。但這個伎倆幾乎騙不了誰,并且會讓用偽大數(shù)據(jù)技術的用戶抓狂。
大數(shù)據(jù)分析平臺廠商Platfora引起了Luth Research調(diào)查大數(shù)據(jù)分析市場現(xiàn)狀的興趣。他們的調(diào)查問卷直接問回答者他們是否把小數(shù)據(jù)產(chǎn)品換了個包裝說成是大數(shù)據(jù)產(chǎn)品;55%回答了是。大約一半 的回答者稱他們不得不把大數(shù)據(jù)分成小份來分析,并且小數(shù)據(jù)產(chǎn)品用在大數(shù)據(jù)上是不太成功的。Luth Research分析結論是:“不好用的大數(shù)據(jù)分析工具影響士氣。對他們用的工具不滿意的回答者更傾向于用壓力大、令人沮喪、浪費時間這種詞來形容他們的 大數(shù)據(jù)分析體驗。”(更多Luth Research的細節(jié)請參見這個圖。)
“你總用那個詞(大數(shù)據(jù))。我不認為它和你想的意思一樣。”
我的觀點是如果一個公司把它本質(zhì)不是大數(shù)據(jù)的產(chǎn)品定位成大數(shù)據(jù)產(chǎn)品那就是在自砸招牌。今年早些時候,我為DataRPM寫了些東西,DataRPM有非常好的產(chǎn)品,我在下面這些文章中寫過它們:“為何自動語義能夠解決商務智能面板危機”,“語義是如何把數(shù)據(jù)分析做得像Google搜索一樣的”。自從我認識他們起,我就建議他們大數(shù)據(jù)不是描述他們的產(chǎn)品價值的正確用詞。但在最近的廣告上我看見DataRPM用“大數(shù)據(jù)公司”來描述他們自己。
DataRPM通過自然語言,自動創(chuàng)建面板及對數(shù)據(jù)進行語義建模來解決頂層漏斗形商業(yè)智能問題(“為何頂層漏斗形商業(yè)智能會引領新潮流”)。 沒受過訓練的用戶也可以嘗試通過用自然語言問問題在DataRPM上試水。根據(jù)問題會生成新的面板。通過增加更多的語言,這個面板可以被細化。這樣一來, 用戶可以找到他們并不知道的數(shù)據(jù)集。一般公司中,只有30%人接觸到商業(yè)智能,通過利用DataRPM這樣的產(chǎn)品,可以極大地提高這一比例。
但是這個和大數(shù)據(jù)有啥關系呢?也許勉強可以說DataRPM能從大數(shù)據(jù)庫中進行查詢吧。但是通過表單也可以做呀。表單是大數(shù)據(jù)技術么?一摞紙是大數(shù)據(jù)技術么?我認為DataRPM為了和大數(shù)據(jù)貼邊的做法反而掩蓋了它真正的價值。
Qlik和Tableau和大數(shù)據(jù)公司都有很多合作并且經(jīng)常被用來處理大數(shù)據(jù),但是他們的市場營銷都看重他們的核心價值即輔助數(shù)據(jù)的探索和發(fā)現(xiàn)過程。Looker是這個領域的新秀,他們獨特的探索發(fā)現(xiàn)方法已經(jīng)有了一些活躍的初期用戶,但是他們非要在產(chǎn)品介紹頁面上寫上一段他們的產(chǎn)品能“解開大型數(shù)據(jù)集的迷”。
從這方面來說,Platfora提供了更簡單的數(shù)據(jù)讀取方式。Platfora的主要功能是把Hadoop里的各種各樣的數(shù)據(jù)提供給更廣泛的用戶。 使用Hadoop說明他們和大數(shù)據(jù)是緊密相連的。但是Platfora沒把大數(shù)據(jù)當成重點。Platfora的秘方是向數(shù)據(jù)分析者開放端對端的數(shù)據(jù)轉(zhuǎn)換和 處理。他們的目標是:解決IT造成的瓶頸。現(xiàn)在通過Hadoop進來的數(shù)據(jù)很大,Platfora看重它理所應當,但我猜想將來Platfora應該能夠 在各種各樣的數(shù)據(jù)庫中一展身手。
Platfora的創(chuàng)始人兼CEO Ben Werther說“我認為,當新的大量的數(shù)據(jù)集被包含進來、能夠更能讓你掌握模式和結果的聯(lián)系被簡歷起來的時候,數(shù)據(jù)分析就變成了大數(shù)據(jù)分析。當你合并了 如用戶交互、交易和機器數(shù)據(jù)這些通常屬于不同體系的部分的時候,你就來到了大數(shù)據(jù)時代。我認為讓每個商業(yè)分析員都能夠不怕IT瓶頸而問出有意義的問題是一 個嚴峻的挑戰(zhàn)。”
說到底,大數(shù)據(jù)到底是啥意思呢?
Luth Research的報告驗證了Werther的觀點?;卮鹫弑粏柕搅擞嘘P下面這些能力的問題:
指定小時數(shù)/天數(shù)內(nèi)的結果
不使用IT技術來添加數(shù)據(jù)源
迭代分析
獲取數(shù)據(jù)源訪問
不需要把數(shù)據(jù)分成小塊
分享結果的簡易成都
不使用IT來做分析
數(shù)據(jù)放在集中式數(shù)據(jù)庫內(nèi)
處理任何數(shù)量級的數(shù)據(jù)
自動實時的分析
能方便地加入新數(shù)據(jù)集
可視化的結論
分析不同種類的數(shù)據(jù)
超過半數(shù)的大數(shù)據(jù)分析產(chǎn)品用戶稱他們有上述所有的能力。計劃使用大數(shù)據(jù)產(chǎn)品的用戶中有四分之一有上述的能力。注意上面和大數(shù)據(jù)有嚴密關聯(lián)的只有幾項而已。大多數(shù)不過是更好的商業(yè)智能技術罷了。
那么偽大數(shù)據(jù)技術究竟是什么呢?是并不能把大的數(shù)據(jù)集廣泛讓人們使用或不能幫助數(shù)據(jù)科學家有新突破的技術。就DataRPM來說,他們的技術也許是很不錯的,但它并不是大數(shù)據(jù)技術。
那什么是真的大數(shù)據(jù)技術呢?是超贊的能夠讓人更容易地有意義地使用大數(shù)據(jù)。換句話說,大數(shù)據(jù)就是說一個東西很好并且能處理大量的數(shù)據(jù)。想要分辨真假 大數(shù)據(jù)技術的話,當一個零售商向你推銷他們的故事的時候你可以問他這個技術是否能幫你爸媽使用大數(shù)據(jù),或者數(shù)據(jù)科學家是否能用它來做以前做不到的事。如果 兩樣它都可以,那才可以被稱作大數(shù)據(jù)技術。如果不能,但你認為該技術也不錯,那就只能管它叫商業(yè)智能。