企業(yè)要想保持競爭力,就必須比大數(shù)據(jù)分析做的更多。如果不去評估企業(yè)手中的數(shù)據(jù)質(zhì)量,期望的結(jié)果,以及預(yù)計從這種數(shù)據(jù)分析中獲得多少利潤,這將很難正確地找出哪些數(shù)據(jù)科學(xué)項目能夠盈利,哪些不能。
商業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家和偵探類似,去探索未知的事物。不過,當(dāng)他們在這個旅程中冒險的時候,他們很容易落入陷阱。所以要明白,這些錯誤是如何造成的,以及如何避免。
相關(guān)關(guān)系和因果關(guān)系之間的混亂
大部分的數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來理解兩個變量之間的相關(guān)性通常是一個很好的實踐方法,但是,總是使用 “因果”類比可能導(dǎo)致虛假的預(yù)測和無效的決定。要想實現(xiàn)利用大數(shù)據(jù)的最好效果,數(shù)據(jù)科學(xué)家必須理解相關(guān)關(guān)系和根源的區(qū)別。關(guān)聯(lián)往往是指同時觀察X和Y的變化,而因果關(guān)系意味著X導(dǎo)致Y。在數(shù)據(jù)科學(xué),這是兩個完全不同的事情,但是許多數(shù)據(jù)科學(xué)家往往忽視了它們的區(qū)別。
基于相關(guān)性的決定可能足以采取行動,我們不需要知道原因,但這還是完全依賴于數(shù)據(jù)的類型和要解決的問題。每位數(shù)據(jù)科學(xué)家都必須懂得——“數(shù)據(jù)科學(xué)中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個導(dǎo)致了另一個的產(chǎn)生。
沒有選擇合適的可視化工具
大部分的數(shù)據(jù)科學(xué)家專心學(xué)習(xí)于分析的技術(shù)方面。他們不能通過使用不同的可視化技術(shù)理解數(shù)據(jù),即那些可以令他們更快獲得洞察力的技術(shù)。如果數(shù)據(jù)科學(xué)家不能選擇合適的可視化發(fā)展模型,監(jiān)控探索性數(shù)據(jù)分析和表示結(jié)果,那么即使是最好的機器學(xué)習(xí)模型,它的價值也會被稀釋。事實上,許多數(shù)據(jù)科學(xué)家根據(jù)他們的審美選擇圖表類型,而不是考慮數(shù)據(jù)集的特征。這個可以通過定義可視化的目標(biāo)避免。
無問題/計劃的分析
數(shù)據(jù)科學(xué)是一個結(jié)構(gòu)化的過程,以明確的目標(biāo)開始,隨后出現(xiàn)一些假設(shè)的問題,最終實現(xiàn)我們的目標(biāo)。數(shù)據(jù)科學(xué)家往往站在數(shù)據(jù)之上而不考慮那些需要分析回答的問題。數(shù)據(jù)科學(xué)項目必須要有項目目標(biāo)和完美的建模目標(biāo)。數(shù)據(jù)科學(xué)家們?nèi)绻恢浪麄兿胍裁矗罱K的結(jié)果也會差強人意。
為了避免這種情況,數(shù)據(jù)科學(xué)家應(yīng)該集中精力獲得正確的分析結(jié)果,這可以通過明確實驗,變量和數(shù)據(jù)準(zhǔn)確性和清晰明白他們想要從數(shù)據(jù)中獲得什么實現(xiàn)。這將簡化以往通過滿足假設(shè)的統(tǒng)計方法來回答商業(yè)問題的過程。先確定明確的問題是及其重要的,能夠?qū)崿F(xiàn)任何企業(yè)的數(shù)據(jù)科學(xué)目標(biāo)。
僅關(guān)心數(shù)據(jù)
數(shù)據(jù)科學(xué)家常常因為得到來自多個數(shù)據(jù)源的數(shù)據(jù)而興奮,并開始創(chuàng)建圖表和可視化來做分析報告,忽視發(fā)展所需的商業(yè)智慧。這對任何組織來說都是危險的事情。數(shù)據(jù)科學(xué)家經(jīng)常給與數(shù)據(jù)太多決策制定的權(quán)力。他們不夠重視發(fā)展自身商業(yè)智慧,不明白分析如何令企業(yè)獲益。數(shù)據(jù)科學(xué)家應(yīng)該不僅僅讓數(shù)據(jù)說話,而且善于運用自身的智慧。數(shù)據(jù)應(yīng)該是影響決策的因素而不是數(shù)據(jù)科學(xué)項目決策制定的最終聲音。企業(yè)雇傭的數(shù)據(jù)科學(xué)家應(yīng)該是可以將領(lǐng)域知識和技術(shù)特長結(jié)合起來的,這是避免錯誤的理想情況。
忽視可能性
數(shù)據(jù)科學(xué)家經(jīng)常傾向性忘記方案的可能性,這將導(dǎo)致作出更多的錯誤決策。數(shù)據(jù)科學(xué)家經(jīng)常犯錯,因為他們經(jīng)常說,如果企業(yè)采取了X操作一定會實現(xiàn)Y目標(biāo)。對于特定的問題這沒有唯一的答案,因此要確認(rèn)數(shù)據(jù)科學(xué)家從不同可能性中所做的選擇。對指定問題存在不止一個可能性,它們在某種程度是不確定的。情景規(guī)劃和可能性理論是數(shù)據(jù)科學(xué)的兩個基本核心,不應(yīng)該被忽視,應(yīng)該用以確認(rèn)決策制定的準(zhǔn)確性頻率。