文/孫丹,希捷科技全球高級(jí)副總裁暨中國區(qū)總裁
根據(jù)IDC的最新報(bào)告《2021-2025年全球數(shù)據(jù)及存儲(chǔ)領(lǐng)域結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)預(yù)測(cè)(2021年7月)》,超過90%的現(xiàn)有數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),并且在過去十年中大體保持不變。然而,隨著元數(shù)據(jù)的增加,越來越多的非結(jié)構(gòu)化數(shù)據(jù)被“馴服”并進(jìn)入結(jié)構(gòu)化數(shù)據(jù)范疇。
其中有一個(gè)關(guān)鍵的驅(qū)動(dòng)因素,那便是新型軟件的出現(xiàn),它使得非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容能夠得到分析并提供背景信息。舉例來說,視頻分析軟件可以對(duì)文件中的圖像進(jìn)行標(biāo)記,并賦以特定的索引以便存儲(chǔ)和搜索。這聽起來也許稀松平常,實(shí)現(xiàn)起來卻有諸多挑戰(zhàn),但這意味著非結(jié)構(gòu)化數(shù)據(jù)會(huì)變得極具價(jià)值。
我們先來了解幾個(gè)定義。非結(jié)構(gòu)化數(shù)據(jù)是指原始格式的信息,它通常駐留于采集的源頭或附近。非結(jié)構(gòu)化數(shù)據(jù)代表著采集的所有原始數(shù)據(jù)類型,包括尚未編目或分析的數(shù)據(jù)。而結(jié)構(gòu)化數(shù)據(jù)則是有組織的定量數(shù)據(jù),其中最為常見的是數(shù)字?jǐn)?shù)據(jù)和文本數(shù)據(jù),它們以某種標(biāo)準(zhǔn)格式存在于文件或記錄的固定字段中。電子表格或關(guān)系型數(shù)據(jù)庫中駐留的信息是結(jié)構(gòu)化數(shù)據(jù)的典型例子。這種類型的結(jié)構(gòu)使得我們?cè)诓檎姨囟〝?shù)據(jù)或信息組時(shí)能夠簡(jiǎn)便地查詢數(shù)據(jù)。
非結(jié)構(gòu)化信息也稱為定性數(shù)據(jù),也就是說它只是觀察或記錄的信息。舉例來說,工廠的物聯(lián)網(wǎng)(IoT)傳感器采集設(shè)備性能方面的數(shù)據(jù),然后,這些信息被發(fā)送至服務(wù)器,并以非結(jié)構(gòu)化的格式進(jìn)行存儲(chǔ),例如:PDF和視頻文件。
非結(jié)構(gòu)化數(shù)據(jù)的其他例子還包括衛(wèi)星照片、天氣報(bào)告、患者生物信號(hào)數(shù)據(jù),以及尚未以有組織的方式標(biāo)記或編目的視頻圖像。它們的共同點(diǎn)是數(shù)據(jù)均為被動(dòng)采集和傳輸,沒有預(yù)定義的組織格式。當(dāng)非結(jié)構(gòu)化數(shù)據(jù)作為海量數(shù)據(jù)集的一部分進(jìn)行審查和理解時(shí),它非常有助于發(fā)現(xiàn)大規(guī)模的發(fā)展趨勢(shì)和構(gòu)建預(yù)測(cè)模型,但為了業(yè)務(wù)目的而進(jìn)行搜索和分析卻比較困難。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的差異
結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的主要區(qū)別在于格式。非結(jié)構(gòu)化數(shù)據(jù)以其原生格式存儲(chǔ),例如:PDF、視頻和傳感器輸出。結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格以預(yù)定義的形式呈現(xiàn),或者帶有描述它的預(yù)定義能指,以便輕松置入表單、電子表格或關(guān)系型數(shù)據(jù)庫。
非結(jié)構(gòu)化數(shù)據(jù)通常存放于數(shù)據(jù)湖,所謂數(shù)據(jù)湖本質(zhì)上是一個(gè)以各種格式存儲(chǔ)原始數(shù)據(jù)的存儲(chǔ)庫。結(jié)構(gòu)化數(shù)據(jù)則駐留于數(shù)據(jù)倉庫,這種存儲(chǔ)庫只接受按照預(yù)定義規(guī)范格式化的數(shù)據(jù)。數(shù)據(jù)湖是一個(gè)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)庫,但它也可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫只能存儲(chǔ)有組織和格式化的結(jié)構(gòu)化數(shù)據(jù)。
無論是在數(shù)據(jù)湖中還是在數(shù)據(jù)倉庫中,信息都是存儲(chǔ)于某種類型的數(shù)據(jù)庫。其主要區(qū)別在于:結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,以結(jié)構(gòu)化查詢語言(SQL)、PostgreSQL、MongoDB 等組織格式按行列進(jìn)行存儲(chǔ)。這些格式使得用戶或機(jī)器搜索、整理和處理結(jié)構(gòu)化數(shù)據(jù)變得非常簡(jiǎn)便。相比之下,非結(jié)構(gòu)化數(shù)據(jù)則存儲(chǔ)在非關(guān)系型數(shù)據(jù)庫中,例如:NoSQL。
結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理工具和技術(shù)
在分析方式以及處理和操作所需的工具和人員方面,這兩種類型的數(shù)據(jù)也有所不同。非結(jié)構(gòu)化數(shù)據(jù)通常借助數(shù)據(jù)堆疊、數(shù)據(jù)挖掘等技術(shù)進(jìn)行分析,這些技術(shù)可以處理元數(shù)據(jù)并得出較為一般性的結(jié)論。結(jié)構(gòu)化數(shù)據(jù)則多采用數(shù)學(xué)方法進(jìn)行分析,例如:數(shù)據(jù)分類、聚類和回歸分析。在工具和技術(shù)方面,結(jié)構(gòu)化數(shù)據(jù)比較便于管理和使用分析工具。用于處理結(jié)構(gòu)化數(shù)據(jù)的工具示例如下:
· 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)
· 客戶關(guān)系管理(CRM)
· 聯(lián)機(jī)分析處理(OLAP)
· 聯(lián)機(jī)事務(wù)處理(OLTP)
能夠處理多種格式的大型數(shù)據(jù)集的軟件,通常用于管理和分析非結(jié)構(gòu)化數(shù)據(jù)。用于管理非結(jié)構(gòu)化數(shù)據(jù)的工具示例如下:
· NoSQL數(shù)據(jù)庫管理系統(tǒng)(DBMS)
· AI驅(qū)動(dòng)型數(shù)據(jù)分析工具
· 數(shù)據(jù)可視化工具
非結(jié)構(gòu)化數(shù)據(jù)通常需要由訓(xùn)練有素的專家進(jìn)行管理,并且相較于結(jié)構(gòu)化數(shù)據(jù),其軟件處理工具也須具備更高級(jí)的人工智能(AI)和預(yù)測(cè)建模功能。機(jī)器學(xué)習(xí)便是用于分析非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)策略之一。
非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和移動(dòng)
無論是原始的還是經(jīng)過初步處理的視頻圖像,都需要占用大量的存儲(chǔ)空間。這推動(dòng)了以硬盤為中心的大容量存儲(chǔ)系統(tǒng)的需求不斷攀升,而硬盤技術(shù)的持續(xù)發(fā)展也使得進(jìn)一步擴(kuò)大容量成為了可能,從而繼續(xù)提供顯著的總體擁有成本優(yōu)勢(shì)。
在源頭附近訪問非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)需要將其移動(dòng)至各種私有及公共云數(shù)據(jù)中心以用于不同的目的,這種需求也推動(dòng)著封閉、專有、孤立的IT架構(gòu)向開放、可組合、混合式的IT架構(gòu)轉(zhuǎn)變,以便數(shù)據(jù)在分布式企業(yè)范圍內(nèi)自由而高效地移動(dòng)。
大容量存儲(chǔ)系統(tǒng),例如希捷的新型Exos? CORVAULT?,可以將大量的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)于區(qū)域邊緣和數(shù)據(jù)中心環(huán)境。這種高密度的存儲(chǔ)系統(tǒng)可以基于希捷突破性的存儲(chǔ)架構(gòu)提供SAN級(jí)的性能,該架構(gòu)融合了第六代VelosCT? ASIC、ADAPT糾刪碼數(shù)據(jù)保護(hù)和硬盤自主重建功能。
此外,希捷的新型Lyve Mobile等模塊化存儲(chǔ)解決方案還提供了一種更好的方式,通過道路運(yùn)輸將大量數(shù)據(jù)從一個(gè)存儲(chǔ)位置物理移動(dòng)至另一個(gè)存儲(chǔ)位置。
結(jié)論
目前,兩種類型的數(shù)據(jù)各有用途。非結(jié)構(gòu)化數(shù)據(jù)是設(shè)備或軟件的原始輸出,這些采集來的信息以原始格式移動(dòng)至數(shù)據(jù)湖。結(jié)構(gòu)化數(shù)據(jù)以數(shù)字或文本格式進(jìn)行組織,可以按預(yù)定義的參數(shù)進(jìn)行編目、組織、重組和分析。
中國互聯(lián)網(wǎng)行業(yè)正在處于高速發(fā)展期,根據(jù)國際數(shù)據(jù)公司(IDC)預(yù)測(cè),到2023年,中國的數(shù)據(jù)量將達(dá)到40ZB,其中80%超過是非結(jié)構(gòu)化數(shù)據(jù)。釋放非結(jié)構(gòu)化數(shù)據(jù)背后的價(jià)值成為國內(nèi)互聯(lián)網(wǎng)企業(yè)角逐的目標(biāo)。隨著越來越多的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)入結(jié)構(gòu)化IT環(huán)境,尤其是來自于大量物聯(lián)網(wǎng)設(shè)備的流媒體數(shù)據(jù)和大量的標(biāo)記視頻數(shù)據(jù),機(jī)構(gòu)有機(jī)會(huì)將這些數(shù)據(jù)轉(zhuǎn)化成為信息和知識(shí)。當(dāng)非結(jié)構(gòu)化數(shù)據(jù)作為海量數(shù)據(jù)集的一部分進(jìn)行審查和理解時(shí),非常有助于發(fā)現(xiàn)大規(guī)模的發(fā)展趨勢(shì)和構(gòu)建預(yù)測(cè)模型。具有遠(yuǎn)見卓識(shí)的人們可以從中獲取全新的、創(chuàng)新的洞察力,以推出新產(chǎn)品和新服務(wù),從而充分挖掘這口蘊(yùn)藏豐富的智慧之井。