日益增長(zhǎng)的AI數(shù)據(jù)存儲(chǔ)挑戰(zhàn)
人工智能正在為各行各業(yè)帶來(lái)突破,醫(yī)療診斷、財(cái)務(wù)建模、自動(dòng)駕駛汽車和大規(guī)模自動(dòng)化等都得到革新。然而,AI系統(tǒng)的日益復(fù)雜使得數(shù)據(jù)存儲(chǔ)需求呈指數(shù)級(jí)增長(zhǎng),這為可擴(kuò)展性、效率和成本等方面帶來(lái)了挑戰(zhàn)。
當(dāng)前,機(jī)器學(xué)習(xí)數(shù)據(jù)集需要PB級(jí)的存儲(chǔ)空間,企業(yè)為了跟上不斷發(fā)展的AI模型的步伐,管理著EB級(jí)規(guī)模的數(shù)據(jù)集。這些龐大的數(shù)據(jù)集必須被高效地存儲(chǔ)、檢索和處理,以支持模型訓(xùn)練和推理。AI背后的存儲(chǔ)基礎(chǔ)設(shè)施不再僅僅是IT問(wèn)題——它已經(jīng)成為AI創(chuàng)新的核心驅(qū)動(dòng)力。
盡管在AI計(jì)算方面取得了進(jìn)步,傳統(tǒng)的存儲(chǔ)架構(gòu)在達(dá)到應(yīng)對(duì)數(shù)據(jù)高需求GPU的規(guī)模下,會(huì)變得復(fù)雜且昂貴,這限制了AI應(yīng)用速度,原因有三:
首先,雖然基于SSD的架構(gòu)能夠提供高性能,但對(duì)于AI訓(xùn)練工作負(fù)載所需的海量存儲(chǔ)需求,其購(gòu)置成本過(guò)于高昂。對(duì)于大多數(shù)企業(yè)來(lái)講,如果將大型數(shù)據(jù)集都存儲(chǔ)在SSD,從成本上看不切實(shí)際。
其次,盡管SAS/SATA硬盤系統(tǒng)持續(xù)為許多企業(yè)應(yīng)用提供可靠且成本效益高的存儲(chǔ),但AI工作負(fù)載對(duì)存儲(chǔ)基礎(chǔ)設(shè)施提出了獨(dú)特的要求。SAS/SATA接口依賴于專有的硅芯片、主機(jī)總線適配器(HBAs)和控制器架構(gòu),而這些并非專為滿足AI工作負(fù)載的高吞吐量、低延遲需求而設(shè)計(jì)。隨著AI應(yīng)用的擴(kuò)展,這些因素可能會(huì)帶來(lái)復(fù)雜性和更多延遲,使得AI模型難以快速訪問(wèn)海量數(shù)據(jù)集。
最后,依賴云存儲(chǔ)的AI工作負(fù)載總會(huì)避免不了高昂的廣域網(wǎng)(WAN)數(shù)據(jù)傳輸成本、延遲峰值以及不可預(yù)測(cè)的檢索時(shí)間。這些低效因素在處理硬件等待遠(yuǎn)程數(shù)據(jù)的過(guò)程中,限制了AI模型的響應(yīng)速度并增加了操作成本。
因此,隨著AI的持續(xù)擴(kuò)展,需要一種新的方法——既能增益現(xiàn)有的存儲(chǔ)架構(gòu),又能平衡容量、成本和速度,在無(wú)需任何犧牲的情況下支持AI訓(xùn)練和推理。
一種全新方案:用于AI工作負(fù)載的NVMe硬盤
希捷將NVMe技術(shù)引入大容量硬盤,開(kāi)創(chuàng)了一種變革性的解決方案。通過(guò)將NVMe開(kāi)發(fā)為硬盤連接的未來(lái)標(biāo)準(zhǔn)協(xié)議,希捷提供了一種替代方案,旨在優(yōu)化AI數(shù)據(jù)管道、減少存儲(chǔ)瓶頸,同時(shí)保持硬盤的可負(fù)擔(dān)性和密度優(yōu)勢(shì)。
與基于SAS/SATA的硬盤不同,NVMe硬盤不需要主機(jī)總線適配器(HBA)、協(xié)議橋和額外的SAS基礎(chǔ)設(shè)施,從而使AI存儲(chǔ)更加精簡(jiǎn)。這些硬盤通過(guò)在統(tǒng)一的NVMe架構(gòu)中集成高密度硬盤存儲(chǔ)與高速SSD緩存,允許AI工作負(fù)載無(wú)縫擴(kuò)展。
這種轉(zhuǎn)變將帶來(lái)顯著的優(yōu)勢(shì)。首先,通過(guò)取消與處理器接口的硬件適配器,NVMe硬盤簡(jiǎn)化了AI存儲(chǔ)部署,使企業(yè)無(wú)需專門的控制器即可構(gòu)建大規(guī)模AI存儲(chǔ)環(huán)境。其次,通過(guò)單個(gè)NVMe驅(qū)動(dòng)程序和操作系統(tǒng)堆棧,這些硬盤可確保硬盤與SSD高效協(xié)同工作,無(wú)需單獨(dú)的軟件層。
其中一個(gè)最關(guān)鍵的優(yōu)勢(shì)是通過(guò)DPU實(shí)現(xiàn)從GPU到存儲(chǔ)的直接數(shù)據(jù)訪問(wèn),從而繞過(guò)CPU瓶頸。傳統(tǒng)存儲(chǔ)架構(gòu)通過(guò)CPU驅(qū)動(dòng)的管道傳輸數(shù)據(jù),從而產(chǎn)生延遲問(wèn)題。NVMe硬盤可以消除這種低效,令A(yù)I模型能夠以顯著減少的延遲來(lái)提取和處理海量數(shù)據(jù)集。
此外,NVMe over Fabrics(NVMe-oF)使NVMe硬盤能夠集成到分布式AI存儲(chǔ)架構(gòu)中,確保在高性能數(shù)據(jù)中心網(wǎng)絡(luò)中無(wú)縫擴(kuò)展。對(duì)于需要靈活、可組合的AI工作流存儲(chǔ)解決方案的企業(yè)而言,此功能特別有用。
通過(guò)將NVMe硬盤與SSD一起使用,企業(yè)將能夠在保持性能的同時(shí)優(yōu)化成本,為活動(dòng)數(shù)據(jù)集預(yù)留SSD,并使用硬盤進(jìn)行長(zhǎng)期AI訓(xùn)練數(shù)據(jù)保留。
驗(yàn)證未來(lái):希捷NVMe硬盤的概念驗(yàn)證
為了體現(xiàn)NVMe硬盤潛在現(xiàn)實(shí)影響,希捷進(jìn)行了NVMe硬盤、NVMe固態(tài)盤、NVIDIA BlueField數(shù)據(jù)處理單元(DPU)和AIStore軟件集成的概念驗(yàn)證(POC),展示了高效的AI存儲(chǔ)生態(tài)系統(tǒng)。
該概念驗(yàn)證重點(diǎn)展示了NVMe硬盤在AI工作流程中的關(guān)鍵優(yōu)勢(shì),并證明它們可以在大規(guī)模AI 存儲(chǔ)環(huán)境中產(chǎn)生重大影響:
◆ 工程師證明,通過(guò)NVMe硬盤和DPU的GPU-存儲(chǔ)直接數(shù)據(jù)傳輸(direct GPU-to-storage communication)有助于減少AI 數(shù)據(jù)工作流中與存儲(chǔ)相關(guān)的延遲。
◆ 消除了傳統(tǒng)的SAS/SATA額外資源消耗,簡(jiǎn)化了系統(tǒng)架構(gòu)并提高了存儲(chǔ)效率。
◆ AIStore動(dòng)態(tài)優(yōu)化了緩存和分層,增強(qiáng)了模型訓(xùn)練性能,同時(shí)簡(jiǎn)化了存儲(chǔ)聚合和實(shí)現(xiàn)EB級(jí)別的可擴(kuò)展性。
◆ NVMe-oF集成實(shí)現(xiàn)了無(wú)縫擴(kuò)展,證明了多機(jī)架AI存儲(chǔ)集群的可組合性。
通過(guò)此概念驗(yàn)證,希捷展示了NVMe硬盤如何在無(wú)需全閃存架構(gòu)的情況下,支持世界上最嚴(yán)苛的AI工作負(fù)載。
現(xiàn)實(shí)世界的影響:AI存儲(chǔ)正在行動(dòng)
希捷擁有數(shù)十年在智能工廠中部署AI模型的經(jīng)驗(yàn),并正在利用這些經(jīng)驗(yàn)來(lái)驗(yàn)證NVMe硬盤在現(xiàn)實(shí)AI工作負(fù)載中的表現(xiàn)。
在希捷的量子天線生產(chǎn)設(shè)施中,由AI驅(qū)動(dòng)的缺陷檢測(cè)依賴于高速圖像攝取和快速檢索來(lái)進(jìn)行模型訓(xùn)練和持續(xù)改進(jìn)。在這種AI賦能生產(chǎn)環(huán)境的實(shí)際經(jīng)驗(yàn)助力下,希捷正在探索NVMe硬盤如何通過(guò)提供可擴(kuò)展、經(jīng)濟(jì)高效的存儲(chǔ),支持實(shí)時(shí)處理和長(zhǎng)期保留,得以實(shí)現(xiàn)這一過(guò)程:
◆ 大容量存儲(chǔ)高清圖像,無(wú)損數(shù)據(jù)壓縮。
◆ 高效長(zhǎng)期存儲(chǔ)AI訓(xùn)練數(shù)據(jù)集。
◆ 無(wú)縫訪問(wèn)AI模型再訓(xùn)練和持續(xù)改進(jìn)。
通過(guò)研究將NVMe硬盤集成到存儲(chǔ)架構(gòu)中,希捷展示了新技術(shù)如何降低AI存儲(chǔ)成本,同時(shí)確保檢測(cè)的實(shí)時(shí)響應(yīng)。新技術(shù)帶來(lái)的增益包括更快的AI驅(qū)動(dòng)分析、更高的準(zhǔn)確性,以及更低的基礎(chǔ)設(shè)施成本。
除了制造業(yè)之外,NVMe硬盤還可應(yīng)用于自動(dòng)駕駛汽車、醫(yī)療成像、金融分析和超大規(guī)模云AI平臺(tái)。
可持續(xù)性與成本節(jié)約:NVMe硬盤的優(yōu)勢(shì)
人工智能基礎(chǔ)設(shè)施消耗大量電力,使得可持續(xù)性成為一個(gè)日益受到關(guān)注的問(wèn)題。希捷在NVMe硬盤領(lǐng)域的探索,提供了一種相較于以SSD為主導(dǎo)的架構(gòu)更具成本效益且節(jié)能的解決方案。
與固態(tài)硬盤(SSD)相比,NVMe硬盤將提供以下優(yōu)勢(shì):
◆ 每TB所含碳足跡減少10倍,顯著降低環(huán)境影響。
◆ 每TB運(yùn)行功耗降低4倍,從而降低人工智能數(shù)據(jù)中心的能源成本。
◆ 每TB成本大幅降低,減少了大規(guī)模人工智能存儲(chǔ)的總體擁有成本(TCO)。
隨著人工智能基礎(chǔ)設(shè)施的不斷擴(kuò)展,可持續(xù)存儲(chǔ)將成為降低運(yùn)營(yíng)成本和環(huán)境影響的關(guān)鍵要素。希捷的開(kāi)發(fā)路線圖將持續(xù)致力于提升NVMe硬盤的效率,旨在助力企業(yè)在達(dá)成長(zhǎng)期可持續(xù)發(fā)展目標(biāo)的同時(shí),能夠?qū)崿F(xiàn)人工智能存儲(chǔ)的大規(guī)模擴(kuò)展,從而在環(huán)保與成本效益之間找到平衡點(diǎn)。
人工智能存儲(chǔ)的未來(lái)之路
希捷正在開(kāi)發(fā)創(chuàng)新技術(shù),以推動(dòng)下一代支持人工智能的存儲(chǔ)基礎(chǔ)設(shè)施的發(fā)展,這與行業(yè)趨勢(shì)以及超大規(guī)模和云計(jì)算環(huán)境的需求相契合。其路線圖包括:
◆ 擴(kuò)展魔彩盒(Mozaic)平臺(tái)(目前已推出36TB硬盤),開(kāi)發(fā)更高容量的NVMe硬盤。
◆ 推進(jìn)NVMe-oF支持,使人工智能工作負(fù)載能夠無(wú)縫地?cái)U(kuò)展到混合環(huán)境中。
◆ 創(chuàng)建參考架構(gòu),確保人工智能開(kāi)發(fā)者能夠輕松部署優(yōu)化后的存儲(chǔ)解決方案。
希捷在與客戶及合作伙伴共同探索NVMe硬盤如何融入下一代人工智能存儲(chǔ)解決方案,確保企業(yè)能夠以經(jīng)濟(jì)高效的方式滿足人工智能存儲(chǔ)需求。
希捷對(duì)人工智能存儲(chǔ)未來(lái)的承諾
人工智能正在改變著各行各業(yè),然而許多企業(yè)卻為數(shù)據(jù)管理的復(fù)雜性和不斷上升的存儲(chǔ)成本而苦惱??蓴U(kuò)展且高效的存儲(chǔ)對(duì)于推動(dòng)人工智能創(chuàng)新至關(guān)重要。
希捷的NVMe硬盤展示了如何在保留硬盤成本優(yōu)勢(shì)和密度優(yōu)勢(shì)的同時(shí),通過(guò)NVMe連接降低存儲(chǔ)部署的復(fù)雜性。通過(guò)在概念驗(yàn)證(POC)中實(shí)現(xiàn)AIStore集成、NVMe-oF可擴(kuò)展性以及GPU優(yōu)化的存儲(chǔ)路徑,希捷正引領(lǐng)著下一波人工智能基礎(chǔ)設(shè)施創(chuàng)新的浪潮。
隨著人工智能重塑各個(gè)行業(yè),希捷也在重新定義人工智能存儲(chǔ)基礎(chǔ)設(shè)施的擴(kuò)展方式,以滿足日益增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求。