本文作者:希捷科技中國區(qū)市場營銷高級總監(jiān) 俞康
日益增長的AI數(shù)據(jù)存儲挑戰(zhàn)
人工智能正在為各行各業(yè)帶來突破,醫(yī)療診斷、財務(wù)建模、自動駕駛汽車和大規(guī)模自動化等都得到革新。然而,AI系統(tǒng)的日益復(fù)雜使得數(shù)據(jù)存儲需求呈指數(shù)級增長,這為可擴(kuò)展性、效率和成本等方面帶來了挑戰(zhàn)。
當(dāng)前,機(jī)器學(xué)習(xí)數(shù)據(jù)集需要PB級的存儲空間,企業(yè)為了跟上不斷發(fā)展的AI模型的步伐,管理著EB級規(guī)模的數(shù)據(jù)集。這些龐大的數(shù)據(jù)集必須被高效地存儲、檢索和處理,以支持模型訓(xùn)練和推理。AI背后的存儲基礎(chǔ)設(shè)施不再僅僅是IT問題——它已經(jīng)成為AI創(chuàng)新的核心驅(qū)動力。
盡管在AI計算方面取得了進(jìn)步,傳統(tǒng)的存儲架構(gòu)在達(dá)到應(yīng)對數(shù)據(jù)高需求GPU的規(guī)模下,會變得復(fù)雜且昂貴,這限制了AI應(yīng)用速度,原因有三:
首先,雖然基于SSD的架構(gòu)能夠提供高性能,但對于AI訓(xùn)練工作負(fù)載所需的海量存儲需求,其購置成本過于高昂。對于大多數(shù)企業(yè)來講,如果將大型數(shù)據(jù)集都存儲在SSD,從成本上看不切實際。
其次,盡管SAS/SATA硬盤系統(tǒng)持續(xù)為許多企業(yè)應(yīng)用提供可靠且成本效益高的存儲,但AI工作負(fù)載對存儲基礎(chǔ)設(shè)施提出了獨(dú)特的要求。SAS/SATA接口依賴于專有的硅芯片、主機(jī)總線適配器(HBAs)和控制器架構(gòu),而這些并非專為滿足AI工作負(fù)載的高吞吐量、低延遲需求而設(shè)計。隨著AI應(yīng)用的擴(kuò)展,這些因素可能會帶來復(fù)雜性和更多延遲,使得AI模型難以快速訪問海量數(shù)據(jù)集。
最后,依賴云存儲的AI工作負(fù)載總會避免不了高昂的廣域網(wǎng)(WAN)數(shù)據(jù)傳輸成本、延遲峰值以及不可預(yù)測的檢索時間。這些低效因素在處理硬件等待遠(yuǎn)程數(shù)據(jù)的過程中,限制了AI模型的響應(yīng)速度并增加了操作成本。
因此,隨著AI的持續(xù)擴(kuò)展,需要一種新的方法——既能增益現(xiàn)有的存儲架構(gòu),又能平衡容量、成本和速度,在無需任何犧牲的情況下支持AI訓(xùn)練和推理。
一種全新方案:用于AI工作負(fù)載的NVMe硬盤
希捷將NVMe技術(shù)引入大容量硬盤,開創(chuàng)了一種變革性的解決方案。通過將NVMe開發(fā)為硬盤連接的未來標(biāo)準(zhǔn)協(xié)議,希捷提供了一種替代方案,旨在優(yōu)化AI數(shù)據(jù)管道、減少存儲瓶頸,同時保持硬盤的可負(fù)擔(dān)性和密度優(yōu)勢。
與基于SAS/SATA的硬盤不同,NVMe硬盤不需要主機(jī)總線適配器(HBA)、協(xié)議橋和額外的SAS基礎(chǔ)設(shè)施,從而使AI存儲更加精簡。這些硬盤通過在統(tǒng)一的NVMe架構(gòu)中集成高密度硬盤存儲與高速SSD緩存,允許AI工作負(fù)載無縫擴(kuò)展。
這種轉(zhuǎn)變將帶來顯著的優(yōu)勢。首先,通過取消與處理器接口的硬件適配器,NVMe硬盤簡化了AI存儲部署,使企業(yè)無需專門的控制器即可構(gòu)建大規(guī)模AI存儲環(huán)境。其次,通過單個NVMe驅(qū)動程序和操作系統(tǒng)堆棧,這些硬盤可確保硬盤與SSD高效協(xié)同工作,無需單獨(dú)的軟件層。
其中一個最關(guān)鍵的優(yōu)勢是通過DPU實現(xiàn)從GPU到存儲的直接數(shù)據(jù)訪問,從而繞過CPU瓶頸。傳統(tǒng)存儲架構(gòu)通過CPU驅(qū)動的管道傳輸數(shù)據(jù),從而產(chǎn)生延遲問題。NVMe硬盤可以消除這種低效,令A(yù)I模型能夠以顯著減少的延遲來提取和處理海量數(shù)據(jù)集。
此外,NVMe over Fabrics(NVMe-oF)使NVMe硬盤能夠集成到分布式AI存儲架構(gòu)中,確保在高性能數(shù)據(jù)中心網(wǎng)絡(luò)中無縫擴(kuò)展。對于需要靈活、可組合的AI工作流存儲解決方案的企業(yè)而言,此功能特別有用。
通過將NVMe硬盤與SSD一起使用,企業(yè)將能夠在保持性能的同時優(yōu)化成本,為活動數(shù)據(jù)集預(yù)留SSD,并使用硬盤進(jìn)行長期AI訓(xùn)練數(shù)據(jù)保留。
驗證未來:希捷NVMe硬盤的概念驗證
為了體現(xiàn)NVMe硬盤潛在現(xiàn)實影響,希捷進(jìn)行了NVMe硬盤、NVMe固態(tài)盤、NVIDIA BlueField數(shù)據(jù)處理單元(DPU)和AIStore軟件集成的概念驗證(POC),展示了高效的AI存儲生態(tài)系統(tǒng)。
該概念驗證重點(diǎn)展示了NVMe硬盤在AI工作流程中的關(guān)鍵優(yōu)勢,并證明它們可以在大規(guī)模AI 存儲環(huán)境中產(chǎn)生重大影響:
? 工程師證明,通過NVMe硬盤和DPU的GPU-存儲直接數(shù)據(jù)傳輸(direct GPU-to-storage communication)有助于減少AI 數(shù)據(jù)工作流中與存儲相關(guān)的延遲。
? 消除了傳統(tǒng)的SAS/SATA額外資源消耗,簡化了系統(tǒng)架構(gòu)并提高了存儲效率。
? AIStore動態(tài)優(yōu)化了緩存和分層,增強(qiáng)了模型訓(xùn)練性能,同時簡化了存儲聚合和實現(xiàn)EB級別的可擴(kuò)展性。
? NVMe-oF集成實現(xiàn)了無縫擴(kuò)展,證明了多機(jī)架AI存儲集群的可組合性。
通過此概念驗證,希捷展示了NVMe硬盤如何在無需全閃存架構(gòu)的情況下,支持世界上最嚴(yán)苛的AI工作負(fù)載。
現(xiàn)實世界的影響:AI存儲正在行動
希捷擁有數(shù)十年在智能工廠中部署AI模型的經(jīng)驗,并正在利用這些經(jīng)驗來驗證NVMe硬盤在現(xiàn)實AI工作負(fù)載中的表現(xiàn)。
在希捷的量子天線生產(chǎn)設(shè)施中,由AI驅(qū)動的缺陷檢測依賴于高速圖像攝取和快速檢索來進(jìn)行模型訓(xùn)練和持續(xù)改進(jìn)。在這種AI賦能生產(chǎn)環(huán)境的實際經(jīng)驗助力下,希捷正在探索NVMe硬盤如何通過提供可擴(kuò)展、經(jīng)濟(jì)高效的存儲,支持實時處理和長期保留,得以實現(xiàn)這一過程:
? 大容量存儲高清圖像,無損數(shù)據(jù)壓縮。
? 高效長期存儲AI訓(xùn)練數(shù)據(jù)集。
? 無縫訪問AI模型再訓(xùn)練和持續(xù)改進(jìn)。
通過研究將NVMe硬盤集成到存儲架構(gòu)中,希捷展示了新技術(shù)如何降低AI存儲成本,同時確保檢測的實時響應(yīng)。新技術(shù)帶來的增益包括更快的AI驅(qū)動分析、更高的準(zhǔn)確性,以及更低的基礎(chǔ)設(shè)施成本。
除了制造業(yè)之外,NVMe硬盤還可應(yīng)用于自動駕駛汽車、醫(yī)療成像、金融分析和超大規(guī)模云AI平臺。
可持續(xù)性與成本節(jié)約:NVMe硬盤的優(yōu)勢
人工智能基礎(chǔ)設(shè)施消耗大量電力,使得可持續(xù)性成為一個日益受到關(guān)注的問題。希捷在NVMe硬盤領(lǐng)域的探索,提供了一種相較于以SSD為主導(dǎo)的架構(gòu)更具成本效益且節(jié)能的解決方案。
與固態(tài)硬盤(SSD)相比,NVMe硬盤將提供以下優(yōu)勢:
? 每TB所含碳足跡減少10倍,顯著降低環(huán)境影響。
? 每TB運(yùn)行功耗降低4倍,從而降低人工智能數(shù)據(jù)中心的能源成本。
? 每TB成本大幅降低,減少了大規(guī)模人工智能存儲的總體擁有成本(TCO)。
隨著人工智能基礎(chǔ)設(shè)施的不斷擴(kuò)展,可持續(xù)存儲將成為降低運(yùn)營成本和環(huán)境影響的關(guān)鍵要素。希捷的開發(fā)路線圖將持續(xù)致力于提升NVMe硬盤的效率,旨在助力企業(yè)在達(dá)成長期可持續(xù)發(fā)展目標(biāo)的同時,能夠?qū)崿F(xiàn)人工智能存儲的大規(guī)模擴(kuò)展,從而在環(huán)保與成本效益之間找到平衡點(diǎn)。
人工智能存儲的未來之路
希捷正在開發(fā)創(chuàng)新技術(shù),以推動下一代支持人工智能的存儲基礎(chǔ)設(shè)施的發(fā)展,這與行業(yè)趨勢以及超大規(guī)模和云計算環(huán)境的需求相契合。其路線圖包括:
? 擴(kuò)展魔彩盒(Mozaic)平臺(目前已推出36TB硬盤),開發(fā)更高容量的NVMe硬盤。
? 推進(jìn)NVMe-oF支持,使人工智能工作負(fù)載能夠無縫地擴(kuò)展到混合環(huán)境中。
? 創(chuàng)建參考架構(gòu),確保人工智能開發(fā)者能夠輕松部署優(yōu)化后的存儲解決方案。
希捷在與客戶及合作伙伴共同探索NVMe硬盤如何融入下一代人工智能存儲解決方案,確保企業(yè)能夠以經(jīng)濟(jì)高效的方式滿足人工智能存儲需求。
希捷對人工智能存儲未來的承諾
人工智能正在改變著各行各業(yè),然而許多企業(yè)卻為數(shù)據(jù)管理的復(fù)雜性和不斷上升的存儲成本而苦惱。可擴(kuò)展且高效的存儲對于推動人工智能創(chuàng)新至關(guān)重要。
希捷的NVMe硬盤展示了如何在保留硬盤成本優(yōu)勢和密度優(yōu)勢的同時,通過NVMe連接降低存儲部署的復(fù)雜性。通過在概念驗證(POC)中實現(xiàn)AIStore集成、NVMe-oF可擴(kuò)展性以及GPU優(yōu)化的存儲路徑,希捷正引領(lǐng)著下一波人工智能基礎(chǔ)設(shè)施創(chuàng)新的浪潮。
隨著人工智能重塑各個行業(yè),希捷也在重新定義人工智能存儲基礎(chǔ)設(shè)施的擴(kuò)展方式,以滿足日益增長的數(shù)據(jù)存儲需求。
關(guān)于希捷
© 2025年希捷科技有限公司。保留所有權(quán)利。于美國印制。Seagate、Seagate Technology和Seagate標(biāo)記是希捷科技有限公司或其附屬公司在美國和/或其它國家的商標(biāo)或注冊商標(biāo)。所有其他商標(biāo)或注冊商標(biāo)歸各自所有者擁有。