狂飆一年,算法進(jìn)步和應(yīng)用落地的爆發(fā),讓中國云計算廠商感受著切實(shí)的變化" />
訂閱
糾錯
加入自媒體

AIGC時代,需要什么樣的云存儲?

文|白    鴿

編|王一粟

AIGC狂飆一年,算法進(jìn)步和應(yīng)用落地的爆發(fā),讓中國云計算廠商感受著切實(shí)的變化。

“今年一季度,大模型企業(yè)在云存儲的消耗同比在增加。”

4月8日,在騰訊云AIGC云存儲解決方案升級發(fā)布會上,騰訊云存儲總經(jīng)理馬文霜同時預(yù)計,今年AIGC對于云端的調(diào)用量一定是爆發(fā)式的增長。

馬文霜還開半玩笑地說,“可能這些企業(yè)拿到的投資更多了”。

隨著多模態(tài)技術(shù)的進(jìn)化和落地應(yīng)用的逐漸爆發(fā),讓大模型的訓(xùn)練和推理迎來了一些新的挑戰(zhàn)。

事實(shí)上,從語言和圖像為主的GPT,到視頻生成模型Sora,大模型參數(shù)正在指數(shù)級增長。比如ChatGPT在GPT-2時是10億參數(shù)量,到現(xiàn)在GPT-4已經(jīng)有1.8萬億參數(shù)。Sora為主的多模態(tài)技術(shù),更會讓需要處理的數(shù)據(jù)量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時代。

參數(shù)越大,對云存儲的需求就會越高,包括云存儲的數(shù)據(jù)量以及吞吐量等,如果云存儲能力不能夠滿足大模型的需求,則會直接影響到大模型的訓(xùn)練速度和推理效率。

在大模型加速發(fā)展的階段,大模型企業(yè)也越來越重視云存儲這一重要的底層基礎(chǔ)設(shè)施能力。但AIGC時代,究竟需要什么樣的云存儲技術(shù)?

AIGC數(shù)據(jù)訓(xùn)練的新需求

云存儲的新挑戰(zhàn)

“內(nèi)卷”之下,大模型企業(yè)開始拼算力、拼參數(shù),更拼大模型的更新速度。

如百川智能,前期平均一個月發(fā)布升級一款大模型,百度文心一言在發(fā)布之初,甚至一個月內(nèi)就完成了4次技術(shù)版本的升級。

想要保持大模型的更新頻率和速度,就要保證整個大模型數(shù)據(jù)訓(xùn)練過程的高效,其中某一個環(huán)節(jié)出現(xiàn)問題,就可能會拉長整個訓(xùn)練時長,增加訓(xùn)練成本。

因此,作為整個大模型數(shù)據(jù)訓(xùn)練的底座,云存儲的重要性日益凸顯。那么,AIGC時代到底需要什么樣的云存儲技術(shù)?

存儲作為數(shù)據(jù)的載體,現(xiàn)如今已經(jīng)不僅僅只承擔(dān)“存”的作用,更需要打通數(shù)據(jù)從“存”到“用”的最后一公里。

始于19年前QQ空間的騰訊云存儲,如今在國內(nèi)云廠商中存儲能力一直處于領(lǐng)導(dǎo)者象限(沙利文報告),他們的做法對行業(yè)頗有借鑒意義。

馬文霜向光錐智能提到,在AIGC數(shù)據(jù)訓(xùn)練的4個環(huán)節(jié)中,存儲需要提供的具體能力,包括:

數(shù)據(jù)采集階段,需要一個大容量、低成本、高可靠的數(shù)據(jù)存儲底座;

數(shù)據(jù)清洗階段,需要提供更多協(xié)議的支持,以及至少GB甚至TB級的數(shù)據(jù)訪問性能;

數(shù)據(jù)訓(xùn)練階段,作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié),則需要一個TB級的帶寬存儲保證訓(xùn)練過程中Checkpoint能夠快速保存,以便于保障訓(xùn)練的連續(xù)性和提升CPU的有效使用時長,也需要存儲提供百萬級IOPS能力,來保證訓(xùn)練時海量小樣本讀取不會成為訓(xùn)練瓶頸;

數(shù)據(jù)應(yīng)用階段,則需要存儲提供比較豐富的數(shù)據(jù)審核能力,來滿足鑒黃、鑒暴等安全合規(guī)的訴求,保證大模型生成的內(nèi)容以合法、合規(guī)的方式使用;

在這4個環(huán)節(jié)中,騰訊云AIGC云存儲解決方案,分別由4款產(chǎn)品提供專屬服務(wù),包括對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI。

而這次騰訊云存儲面向AIGC場景的升級,就是基于上述4款產(chǎn)品將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升1倍,整體訓(xùn)練時長縮短一半。

首先,在數(shù)據(jù)采集環(huán)節(jié),基于自研的對象存儲引擎YottaStore,騰訊云對象存儲COS可支持單集群管理百EB級別存儲規(guī)模,多種協(xié)議和不同數(shù)據(jù)公網(wǎng)接入能力,可以讓采集的原始數(shù)據(jù)便捷入湖。

數(shù)據(jù)清洗環(huán)節(jié),COS訪問鏈路比較長,數(shù)據(jù)讀取效率并不高,所以騰訊云在這中間添加了一層自研的數(shù)據(jù)加速器GooseFS。

COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能,可實(shí)現(xiàn)高達(dá)數(shù)TBps的讀取帶寬,提供亞毫秒級的數(shù)據(jù)訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。

“這讓單次數(shù)據(jù)清洗任務(wù)耗時減少一半。”馬文霜說道。

相比采集和清潔,大模型的訓(xùn)練則更加耗時,短則數(shù)周、長則數(shù)月,這期間如果任何一個CPU/GPU的節(jié)點(diǎn)掉線,都會導(dǎo)致整個訓(xùn)練前功盡棄。

業(yè)內(nèi)通常會采用2~4個小時保存一次訓(xùn)練成果,即Checkpoint(檢查點(diǎn)),以便能在GPU故障時能回滾。

此時則需要將保存的Checkpoint時間縮短到越短越好,但數(shù)千上萬個節(jié)點(diǎn)都需要保存Checkpoint,這就對文件存儲的讀寫吞吐提出了非常高的要求。

馬文霜表示:“兩年前我們發(fā)布高性能并行文件存儲CFS Turbo第一個版本,是100GB的讀寫吞吐,當(dāng)時覺得這個讀寫吞吐已經(jīng)足夠大,很多業(yè)務(wù)用不到。但去年大模型出來以后,用CFS Turbo再去寫Checkpoint,我們發(fā)現(xiàn)100G還遠(yuǎn)遠(yuǎn)不夠。”

CFS Turbo底層技術(shù)來自于騰訊云自研的引擎Histor。此次升級,騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫入時間從10分鐘,縮短至10秒內(nèi),時間降低90%,大幅提升大模型訓(xùn)練效率。

針對數(shù)據(jù)訪問延遲問題,騰訊云引擎Histor可支持單個節(jié)點(diǎn)GPU與所有存儲節(jié)點(diǎn)進(jìn)行通信,進(jìn)行并行數(shù)據(jù)訪問。“另外,我們通過RDMA(遠(yuǎn)程直接地址訪問)等技術(shù)不斷優(yōu)化數(shù)據(jù)訪問延遲,縮短IO路徑,最終可做到亞毫秒級訪問延遲。”馬文霜說道。

同時,騰訊云Histor還可以將元數(shù)據(jù)目錄打散至所有存儲節(jié)點(diǎn)上,提供線性擴(kuò)張能力,從而實(shí)現(xiàn)文件打開、讀取、刪除的百萬級IOPS能力。

應(yīng)用階段,大模型推理場景則對數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬象CI是一站式內(nèi)容治理服務(wù)平臺,它可以對AI生成的內(nèi)容進(jìn)行一站式管理,可以提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。

此次升級,騰訊云重點(diǎn)講述了智能數(shù)據(jù)檢索MetaInsight,其能夠基于大模型和向量數(shù)據(jù)庫進(jìn)行跨模態(tài)搜索服務(wù),也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶快速鎖定目標(biāo)內(nèi)容,提升審核效率。

基于這套AIGC云存儲技術(shù)底座,騰訊云存儲總經(jīng)理陳崢表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。

目前,除騰訊自己的混元大模型,數(shù)據(jù)顯示,已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。

而針對解決方案升級后的產(chǎn)品價格,馬文霜則表示,“不會有變化”。在阿里云和京東云都宣布降價時,騰訊云并沒有選擇降價,而是“加量不加價”。

“穩(wěn)定性、高性能,以及性價比,是大模型時代云存儲的核心。”騰訊云智能存儲總監(jiān)葉嘉梁說道。

當(dāng)然,在AIGC時代,云廠商都想抓住這一次用云需求爆發(fā)的機(jī)會。除了騰訊云外,阿里云、華為云等其他云廠商在AIGC云存儲領(lǐng)域也都有相應(yīng)的布局。

比如2023年,華為云針對大模型時代的云存儲發(fā)布了OceanStor A310 深度學(xué)習(xí)數(shù)據(jù)湖存儲和FusionCube A3000 訓(xùn)/推超融合一體機(jī)兩款產(chǎn)品。

阿里云面向AI時代的云存儲解決方案,也覆蓋了底層對象存儲 OSS數(shù)據(jù)湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務(wù)以及智能媒體管理IMM平臺等產(chǎn)品。

可以看到,圍繞AIGC的需求,云廠商在云存儲領(lǐng)域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優(yōu)勢。

云存儲技術(shù)僅是云計算眾多底層核心技術(shù)之一,隨著大模型深度發(fā)展,云廠商們已經(jīng)開始在整個PaaS層、IaaS層、MaaS層,都在圍繞AIGC進(jìn)行迭代升級,為行業(yè)提供全鏈路大模型云服務(wù)。

云廠商狂飆

爭做“最適合大模型”的云

云已經(jīng)成為大模型的最佳載體,大模型也正在重塑云服務(wù)的形態(tài)。

馬文霜認(rèn)為,云上豐富的資源、計算、存儲、網(wǎng)絡(luò)、容器技術(shù)和PaaS,都能夠解決AIGC在各個環(huán)節(jié)上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持,讓客戶可以聚焦在自己產(chǎn)品競爭力的方向進(jìn)行開發(fā),加速整體研發(fā)效率以及應(yīng)用落地的速度。

面對AIGC帶來的大模型發(fā)展浪潮,騰訊集團(tuán)副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開創(chuàng)下一代云服務(wù),騰訊云要打造“最適合大模型的云”。

自從大模型熱潮爆發(fā)以來,騰訊云在大模型業(yè)務(wù)推出上不是最快的一個,但卻是最扎實(shí)的一個。

在2023年9月的騰訊全球數(shù)字生態(tài)大會上,騰訊云面向AIGC場景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、向量數(shù)據(jù)庫以及行業(yè)大模型的MaaS服務(wù)。

也就是說,騰訊云從底層智算能力,到中間件,再到上層MaaS,已經(jīng)實(shí)現(xiàn)了全鏈路大模型云化能力升級迭代,每個業(yè)務(wù)都很務(wù)實(shí)。

比如,針對大模型對算力的迫切需求,騰訊云高性能計算集群HCC為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網(wǎng)絡(luò),能提升40%GPU利用率,節(jié)省30%~60%模型訓(xùn)練成本,提升AI大模型10倍通信性能。利用星星海自研服務(wù)器的6U超高密度設(shè)計和并行計算理念,確保高性能計算。

針對在中間層對數(shù)據(jù)調(diào)度應(yīng)用的需求,騰訊云向量數(shù)據(jù)庫,可為多維向量數(shù)據(jù)提供高效存儲、檢索和分析能力?蛻艨蓪⑺接袛(shù)據(jù)經(jīng)過文本處理和向量化后,存儲至騰訊云向量數(shù)據(jù)庫,從而創(chuàng)建一個定制化外部知識庫。在后續(xù)查詢?nèi)蝿?wù)中,這個知識庫也能為大模型提供必要的提示,輔助AIGC應(yīng)用產(chǎn)生更精確的輸出。

而針對行業(yè)大模型開發(fā)與落地應(yīng)用服務(wù),騰訊云則在整個云底座之上推出了MaaS服務(wù)解決方案,為企業(yè)客戶提供涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)等一站式行業(yè)大模型解決方案。

其中,值得一提的是騰訊云是業(yè)界最早提出走“向量數(shù)據(jù)庫”路線的云廠商,在大家對大模型部署還尚有技術(shù)路線爭議之初,騰訊就做了這個選擇。目前,向量數(shù)據(jù)庫+RAG(檢索增強(qiáng))也已經(jīng)成為業(yè)內(nèi)使用頻率最多的大模型部署路線。

可以看到,在回歸“產(chǎn)品優(yōu)先”戰(zhàn)略后,騰訊云在大模型時代的打法也逐漸清晰——不盲目追隨行業(yè),而是基于對AIGC的理解,做自己的產(chǎn)品迭代。

不過,面對十年一遇的大模型機(jī)會,華為云、阿里云、百度云等云廠商也都在2023年爭先恐后地布局,騰訊云的壓力并不小。

過去一年,華為云構(gòu)建了包括以華為云昇騰AI云服務(wù)為算力底座、行業(yè)首個大模型混合云Stack 8.3,在MaaS層用盤古大模型在千行百業(yè)中落地。華為云還上線了昇騰AI云服務(wù)百模千態(tài)專區(qū),收錄了業(yè)界主流開源大模型。可以看到,華為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢,可謂火力全開。

阿里云則是國內(nèi)大廠中唯一做開源大模型的公司,說明心態(tài)最為開放、做平臺的決心最強(qiáng)。阿里云在智能算力底座之上,打造了以機(jī)器學(xué)習(xí)平臺PAI為核心的PaaS服務(wù),以及上層MaaS服務(wù)。其中,在開發(fā)者生態(tài)層,截至2023年11月1日,阿里云發(fā)起的AI模型社區(qū)魔搭已經(jīng)有超過2300個模型,開發(fā)者超過280萬,模型下載次數(shù)也超過了1億多次。

云廠商們掀起了新一輪廝殺,是因?yàn)榇竽P偷募t利。

AI的發(fā)展正在帶動用云需求的增長,并已成為云計算產(chǎn)業(yè)發(fā)展的第二增長曲線。畢竟,大模型的算力使用幾乎可以說是“無底洞”,此前業(yè)界曾預(yù)測OpenAI訓(xùn)練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

因此,在AIGC時代,各大云廠商都在探索如何基于AI重塑云計算技術(shù)和服務(wù)體系,開辟全新的服務(wù)場景和服務(wù)內(nèi)容,從而能夠抓住這輪AI大模型升級發(fā)展所帶來的機(jī)會。

大趨勢下,Cloud for AI不僅是云廠商的新機(jī)會,也是必答題。陳崢也表示,云廠商現(xiàn)階段所能夠做的就是提前進(jìn)行技術(shù)產(chǎn)品布局,并將整個數(shù)據(jù)價值開放給客戶,從而讓客戶更好的利用數(shù)據(jù)。

       原文標(biāo)題 : AIGC時代,需要什么樣的云存儲?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號