女人视频在线观看国产区,国产欧美日韩综合一区在线观看

AIGC時代，需要什么樣的云存儲？

2024-04-11 09:10

光錐智能

關(guān)注

文｜白鴿

編｜王一粟

AIGC狂飆一年，算法進步和應(yīng)用落地的爆發(fā)，讓中國云計算廠商感受著切實的變化。

“今年一季度，大模型企業(yè)在云存儲的消耗同比在增加。”

4月8日，在騰訊云AIGC云存儲解決方案升級發(fā)布會上，騰訊云存儲總經(jīng)理馬文霜同時預(yù)計，今年AIGC對于云端的調(diào)用量一定是爆發(fā)式的增長。

馬文霜還開半玩笑地說，“可能這些企業(yè)拿到的投資更多了”。

隨著多模態(tài)技術(shù)的進化和落地應(yīng)用的逐漸爆發(fā)，讓大模型的訓(xùn)練和推理迎來了一些新的挑戰(zhàn)。

事實上，從語言和圖像為主的GPT，到視頻生成模型Sora，大模型參數(shù)正在指數(shù)級增長。比如ChatGPT在GPT-2時是10億參數(shù)量，到現(xiàn)在GPT-4已經(jīng)有1.8萬億參數(shù)。Sora為主的多模態(tài)技術(shù)，更會讓需要處理的數(shù)據(jù)量急劇增加，而這才剛剛是視頻生成模型的GPT-1.0時代。

參數(shù)越大，對云存儲的需求就會越高，包括云存儲的數(shù)據(jù)量以及吞吐量等，如果云存儲能力不能夠滿足大模型的需求，則會直接影響到大模型的訓(xùn)練速度和推理效率。

在大模型加速發(fā)展的階段，大模型企業(yè)也越來越重視云存儲這一重要的底層基礎(chǔ)設(shè)施能力。但AIGC時代，究竟需要什么樣的云存儲技術(shù)？

AIGC數(shù)據(jù)訓(xùn)練的新需求

云存儲的新挑戰(zhàn)

“內(nèi)卷”之下，大模型企業(yè)開始拼算力、拼參數(shù)，更拼大模型的更新速度。

如百川智能，前期平均一個月發(fā)布升級一款大模型，百度文心一言在發(fā)布之初，甚至一個月內(nèi)就完成了4次技術(shù)版本的升級。

想要保持大模型的更新頻率和速度，就要保證整個大模型數(shù)據(jù)訓(xùn)練過程的高效，其中某一個環(huán)節(jié)出現(xiàn)問題，就可能會拉長整個訓(xùn)練時長，增加訓(xùn)練成本。

因此，作為整個大模型數(shù)據(jù)訓(xùn)練的底座，云存儲的重要性日益凸顯。那么，AIGC時代到底需要什么樣的云存儲技術(shù)？

存儲作為數(shù)據(jù)的載體，現(xiàn)如今已經(jīng)不僅僅只承擔(dān)“存”的作用，更需要打通數(shù)據(jù)從“存”到“用”的最后一公里。

始于19年前QQ空間的騰訊云存儲，如今在國內(nèi)云廠商中存儲能力一直處于領(lǐng)導(dǎo)者象限（沙利文報告），他們的做法對行業(yè)頗有借鑒意義。

馬文霜向光錐智能提到，在AIGC數(shù)據(jù)訓(xùn)練的4個環(huán)節(jié)中，存儲需要提供的具體能力，包括：

數(shù)據(jù)采集階段，需要一個大容量、低成本、高可靠的數(shù)據(jù)存儲底座；

數(shù)據(jù)清洗階段，需要提供更多協(xié)議的支持，以及至少GB甚至TB級的數(shù)據(jù)訪問性能；

數(shù)據(jù)訓(xùn)練階段，作為大模型訓(xùn)練的關(guān)鍵環(huán)節(jié)，則需要一個TB級的帶寬存儲保證訓(xùn)練過程中Checkpoint能夠快速保存，以便于保障訓(xùn)練的連續(xù)性和提升CPU的有效使用時長，也需要存儲提供百萬級IOPS能力，來保證訓(xùn)練時海量小樣本讀取不會成為訓(xùn)練瓶頸；

數(shù)據(jù)應(yīng)用階段，則需要存儲提供比較豐富的數(shù)據(jù)審核能力，來滿足鑒黃、鑒暴等安全合規(guī)的訴求，保證大模型生成的內(nèi)容以合法、合規(guī)的方式使用；

在這4個環(huán)節(jié)中，騰訊云AIGC云存儲解決方案，分別由4款產(chǎn)品提供專屬服務(wù)，包括對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI。

而這次騰訊云存儲面向AIGC場景的升級，就是基于上述4款產(chǎn)品將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升1倍，整體訓(xùn)練時長縮短一半。

首先，在數(shù)據(jù)采集環(huán)節(jié)，基于自研的對象存儲引擎YottaStore，騰訊云對象存儲COS可支持單集群管理百EB級別存儲規(guī)模，多種協(xié)議和不同數(shù)據(jù)公網(wǎng)接入能力，可以讓采集的原始數(shù)據(jù)便捷入湖。

數(shù)據(jù)清洗環(huán)節(jié)，COS訪問鏈路比較長，數(shù)據(jù)讀取效率并不高，所以騰訊云在這中間添加了一層自研的數(shù)據(jù)加速器GooseFS。

COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能，可實現(xiàn)高達數(shù)TBps的讀取帶寬，提供亞毫秒級的數(shù)據(jù)訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。

“這讓單次數(shù)據(jù)清洗任務(wù)耗時減少一半。”馬文霜說道。

相比采集和清潔，大模型的訓(xùn)練則更加耗時，短則數(shù)周、長則數(shù)月，這期間如果任何一個CPU/GPU的節(jié)點掉線，都會導(dǎo)致整個訓(xùn)練前功盡棄。

業(yè)內(nèi)通常會采用2～4個小時保存一次訓(xùn)練成果，即Checkpoint（檢查點），以便能在GPU故障時能回滾。

此時則需要將保存的Checkpoint時間縮短到越短越好，但數(shù)千上萬個節(jié)點都需要保存Checkpoint，這就對文件存儲的讀寫吞吐提出了非常高的要求。

馬文霜表示：“兩年前我們發(fā)布高性能并行文件存儲CFS Turbo第一個版本，是100GB的讀寫吞吐，當(dāng)時覺得這個讀寫吞吐已經(jīng)足夠大，很多業(yè)務(wù)用不到。但去年大模型出來以后，用CFS Turbo再去寫Checkpoint，我們發(fā)現(xiàn)100G還遠遠不夠。”

CFS Turbo底層技術(shù)來自于騰訊云自研的引擎Histor。此次升級，騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別，讓3TB checkpoint 寫入時間從10分鐘，縮短至10秒內(nèi)，時間降低90%，大幅提升大模型訓(xùn)練效率。

針對數(shù)據(jù)訪問延遲問題，騰訊云引擎Histor可支持單個節(jié)點GPU與所有存儲節(jié)點進行通信，進行并行數(shù)據(jù)訪問。“另外，我們通過RDMA（遠程直接地址訪問）等技術(shù)不斷優(yōu)化數(shù)據(jù)訪問延遲，縮短IO路徑，最終可做到亞毫秒級訪問延遲。”馬文霜說道。

同時，騰訊云Histor還可以將元數(shù)據(jù)目錄打散至所有存儲節(jié)點上，提供線性擴張能力，從而實現(xiàn)文件打開、讀取、刪除的百萬級IOPS能力。

應(yīng)用階段，大模型推理場景則對數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬象CI是一站式內(nèi)容治理服務(wù)平臺，它可以對AI生成的內(nèi)容進行一站式管理，可以提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。

此次升級，騰訊云重點講述了智能數(shù)據(jù)檢索MetaInsight，其能夠基于大模型和向量數(shù)據(jù)庫進行跨模態(tài)搜索服務(wù)，也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻，并憑借95%以上的召回率，可以幫助用戶快速鎖定目標內(nèi)容，提升審核效率。

基于這套AIGC云存儲技術(shù)底座，騰訊云存儲總經(jīng)理陳崢表示，騰訊自研項目（比如混元大模型）的整體效率至少提升了2倍以上。

目前，除騰訊自己的混元大模型，數(shù)據(jù)顯示，已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲解決方案，包括百川智能、智譜、元象等明星大模型企業(yè)。

而針對解決方案升級后的產(chǎn)品價格，馬文霜則表示，“不會有變化”。在阿里云和京東云都宣布降價時，騰訊云并沒有選擇降價，而是“加量不加價”。

“穩(wěn)定性、高性能，以及性價比，是大模型時代云存儲的核心。”騰訊云智能存儲總監(jiān)葉嘉梁說道。

當(dāng)然，在AIGC時代，云廠商都想抓住這一次用云需求爆發(fā)的機會。除了騰訊云外，阿里云、華為云等其他云廠商在AIGC云存儲領(lǐng)域也都有相應(yīng)的布局。

比如2023年，華為云針對大模型時代的云存儲發(fā)布了OceanStor A310 深度學(xué)習(xí)數(shù)據(jù)湖存儲和FusionCube A3000 訓(xùn)/推超融合一體機兩款產(chǎn)品。

阿里云面向AI時代的云存儲解決方案，也覆蓋了底層對象存儲 OSS數(shù)據(jù)湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務(wù)以及智能媒體管理IMM平臺等產(chǎn)品。

可以看到，圍繞AIGC的需求，云廠商在云存儲領(lǐng)域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近，而華為云則加入了自己在硬件方面的優(yōu)勢。

云存儲技術(shù)僅是云計算眾多底層核心技術(shù)之一，隨著大模型深度發(fā)展，云廠商們已經(jīng)開始在整個PaaS層、IaaS層、MaaS層，都在圍繞AIGC進行迭代升級，為行業(yè)提供全鏈路大模型云服務(wù)。

云廠商狂飆

爭做“最適合大模型”的云

云已經(jīng)成為大模型的最佳載體，大模型也正在重塑云服務(wù)的形態(tài)。

馬文霜認為，云上豐富的資源、計算、存儲、網(wǎng)絡(luò)、容器技術(shù)和PaaS，都能夠解決AIGC在各個環(huán)節(jié)上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持，讓客戶可以聚焦在自己產(chǎn)品競爭力的方向進行開發(fā)，加速整體研發(fā)效率以及應(yīng)用落地的速度。

面對AIGC帶來的大模型發(fā)展浪潮，騰訊集團副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示，大模型將開創(chuàng)下一代云服務(wù)，騰訊云要打造“最適合大模型的云”。

自從大模型熱潮爆發(fā)以來，騰訊云在大模型業(yè)務(wù)推出上不是最快的一個，但卻是最扎實的一個。

在2023年9月的騰訊全球數(shù)字生態(tài)大會上，騰訊云面向AIGC場景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、向量數(shù)據(jù)庫以及行業(yè)大模型的MaaS服務(wù)。

也就是說，騰訊云從底層智算能力，到中間件，再到上層MaaS，已經(jīng)實現(xiàn)了全鏈路大模型云化能力升級迭代，每個業(yè)務(wù)都很務(wù)實。

比如，針對大模型對算力的迫切需求，騰訊云高性能計算集群HCC為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網(wǎng)絡(luò)，能提升40%GPU利用率，節(jié)省30%~60%模型訓(xùn)練成本，提升AI大模型10倍通信性能。利用星星海自研服務(wù)器的6U超高密度設(shè)計和并行計算理念，確保高性能計算。

針對在中間層對數(shù)據(jù)調(diào)度應(yīng)用的需求，騰訊云向量數(shù)據(jù)庫，可為多維向量數(shù)據(jù)提供高效存儲、檢索和分析能力�？蛻艨蓪⑺接袛�(shù)據(jù)經(jīng)過文本處理和向量化后，存儲至騰訊云向量數(shù)據(jù)庫，從而創(chuàng)建一個定制化外部知識庫。在后續(xù)查詢?nèi)蝿?wù)中，這個知識庫也能為大模型提供必要的提示，輔助AIGC應(yīng)用產(chǎn)生更精確的輸出。

而針對行業(yè)大模型開發(fā)與落地應(yīng)用服務(wù)，騰訊云則在整個云底座之上推出了MaaS服務(wù)解決方案，為企業(yè)客戶提供涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)等一站式行業(yè)大模型解決方案。

其中，值得一提的是騰訊云是業(yè)界最早提出走“向量數(shù)據(jù)庫”路線的云廠商，在大家對大模型部署還尚有技術(shù)路線爭議之初，騰訊就做了這個選擇。目前，向量數(shù)據(jù)庫+RAG（檢索增強）也已經(jīng)成為業(yè)內(nèi)使用頻率最多的大模型部署路線。

可以看到，在回歸“產(chǎn)品優(yōu)先”戰(zhàn)略后，騰訊云在大模型時代的打法也逐漸清晰——不盲目追隨行業(yè)，而是基于對AIGC的理解，做自己的產(chǎn)品迭代。

不過，面對十年一遇的大模型機會，華為云、阿里云、百度云等云廠商也都在2023年爭先恐后地布局，騰訊云的壓力并不小。

過去一年，華為云構(gòu)建了包括以華為云昇騰AI云服務(wù)為算力底座、行業(yè)首個大模型混合云Stack 8.3，在MaaS層用盤古大模型在千行百業(yè)中落地。華為云還上線了昇騰AI云服務(wù)百模千態(tài)專區(qū)，收錄了業(yè)界主流開源大模型。可以看到，華為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢，可謂火力全開。

阿里云則是國內(nèi)大廠中唯一做開源大模型的公司，說明心態(tài)最為開放、做平臺的決心最強。阿里云在智能算力底座之上，打造了以機器學(xué)習(xí)平臺PAI為核心的PaaS服務(wù)，以及上層MaaS服務(wù)。其中，在開發(fā)者生態(tài)層，截至2023年11月1日，阿里云發(fā)起的AI模型社區(qū)魔搭已經(jīng)有超過2300個模型，開發(fā)者超過280萬，模型下載次數(shù)也超過了1億多次。