2025年8月27日,華為云在第四屆828 B2B企業(yè)節(jié)開幕式上宣布,其Tokens服務(wù)正式全面接入CloudMatrix384超節(jié)點。通過xDeepServe架構(gòu)的關(guān)鍵創(chuàng)新,該服務(wù)在單芯片上實現(xiàn)了最高2400TPS(每秒處理令牌數(shù))和50ms TPOT(每次輸出時間)的高吞吐與低延遲性能,顯著超越當(dāng)前業(yè)界平均水平。
近年來,中國人工智能算力需求呈現(xiàn)爆發(fā)式增長。數(shù)據(jù)顯示,自2024年初至2025年6月底,日均Token消耗量從1000億激增至30萬億,增長超300倍。這一趨勢對算力基礎(chǔ)設(shè)施提出了更高要求。華為云于今年3月推出基于MaaS(模型即服務(wù))的Tokens服務(wù),提供在線、進(jìn)線、離線及尊享等多種服務(wù)類型,以適應(yīng)不同應(yīng)用場景在性能和響應(yīng)速度方面的多樣化需求。
本次升級的核心在于將Tokens服務(wù)與CloudMatrix384超節(jié)點深度集成。CloudMatrix384采用全新計算架構(gòu),從硬件到軟件實現(xiàn)了系統(tǒng)級創(chuàng)新。其優(yōu)勢不僅體現(xiàn)在單點性能提升,更在于全棧技術(shù)協(xié)同,包括CANN昇騰硬件使能、EMS彈性內(nèi)存存儲以及xDeepServe分布式推理框架的有機結(jié)合。其中,EMS技術(shù)有效突破“AI內(nèi)存墻”,實現(xiàn)“以存強算”,充分釋放芯片算力潛力。
xDeepServe作為原生服務(wù)框架,采用Transformerless極致分離架構(gòu),將混合專家模型(MoE)拆分為Attention、FFN和Expert三個可獨立伸縮的微模塊。這種“積木化”處理方式使得任務(wù)能夠分布到多個NPU上并行執(zhí)行,再通過微秒級XCCL通信庫與自研推理引擎FlowServe重新整合,形成高吞吐的大語言模型服務(wù)流水線。這一架構(gòu)使單卡吞吐性能從600 tokens/s提升至2400 tokens/s,漲幅達(dá)300%。
在通信層面,XCCL庫充分發(fā)揮CloudMatrix384的UB互聯(lián)架構(gòu)潛力,為模塊間的高效數(shù)據(jù)交換提供高帶寬與低延遲支持。FlowServe則將整個系統(tǒng)劃分為完全自治的DP小組,每個小組具備獨立的Tokenizer、執(zhí)行器和緩存機制,有效避免千卡并發(fā)場景下的性能擁堵。
目前,華為云MaaS平臺已支持包括DeepSeek、Kimi、Qwen、PanGu等在內(nèi)的多種主流大模型,以及Dify、扣子等Agent開發(fā)平臺。通過在模型量化、算子融合、通算并行等方面的持續(xù)優(yōu)化,華為云在文生圖、文生視頻等任務(wù)中實現(xiàn)了顯著于業(yè)界平均水平的性能提升,部分場景達(dá)到友商的2至3.5倍。
在應(yīng)用生態(tài)方面,華為云已與超100家行業(yè)伙伴合作,推動AI技術(shù)在內(nèi)容創(chuàng)作、智能運維、智慧辦公等領(lǐng)域的落地。典型應(yīng)用如今日人才數(shù)智員工解決方案、方寸無憂智慧公文系統(tǒng)等,均體現(xiàn)出Tokens服務(wù)在提升處理效率與用戶體驗方面的實際價值。
綜上所述,華為云通過系統(tǒng)級創(chuàng)新與全棧技術(shù)整合,不斷推動算力性能邊界。Tokens服務(wù)與CloudMatrix384及xDeepServe架構(gòu)的深度融合,標(biāo)志著其在高效能計算領(lǐng)域的重要進(jìn)展,為人工智能大規(guī)模商業(yè)化應(yīng)用提供了堅實支撐。
- 愛詩科技PixVerse V5用戶破億,AI創(chuàng)作助手開啟新賽道
- AI重塑旅游業(yè):從工具到基礎(chǔ)設(shè)施的戰(zhàn)略升級
- 華為云Tokens服務(wù)升級:384超節(jié)點加持,性能提升至2400TPS
- 尊湃竊密案一審落槌:14人獲罪,華為芯片技術(shù)保衛(wèi)戰(zhàn)告捷
- 短視頻關(guān)不掉,豆包陷爭議!未成年人模式真能解決問題嗎?
- 美團(tuán)Q2營收918億,月活用戶首破5億大關(guān)
- 知乎Q2盈利9130萬,連續(xù)三季度盈利,商業(yè)化初見成效
- 蘋果客服證實:4款iPhone將停產(chǎn),老用戶何去何從?
- 華為Mate XTs定檔9月4日:價格或更親民,技術(shù)升級引期待
- 谷歌新規(guī):Android應(yīng)用側(cè)載需實名驗證,開發(fā)者身份成安裝門檻
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。