短短兩三年時間,AI已脫離實驗室概念,實實在在地滲透進了各行各業(yè)中。從金融風控到智能制造,從醫(yī)療診斷到自動駕駛,AI大模型正以前所未有的速度被訓練、部署、迭代。與之相應的,是AI對智能算力前所未有的龐大需求——據(jù)華為預測,(相比2023年)到2030年,通用計算能力將增長10倍,AI計算能力將增長500倍。
這也意味著,對于算力基礎設施需求也在同步提升,而傳統(tǒng)的數(shù)據(jù)中心架構已經(jīng)難以支撐如此龐大的計算任務。因此,龐大而復雜的算力基礎設施體系正迎來一場深刻的變革——傳統(tǒng)數(shù)據(jù)中心正從“通算”向“智算”演進,網(wǎng)絡、存儲、供電、冷卻等基礎設施也必須隨之升級。
從“通算”到“智算”
智算中心毫無疑問是當前最熱門的投資領域之一。根據(jù)中國IDC圈不完全統(tǒng)計,僅2025年一季度,立項或建設、投產(chǎn)的智算中心就多達165個,其中不乏投資過百億,算力規(guī)模超萬P的項目(相關詳情:2025年165個新項目動態(tài)隱現(xiàn)3個關鍵信號)。
但在這股建設熱潮之下,哪怕是算力產(chǎn)業(yè)的從業(yè)者之間,一個疑問一直揮之不去:數(shù)據(jù)中心與智算中心,AIDC與DC到底有何區(qū)別?
按照工信部印發(fā)的《算力基礎設施高質量發(fā)展行動計劃》定義,算力中心包括是以風火水電等基礎設施和IT軟硬件設備為主要構成,具備計算力、運載力和存儲力的設施,包括通用數(shù)據(jù)中心、智能計算中心、超算中心等。
其中,智能計算中心(智算中心)指通過使用大規(guī)模異構算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應用(如人工智能深度學習模型開發(fā)、模型訓練和模型推理等場景)提供所需算力、數(shù)據(jù)和算法的設施。智能計算中心涵蓋設施、硬件、軟件,并可提供從底層算力到頂層應用使能的全棧能力。
而對于傳統(tǒng)數(shù)據(jù)中心來說,其設計邏輯主要服務于通用計算場景,核心在于提供穩(wěn)定的、可擴展的通用計算及存儲環(huán)境。但在AI時代,數(shù)據(jù)密集型、并行計算的任務特征使得數(shù)據(jù)中心必須重新思考如何提升效率、降低延遲、增強彈性。尤其是在大規(guī)模AI集群部署中,通信瓶頸、資源利用率低、運維復雜等問題日益突出,成為制約AI應用落地的關鍵障礙。
特別是大規(guī)模的智算集群實際運行遠比想象中復雜。通信瓶頸、資源利用率低、故障響應慢等問題頻繁出現(xiàn),導致“紙面算力”和“有效算力”之間存在巨大落差。有業(yè)內人士透露,一些千卡級別的集群,在訓練效率上甚至不如優(yōu)化良好的幾百卡系統(tǒng)。更不要提所謂“萬卡集群”,投產(chǎn)即停運的傳聞也經(jīng)常在業(yè)內流傳。
這不僅是一個技術問題,更是一個系統(tǒng)工程問題。
算網(wǎng)融合:突破算力瓶頸的新路徑
AI大模型訓練是當前智算中心最重要的應用場景。根據(jù)AI大模訓練的規(guī)?;▌t(Scaling Law),模型性能與其規(guī)模、數(shù)據(jù)集大小以及算力之間存在的冪率關系,即隨著三者的增長,模型性能也會隨之增長。但反過來,一旦其中一個環(huán)節(jié)遇到瓶頸,那么模型性能的增長也會受限。
對于算力來說,雖然理論上可以通過不斷拓展芯片數(shù)量來達到更高的算力規(guī)模。但在實際的AI訓練過程中,節(jié)點之間的數(shù)據(jù)交換頻率極高。一旦各個節(jié)點——芯片、服務器、機柜之間的通信成為瓶頸,整個訓練過程就會大幅拖慢,甚至中斷。
因此,“算網(wǎng)融合”成為了行業(yè)追求的目標。所謂算網(wǎng)融合,就是把網(wǎng)絡作為核心環(huán)節(jié)納入AI系統(tǒng)的整體設計中。通過構建高速、低延遲、無丟包的通信環(huán)境,讓算力真正“流動起來”,而不是被困在節(jié)點之間。
為了解決這個問題,算力產(chǎn)業(yè)巨頭紛紛各出奇招。比如行業(yè)內某企業(yè)推出了自有的平臺體系,通過專有網(wǎng)絡,以成熟的銅纜網(wǎng)絡大大提升了其圖形處理芯片之間的通信效率,并且一度帶動了銅價大漲。
而在芯片、通信領域均掌握有核心技術的華為也獨辟蹊徑,推出“星河AI網(wǎng)絡”,提供了一個典型的實踐樣本。其采用業(yè)界公用的ROCE無損網(wǎng)絡技術,結合自研的NSLB算法,以創(chuàng)新的光通信網(wǎng)絡實現(xiàn)了接近98%的通信吞吐率,大幅提升了訓練效率。同時,通過光模塊亞健康檢測、丟包可視化等智能運維手段,也讓網(wǎng)絡的穩(wěn)定性得到了保障。
星河AI網(wǎng)絡支持200G/400G高速互聯(lián),具備大規(guī)模組網(wǎng)能力。在萬卡級別集群中,依然能保持穩(wěn)定的通信帶寬與低延遲表現(xiàn),滿足千億參數(shù)模型的訓練需求。其業(yè)界領先的雙層收斂網(wǎng)絡架構,可以大幅降低調優(yōu)難度,提升集群整體的可用性。
對于大規(guī)模智算集群的算力能力衡量,星河AI網(wǎng)絡給出了明確的算力公式:集群總算力=單芯片算力x集群規(guī)模x有效算力效率x可用率。其中,有效算力效率指網(wǎng)絡吞吐、性能加速能力;算力可用率則指算力穩(wěn)定性,以月為單位計算。
結合強大的網(wǎng)絡通信能力,昇騰智能芯片通過華為集群通信庫和作業(yè)調度平臺,整合HCCS、 PCIe 和 RoCE 三種高速接口,實現(xiàn)集群級互聯(lián),充分釋放出強大性能,幫助客戶實現(xiàn)更快的進行圖像、語音、自然語言等 AI 模型訓練或推理應用。
基于昇騰智能芯片的CloudMatrix 384(CM384)采用全連接拓撲結構連接384顆昇騰芯片,可提供約300 PetaFLOPS的BF16精度總計算能力。通過采用400G CPO(計算處理器接口),CM384可以大幅增強網(wǎng)絡性能,優(yōu)于傳統(tǒng)服務器設計中的PCIe解決方案,行業(yè)認為其非常適合快速擴大我國計算能力供應以滿足當前AI算力的需求。
目前,星河AI網(wǎng)絡與昇騰處理器已在多個大型智算中心落地實踐,包括互聯(lián)網(wǎng)頭部企業(yè)、運營商、金融及能源行業(yè)的客戶。在某萬卡集群項目中,華為成功部署了超過9000張NPU卡、數(shù)百臺交換機和數(shù)十PB存儲設備,構建起全球領先的AI訓練平臺。
極致密碼:能效、運營、生態(tài)協(xié)同
對于一個正在上升期的產(chǎn)業(yè)來說,性能是核心問題,但并不是全部。擺在當前算力產(chǎn)業(yè)者面前的,還有綠色發(fā)展、高效運營、產(chǎn)業(yè)合作等眾多難題需要突破。
AI芯片的功耗持續(xù)攀升,單臺服務器的功率已超過10kW,整機柜甚至達到幾十、上百千瓦。傳統(tǒng)的風冷方案越來越吃力,供電系統(tǒng)也面臨極限挑戰(zhàn)。與此同時,國家“雙碳”目標對數(shù)據(jù)中心的PUE提出了更高要求。
國家發(fā)改委發(fā)布的《數(shù)據(jù)中心綠色低碳發(fā)展專項行動計劃》明確要求,到 2025 年底,全國數(shù)據(jù)中心布局更加合理,整體上架率不低于 60%,平均電能利用效率降至 1.5 以下,可再生能源利用率年均增長 10%,平均單位算力能效和碳效顯著提高。
在這種壓力下,液冷、風液混合制冷、動態(tài)能效調節(jié)等技術開始走向主流。華為提出的目標是PUE≤1.15,追求“極致能效”。通過精準控制冷卻系統(tǒng),結合負載感知機制,實現(xiàn)從芯片到機房的全鏈路節(jié)能。
而當集群規(guī)模達到萬卡級別,任何一次人為干預都可能帶來巨大的時間成本。傳統(tǒng)依賴經(jīng)驗判斷和人工排查的方式,已經(jīng)無法適應AI數(shù)據(jù)中心的高可用性需求,智算中心必須有符合其“智能”定位的智能運營模式。
就此,華為引入了AI Agent智能運維模式,實現(xiàn)了端到端的自動故障處置。通過CCAE一體化運維工具,配合圖形化流量分析、丟包監(jiān)控等功能,華為智能運維平臺可將平均修復時間(MTTR)從30分鐘壓縮到5分鐘以內。
然而,數(shù)據(jù)中心內部的技術再先進,產(chǎn)業(yè)卻時刻需要面對一個更深層次的問題:供需錯配。一邊是大量昂貴的算力建設完成,另一邊卻是應用場景不足、資源利用率低下。尤其是在中小企業(yè)和垂直行業(yè)中,AI落地仍面臨門檻高、適配難、維護難等問題。
這反映出當前AI產(chǎn)業(yè)鏈的一個結構性問題:上下游尚未形成合力。芯片廠商、軟件平臺、云服務商、終端設備商各自為戰(zhàn),缺乏統(tǒng)一標準和協(xié)作機制。
面對這一局面,華為采取開放心態(tài),從軟硬件到商業(yè)合作,促進生態(tài)上下游廠商共同合作,推動AI向更多場景滲透。技術只是基礎,只有形成閉環(huán)、構建生態(tài),才能真正釋放AI的價值。
回望來路,AI的發(fā)展不僅改變了我們對智能的理解,也在重塑整個數(shù)字基礎設施的面貌。數(shù)據(jù)中心不再只是“幕后英雄”,而是承載著創(chuàng)新、決策和產(chǎn)業(yè)升級的重要平臺。在這場基礎設施的重構中,包括華為在內的產(chǎn)業(yè)參與者都在做著自己的探索,他們的每一步都在指向一個更成熟、更可持續(xù)的AI基礎設施體系,為了AI真正走向產(chǎn)業(yè)、走進生活貢獻自己的力量。
為了更好的聯(lián)合產(chǎn)業(yè)上下游,打造完善的智算生態(tài),推動算網(wǎng)融合技術發(fā)展,由華為技術有限公司與中國IDC圈聯(lián)合主辦的“2025智算行業(yè)峰會——算網(wǎng)融合與數(shù)據(jù)中心創(chuàng)新論壇”將于2025年5月27日在北京舉辦,誠邀產(chǎn)業(yè)各界從業(yè)者共同參與,攜手推動我國智算產(chǎn)業(yè)發(fā)展。
了解會議詳情&報名參會請參考下圖
- 2026中國新疆烏魯木齊日用百貨博覽會
- 2026沈陽(遇見新品)源頭廠家日用百貨新品博覽會
- 【9月ISSE國際智慧空間展】數(shù)據(jù)中心篇:數(shù)字基座 助力數(shù)字貿(mào)易生態(tài)
- 第七屆SMM汽車供應鏈大會9月3日武漢開幕,進入倒計時6天
- 首日觀眾超5萬,年度AGIC+IOTE盛會深圳重磅開幕!
- 2025“易盼杯”全國青年Eplan電控設計大賽說明會在蘇州成功舉辦!
- 錦浪、鉑科專家拆解磁性元器件設計核心邏輯
- 全鏈融合,前瞻領航 2025第五屆航空計量測試及檢驗檢測發(fā)展論壇在成都隆重召開
- 盛典預告丨2025科產(chǎn)融生態(tài)共建創(chuàng)新論壇暨第三屆DSG金融領袖峰會
- 數(shù)實融合新引擎 智啟未來新動能 2025年中國國際信息通信展覽會將于9月24日至26日在北京盛裝啟幕
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。