無論是DeepSeek、“千問搶奶茶”還是“養龍蝦”,現在AI已經滲入我們的生活。隨之而來的,便是巨大的算力需求。想要發揮出最高效的算力,網絡性能至關重要。目前,AI大模型訓練邁入萬卡集群時代,主機間高速通信的RDMA技術已成為高端計算系統標配,網絡的低延遲、高吞吐、高可靠成為智算/超算建設的核心要求。
當前業內高速網絡主要有傳統InfiniBand(IB)網絡和RoCE網絡兩類方案,前者長期被英偉達(NVIDIA)壟斷,后者不僅無法實現完全國產化,技術短板也多。
為了解決上述問題,3月12日,中科曙光正式發布首款全棧自研400G無損高速網絡——scaleFabric。它是國內首款國產InfiniBand原生無損RDMA超高速網絡產品,曙光全棧自研,專為大規模萬卡集群打造,適配大模型訓練、超算任務等高端計算場景,是實現國產算力網絡自主可控的核心產品。

這項突破背后有哪些關鍵點值得關注?中科曙光高級副總裁李斌與中科曙光高速網絡互聯產品部總工程師萬偉向EEWorld解答了相關問題。
為什么必須要做IB
為什么中科曙光要堅持采用InfiniBand原生RDMA路線,而非RoCE路線?
當前,AI大模型已邁入萬億級規模,對算力的需求每九個月翻一番。在此背景下,高速網絡成為AI算力發展的關鍵路徑。400G端口帶寬正成為主流,并向800G演進,RDMA網絡已成為算力中心的事實標準。RDMA在國內主要有三種實現方式:IB(InfiniBand)、RoCE、IWARP。
RoCE網絡基于以太網嫁接RDMA技術,本質是“在以太網之上跑IB協議”,用UDP報文封裝IB協議,屬于嫁接式技術,先天存在協議冗余,性能與可靠性受限,雖兼容IP生態,但存在帶寬低、時延高、運維復雜、大規模組網能力弱等技術短板。當前國內廠商以RoCE路線為主。IWARP相對來說,主要面向特定應用場景。
IB性能卓越,但成本高昂。由于是原生RDMA網絡,協議棧專為高速通信設計,包頭信息短、有效載荷高,是為高端計算打造的專用高速網絡。IB以NVIDIA為代表,2019年英偉達完成對Mellanox(邁絡思)收購,經過這次收購獲取InfiniBand、Ethernet、SmartNIC/DPU及LinkX互連的能力,自此,英偉達就被業界譽為同時擁有NVLinkInfiniBandEthernet技術的“三頭蛇怪”。之所以收購邁絡思,正是為了補足其產品體系中高速網絡這一關鍵板塊。回顧超算發展史,從上世紀90年代Myrinet高速網絡的出現,到IB憑借其開放協議和良好的軟件生態逐漸占據主導,最終實現了技術壟斷。
從核心指標來看,在時延方面,IB交換機為VCT交換,邊收邊轉,交換時延小于300ns,RoCE為“存儲-轉發”交換,需完整接收數據包再轉發,時延是IB的兩倍以上(500ns以上),且動態時延易受網絡擁堵影響;在帶寬方面,主流IB網卡400G,主流RoCE網卡200G,一些國內Roce路線廠商高端交換機(400G/800G)也是基于國外芯片進行設計。
“都說計算、網絡、存儲是超算及人工智能智算系統的三大核心。對中小規模系統,網絡重要性可能次于計算;但對大規模系統而言,有相關調試優化經驗的人都知道,網絡往往排在第一位。計算決定系統性能的上限,而一旦網絡拉垮,可能將整體性能下限歸零。從過去的高性能計算到今天的大模型訓練,對網絡的要求也越來越苛刻。”李斌如是說。
換句話說,也許在一些規模相對較小的領域,RoCE是不錯的選擇,但大規模集群正在從萬卡集群向十萬卡集群上邁進,此時我們必須在IB上有所突破,這樣才能真正駕馭大規模集群,實現國產化突破。
scaleFabric的優勢所在
曙光歷時三年研發,實現scaleFabric從底層芯片到上層軟件的100%全棧自研,徹底擺脫海外技術依賴,自研范圍包括:112G SerDes IP、交換芯片、網卡、交換機、平臺軟件,構建了從硬件到軟件的完整自主技術體系,為產品性能與可靠性奠定核心基礎。
李斌介紹,曙光從2000系統開始使用Myrinet,從5000系統起切換到IB,在國內對IB技術的運用已相當靈活。既然IB如此成熟,為何還要自研?他表示:“在美國公司收購IB并形成壟斷后,答案已不言而喻。自研能成功,核心在于兩點:一是我們深刻理解這項技術和應用場景;二是能夠實現網絡芯片與自研計算芯片的整體協同。”
本次,scaleFabric共發布三款產品:一是scaleFabric 400單口標準網卡,采用400G接口;二是scaleFabric 400 1U 80口液冷交換機,支持400G/800G模式切換;三是scaleFabric 400 2U 80口風冷交換機,面向傳統風冷場景。
核心技術是兩顆自研芯片:一是網卡芯片,400G高帶寬,自研RDMA引擎;二是交換芯片,64T雙向交換容量,轉發延時低至260納秒,采用112G高速Serdes。
scaleFabric遠不止自研這么簡單,這款產品擁有三個亮點:
一是擁有超強性能,端到端時延<1μs,轉發時延260ns,與NVIDIA NDR(國際頂尖IB產品)性能持平,顯著優于RoCE網絡;單端口帶寬800G,較RoCE網絡主流交換機領先一到兩代,交換容量64T,滿足萬卡集群大吞吐需求;實測3萬卡集群效率領先,典型AI訓練任務中網絡效率提升40%+。
二是擁有超高可靠,采用IB原生基于信用的流控機制,實現真無損網絡,無丟包、無PFC風暴風險;具備鏈路故障快速恢復技術,故障恢復時間<1ms(毫秒級),RoCE網絡需秒級恢復,大模型訓練過程完全無感;高容錯設計,保障大規模集群長期穩定運行,已實現近萬卡驗證規模持續穩定運行超10個月。
三是超強擴展,單子網支持11.4萬卡規模部署,是市面主流IB產品(4.9萬卡)的2.33倍,集群容量提升超133%;支持跨POD大規模組網,適配國家超算互聯網、大型智算中心等超大規模算力集群建設需求;已落地國家超算互聯網位于鄭州的核心節點3萬卡商用集群,實現3套scaleX萬卡集群同步上線,為國產最大規模真實負載驗證。
萬偉強調,scaleFabric全面對標英偉達NDR系列,部分規格更優:端口密度上,交換機達80口400G,比NDR的64口提升25%,大幅降低組網成本;最大QP數上,支持256K,是NDR的2倍,更好支撐大規模并行計算;實測性能上,RDMA延時0.93微秒,轉發延時260納秒,達到國內領先水平。
IB本身是一個相對開放的體系,其上層接口已成為業界標準,為了與主流生態兼容,曙光在這一層面遵循相關規范,以實現與上層通信庫的無縫對接。萬偉介紹道, scaleFabric全面兼容各種通信庫,HPC/AI應用無需改代碼即可遷移,網絡管理與維護方式兼容IB用戶習慣,應用無感。針對IB協議老舊問題,我們將最大組網規模提升至11萬卡,是IB的2.33倍,組網成本下降30%。
更好地服務中國AI算力發展
目前,鄭州國家超算互聯網節點已部署三套基于scaleFabric的萬卡超級集群,36小時完成部署,累計運行客戶超1萬,作業超10萬+。
能夠取得這樣的成績,背后一定擁有許多艱辛。李斌表示,IB真正的難點在底層。物理層與工藝強相關,想把網絡做得比IB更好極其困難。研發初期,曙光并無十足把握能達到其水平,過程中經歷了諸多艱辛。最終能取得成功,得益于兩點:一是站在巨人的肩膀上,長期使用IB產品讓我們對其有深刻理解;二是基于這些經驗,得以在自研過程中改進其原有設計的不足,規避某些痛點。正因如此,曙光在部分性能上反而實現了超越。
在整個大算力領域,曙光布局主要集中在三個層面:首先是核心計算芯片的研發;其次是硬件層面的高效實現,這不僅是常規的組裝集成,隨著芯片功率密度、熱密度和IO密度的急劇攀升,在供電和冷卻等支撐技術上已進入“深水區”,面臨著極具挑戰性的工程難題,必須在此領域實現技術突破;最后是系統級的協同與生態合作,曙光強調算、存、傳的協同,以及與IB等設備的深度融合。通過在不同層級進行布局,并與國內產業鏈上下游伙伴保持緊密合作,共同構建自主可控的算力生態。
“面向未來,我們有信心將scaleFabric打造成國內廣泛使用且普惠的高速網絡產品。信心同樣源于兩點:一是我們有能力持續迭代技術和產品,保持國際先進競爭力;二是我們將秉持極致開放的態度,與產業鏈上下游合作伙伴在標準、接口、協議及商業模式上全方位合作。”李斌在會議上說道。
“曙光本身就是scaleFabric的最大用戶,我們的利益與用戶完全一致。全棧自研能力和強大的研發團隊,是我們提供一體化高速網絡服務體系的底氣。我們非常樂意把scaleFabric里面的關鍵技術開放出來,與我們合作伙伴一起,通過各種方式跟我們合作伙伴一起共同打造國內類InfiniBand的網絡生態,更好服務于中國AI算力的發展。”萬偉強調道。 |