2019.01.09,華為將數據中心網絡推入了AI時代。
1月9日消息,華為正式推出內置自家AI芯片昇騰310的數據中心交換機CloudEngine 16800,也是業(yè)界首款搭載高性能AI芯片的數據中心交換機。距離華為上一款旗艦產品CloudEngine 12800系列的發(fā)布已經過去了6年,CloudEngine 12800在云時代大獲成功,CloudEngine 16800顯然是華為堅定押寶在AI時代的一款拳頭產品,而且做好了打好幾年糧食的準備。
發(fā)布會地點選在了北京國貿大酒店,北京的CBD核心區(qū)迎來送往,數據中心交換機其實也是這么個角色,只不過運輸轉發(fā)的是數據。
數據中心的流量主要分為東西向流量和南北向流量,還有一部分流量是數據中心之間的流量。據說是因為早期繪制網絡架構圖,從上到下(從北到南)是核心網絡設備到客戶端,從左到右(從西到東)是服務器到服務器,所以就沿用了這個說法。
南北向流量即指數據中心服務器到數據中心以外客戶端之間的流量,東西向流量即指數據中心內部服務器之間的流量。不過很大的變化是目前東西向流量已經遠超南北向流量,數據中心服務器規(guī)模的擴大,更多應用需要池化資源來滿足,服務器集群內部流量驟升。有數據顯示,2020年全球數據中心東西向流量占比將超過80%,而早期數據中心的流量80%為南北向流量。
我們平常所使用的各類終端接入互聯(lián)網也是依靠各種交換機和路由器來實現數據傳輸,如此龐大的流量其實只占兩成,這還只是非數據中心交換機,數據中心交換機將處理轉發(fā)八成流量,足以說明其重要程度。關于數據中心交換機引用一句話非常合適——“就算未來所有硬件盒子形態(tài)網絡設備終將消亡,數據中心交換機作為連接服務器的總線,將永遠存在?!?/p>
數據中心網絡進入AI時代
了解到,上一代產品CloudEngine 12800以82%的復合增長率連續(xù)六年增速全球第一,已在全球6400+個數據中心成功商用部署。另外相關數據顯示,華為2017年(2018年數據還沒出)全年中國數據中心交換機市場份額排名第一,為39.48%,超過第二名6個百分點,主要原因就是CloudEngine 12800抓住了云數據中心的發(fā)展機遇。
自2012年CloudEngine 12800發(fā)布后,華為數據中心網絡產品在市場一路走高,2013年華為成為增長最快的數據中心網絡廠商;2014年年增長率達137%;2015年華為成為唯一進入全球SDN領導者行列的中國廠商;2016年中國區(qū)市場份額第一,全球份額第三;2017年邁入Gartner數據中心網絡魔力象限的挑戰(zhàn)者象限,距離挑戰(zhàn)者象限僅一步之遙;2018年邁入數據中心SDN網絡硬件廠商領導者行列。
華為CloudEngine系列交換機包括核心交換機、虛擬交換機、接入交換機,16800就是核心交換機的旗艦,典型數據中心應用場景是核心交換機與TOR交換機通過端口互聯(lián),采用TRILL、VxLAN等協(xié)議組建無阻塞二層網絡。
華為在發(fā)布會現場沒有言明新產品的小目標,但從產品角度可一窺華為野望。
華為網絡產品線總裁胡克文在現場表示,AI時代數據中心有三大挑戰(zhàn):
傳統(tǒng)以太網丟包率0.1%,AI算力只能發(fā)揮50%;
未來五年,數字洪水增長20倍,現有100GE的網絡無法支撐;
計算、存儲、網絡深度融合,人工定位網絡問題需數小時。
相對應的,在華為看來,AI時代的數據中心交換機應具備三大特征:
內嵌AI芯片
業(yè)界首款內嵌AI芯片數據中心交換機,100%發(fā)揮AI算力。華為實現0丟包低時延高吞吐的無損數據中心網絡主要包括靠兩點:一方面是單流局部調優(yōu),華為內嵌AI芯片的數據中心交換機對網絡狀態(tài)實時檢測,實現交換隊列動態(tài)ECN門限,隊列緩存的智能調整,并在最佳時刻給予發(fā)送端最快的反饋,實現源端發(fā)送速率的動態(tài)調整;
另一方面是整網全局調優(yōu),CloudEngine 16800承載獨創(chuàng)的iLossLess智能無損交換算法,能夠對全網流量進行實時的學習訓練,并根據不同業(yè)務流量模型的特點動態(tài)設置最優(yōu)的網絡參數,更精準地控制流量,實現百萬流和基于應用的隊列自適應不同場景的全局網絡自優(yōu)化能力。從而在零丟包基礎上獲得更低時延和更高吞吐的網絡性能,克服傳統(tǒng)以太網丟包導致的算力損失,將AI算力從50%提升到100%,數據存儲IOPS(Input/Output Operations Per Second)性能提升30%。
單槽48 x 400GE
業(yè)界最高密度單槽位48 x 400GE,滿足AI時代5倍流量增長需求,為了滿足AI流量需求,華為主要強調了三個“Super”
SuperFast高速互聯(lián):新材料新工藝,100G->400G全生命周期兼容演進。從100G到高密400G,首先考驗的是信號高速傳輸能力, 400G接口系統(tǒng)內互連信號頻率53G以上,信號的頻率每翻一倍,PCB線路板信號衰減就會增大20%以上,傳統(tǒng)的電路板由于采用的普通銅箔材料及制造工藝問題,當信號傳輸速率提升的時候,損耗和高頻干擾非常嚴重,存在速率極限。 華為采用新型亞微米無損材料及高分子鍵合技術的制作工藝,將電信號的傳輸效率提升30%,滿足100G到400G全生命周期兼容和能力演進。
SuperPower最優(yōu)能效,電源空間節(jié)省50%,供電效率提升90%。華為提出業(yè)界首個雙路輸入智能切換的電源模塊,采用磁吹滅弧和大勵磁技術實現ms級快速切換,21個電源模塊就可以實現原來40個模塊所達到的供電能力和可靠性,電源空間節(jié)省50%。 線路板上采用矩陣磁和高頻磁技術,實現在兩個拇指大小的空間內提供1600W供電能力,使得單位空間的供電效率提升90%。
SuperCooling最強散熱,噪聲低于業(yè)界6分貝,散熱能力提升4倍。如此超高密度的交換機,散熱是整機工程能力的一個重要體現,CloudEngine 16800散熱系統(tǒng)包括單板級和系統(tǒng)級。單板散熱方面,芯片會產生熱量,如何將這些熱量均勻導出單板并散發(fā)出去是散熱設計的關鍵,CloudEngine 16800采用獨有的碳納米導熱墊和VC相變散熱技術,散熱效率較業(yè)界提升4倍,整機可靠性提升20%。整機散熱方面,華為采用了業(yè)界首創(chuàng)的混流風扇,可以使得整機散熱效率達到最佳,與業(yè)界相比,平均每bit數據的功耗降低50%,相當于每臺每年節(jié)省32萬度電,約合26萬元電費,減少碳排放250余噸。獨有的磁導率馬達,靜音導流環(huán)噪音降低6dB,CloudEngine 16800真正做到了綠色節(jié)能。
CloudEngine 16800全面升級了硬件交換平臺,在正交架構基礎上,應用如上技術,使單槽位可提供業(yè)界最高密度48端口400GE線卡,單機提供業(yè)界最大的768端口400GE交換容量,交換能力高達業(yè)界平均的5倍,同時單比特功耗下降50%,還綠色節(jié)能。
向自動駕駛網絡演進
使能自動駕駛網絡,秒級故障識別、分鐘級故障自動定位。秒級故障識別、分鐘級故障自動定位,CloudEngine 16800基于內置的AI芯片,可大幅度提升“網絡邊緣”即設備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力;通過本地智能結合集中的FabricInsight網絡分析器,構建分布式AI運維架構,可實現秒級故障識別和分鐘級故障自動定位,使能自動駕駛網絡加速到來。同時,該架構還可大幅提升運維系統(tǒng)的靈活性和可部署性。
CloudEngine16800作為一款面向AI時代的數據中心交換機,提出了一個新概念——數據中心AI交換機,這也是大廠分外看中的一個方向。獲悉,早在2017年,思科就以1.25億美元的代價收購了人工智能初創(chuàng)公司MindMeld,彼時就給AI交換機這個新物種帶來了一些期待,但后來卻鮮有聲音,在全球市場華為拔得頭籌,是否會掀起行業(yè)對于該類產品的追捧?競品遍地開花的情況可能不會太遙遠,不過其他廠商首先要妥當解決AI芯片的問題。
必然性與演進性
交換機在華為歷史上有著濃墨重彩的一筆,被無數次提及的萬門C&C08交換機,曾經讓任正非表態(tài)“研發(fā)不成功就跳樓”,C&C08的命名有兩層含義,一是 Country&City (農村&城市),表達了華為希望進入城市的決心;二是 Computer&Communication(計算機&通信),數字程控交換機就是計算機和通信的組合,至于08就是圖個吉利。
萬門C&C08交換機救了當時的華為,華為后來不少副總裁級別領導都出自該部門,華為也從彼時進入到傳輸、移動、智能、數通等領域。CloudEngine 16800會是華為引領AI時代數據中心網絡領域的先遣軍么?
根據華為GIV 2025(Global Industry Vision)的預測,到2025年,新增數據量達到180ZB,95%的非結構化數據(語音/視頻等)依賴AI處理。就算這些數據只有一部分存放在數據中心,對數據中心流量處理的影響也是“災難性”的。
Gartner研究總監(jiān)Owen Chen表示,AI將在很大程度上影響IT基礎架構,包括計算、存儲和網絡等,同時Gartner認為AI驅動數據中心網絡變革即將開始,一方面,AI業(yè)務運行對網絡交換提出新訴求,比如網絡要求超大帶寬(從100G到400G、800G),0丟包、E2E低時延;另一方面,AI驅動網絡部署運維重構,即從人工運維到AIOPS,關鍵詞包括意圖驅動、預測性維護、自治自愈、自動駕駛網絡、無人值守等。
此前總結,“談云不談網,都是耍流氓”,用以說明云網協(xié)同的重要性,云計算必須有足夠的網絡能力支撐。而其實計算、網絡和存儲的發(fā)展中,存儲介質有了閃存盤,時延降低不止100倍,計算領域的GPU和AI專用芯片,將數據處理能力提升了100倍以上,處理的協(xié)議由TCP/IP演進到RDMA,網絡的發(fā)展亦步亦趨,慢了一大拍。
同時觀測到,有一些超大規(guī)模數據中心采用白盒或者品牌白盒交換機,這是否已經成為一種趨勢?對此,華為交換機與企業(yè)網關產品線總裁鐘開生表示,這涉及到不同路徑的選擇,白盒交換機并不代表節(jié)約成本,比如要滿足運維要求就需要專業(yè)的人來做專業(yè)的事,華為多年來的積累能為客戶提供全套解決方案。
CloudEngine 16800現場實拍圖
超大規(guī)模數據中心的數量不斷增加,計算、存儲和數據三網融合,傳統(tǒng)人工運維手段已難以為繼,亟需引入創(chuàng)新的技術提升智能化運維的能力,關于AI運維,業(yè)內也有不同觀點,認為AI運維現在還是概念化階段,至多是簡單運維管理的自動化、批量化操作。
其實不管是內嵌AI芯片,還是智能運維,從現在的角度看都有其局限性,技術的發(fā)展也不可能一蹴而就,華為是在探索的同時推陳出新,比如1280012008E16800三大產品硬件平臺均不一樣,也反映出華為的仍在尋找更適合的技術路徑。
正如華為交換機的崛起一樣,性價比加服務模式讓華為收割市場,CloudEngine 16800則在性能上更進一步,適合于AI時代數據中心綜合需求。數據中心網絡進入AI時代有其必然性,但同樣有很大的演進空間。





