江蘇移動將智能運維演進分為五個階段
前言
在歷經(jīng)蒸汽時代、電氣時代、信息時代的巨大演進變革之后,當今,已迎來新的歷史拐點:基于ICT?網(wǎng)絡,以大數(shù)據(jù)、云計算、人工智能等為代表的數(shù)字化技術(shù)被視為第四次技術(shù)革命。未來將是智能化的時代,技術(shù)演進和產(chǎn)業(yè)變革日趨加快,實體經(jīng)濟和數(shù)字經(jīng)濟深度融合,將極大地改變社會的生產(chǎn)和生活方式。
據(jù)預測,到2025年全球聯(lián)接指數(shù)將達1,000億,通信網(wǎng)絡作為信息高速公路,網(wǎng)絡故障影響范圍也不斷擴大;5G、物聯(lián)網(wǎng)、工業(yè)數(shù)字化的引入帶來復雜的網(wǎng)絡變化,并且多代技術(shù)長期共存,使得網(wǎng)絡故障快速定界、精準定位難度加大;海量的數(shù)字化業(yè)務和各類事件活動,帶來爆發(fā)式流量增長,對網(wǎng)絡安全穩(wěn)定運行帶來巨大挑戰(zhàn)。隨著網(wǎng)絡及業(yè)務復雜性的提高,維護難度加大,維護效率亟須提升,傳統(tǒng)“頭痛醫(yī)頭”的粗獷式維護不再適應網(wǎng)絡發(fā)展,放眼全球,網(wǎng)絡運維向基于數(shù)字化技術(shù)的智能維護轉(zhuǎn)型已成為行業(yè)發(fā)展趨勢。
例如,傳統(tǒng)的被動應急式維護R2F(Run-to-Failure)模式下,網(wǎng)絡故障頻發(fā),維護工程師疲于應對,且故障恢復時長因人而異;主動預防性維護PvM(Preventive Maintenance),即例行的巡檢維護,雖然可以一定程度上預防故障發(fā)生,但仍然效率低下。而大多數(shù)網(wǎng)絡設備的故障均有一個發(fā)展的過程,在設備尚未喪失其功能進入故障態(tài)之前有征兆可循,可根據(jù)某些物理狀態(tài)或工作參數(shù)的變化來判斷其功能故障的發(fā)生。
而數(shù)字化技術(shù)作為運維模式演進的引擎,開啟了新一階段的可預測性維護PdM(PredicTIve Maintenance),即能夠預測某個設備未來有多大概率發(fā)生故障,然后維護工程師可進行針對性的維護,一方面可以在影響用戶業(yè)務前規(guī)避故障的發(fā)生,另一方面可以通過計劃性例行維護大幅提升維護效率。
鑒于以上思考,中國移動確立了“網(wǎng)絡質(zhì)量是通信企業(yè)生命線”的大方向和新理念,積極打造下一代智慧網(wǎng)絡。而如何深度挖潛大數(shù)據(jù)和AI價值,向智能化維護演進,打造零中斷穩(wěn)健網(wǎng)絡,如何以更低的運維成本,更高的效率,保障更好的網(wǎng)絡質(zhì)量,提升用戶數(shù)字化業(yè)務體驗,成為江蘇移動新時代運維的迫切訴求。
智能化運維將是一個長期的過程,不可能一蹴而就。江蘇移動將智能運維演進分為五個階段:
第一階段,通過AI指出“發(fā)生了什么”。將AI引入電信網(wǎng)絡,帶來全新價值“可預測性”;
第二階段需要分析“為什么會發(fā)生”;
第三個階段需要預測“將會發(fā)生什么”;
第四個階段需要判斷“采取什么措施”,然后經(jīng)由人工實施操作;
第五個階段是全面實現(xiàn)網(wǎng)絡的自我控制和自動修復,提升網(wǎng)絡自愈能力。
正如計算機科學家艾倫·凱所說,預測未來的最好方法就是創(chuàng)造未來。江蘇移動采用“大處著想、小處著手、快速行動”的理念,聯(lián)合華為穩(wěn)健網(wǎng)絡項目組,對智能化維護進行了積極的探索和成功實踐。江蘇移動以大數(shù)據(jù)分析和AI算法為技術(shù)手段,深挖網(wǎng)絡運行過程中的海量數(shù)據(jù)和運維專家經(jīng)驗數(shù)據(jù),打造 “預、診、保、評”全流程的智能化運維能力,提升維護效率、降低網(wǎng)絡故障 ,通過建立以下四道防線,構(gòu)筑穩(wěn)健網(wǎng)絡,為網(wǎng)絡安全“護心”行動保駕護航。
?
圖:智能維護創(chuàng)新,構(gòu)筑穩(wěn)健網(wǎng)絡“四道防線”
防線一:實時風險預測
基于VoLTE語音業(yè)務建立實時風險預測,通過對現(xiàn)網(wǎng)的歷史指標樣本數(shù)據(jù)的自動采集,針對業(yè)務指標和錯誤碼數(shù)據(jù)進行自動分析,并提取數(shù)據(jù)的波動、周期性、同比環(huán)比擬合、統(tǒng)計、分布等五大特征,分別匹配不同算法,訓練出不同業(yè)務類型的故障預測模型。然后,利用現(xiàn)網(wǎng)數(shù)據(jù),通過風險預測模型實時對比分析,提前識別漸變類故障。經(jīng)過項目驗證,通過智能化風險預測的方法,可提前數(shù)小時識別網(wǎng)絡故障,極大地解決了VoLTE業(yè)務故障靠告警和用戶投訴式的故障發(fā)現(xiàn)慢的維護痛點。
防線二:故障自動診斷
首先通過信息聚類鉆取,完成話統(tǒng)、告警、操作日志等數(shù)據(jù)自動采集,并結(jié)合CHR信息,給出故障問題聚類;然后對故障產(chǎn)生的大量CHR、告警/IP數(shù)據(jù)在線匯聚分析,快速定位號碼/終端/小區(qū)等9個不同維度問題分布情況,并通過不同網(wǎng)元間的告警匯聚,直接分析定位到故障網(wǎng)元,大幅提升對海量告警、日志數(shù)據(jù)的分析效率。同時,對維護專家經(jīng)驗進行規(guī)則數(shù)字化,通過將華為全球VoLTE維護歷史經(jīng)驗、網(wǎng)元10,000+內(nèi)部錯誤碼處理建議等,轉(zhuǎn)化為工具可執(zhí)行的判斷邏輯和規(guī)則,依托于開源業(yè)務規(guī)則引擎Drools,最終將故障分析由人工向機器智能輔助轉(zhuǎn)變。同時,在項目實踐中實現(xiàn)了規(guī)則與軟件代碼的解耦,以便能實現(xiàn)快速迭代更新和維護。
防線三:網(wǎng)絡割接保障
為保障割接的成功實施,傳統(tǒng)割接項目組通常制定詳細的實施方案和保障計劃,但割接事故仍時常發(fā)生。而智能化網(wǎng)絡割接保障實踐則主要圍繞網(wǎng)絡割接的操作、驗證、值守三個階段進行創(chuàng)新:操作階段,通過E2E風險智能檢測,根據(jù)對網(wǎng)元有無操作、對業(yè)務有無影響等判斷,實施不同的監(jiān)控策略,以識別操作過程中的錯誤,自動提醒操作人員及時糾偏;驗證階段,基于網(wǎng)元、場景、專家經(jīng)驗的指標體系,結(jié)合告警/日志/撥測/CHR等自動分析,實現(xiàn)業(yè)務快速、深度驗證;值守階段,借助智能化輔助值守,實時監(jiān)控用戶投訴,快速識別并通報操作關(guān)聯(lián)風險,利用專家經(jīng)驗實現(xiàn)風險快速閉環(huán),并借助數(shù)字化技術(shù),解決操作過程無糾偏、驗證不充分、值守被動等投訴的傳統(tǒng)割接痛點。
防線四:在線智能評估
針對無法預測的網(wǎng)絡風險,采用傳統(tǒng)的網(wǎng)絡巡檢方式,檢測故障隱患效率低下,且對人員技能要求高。該項目借助智能分析手段,通過基礎評估、高頻在線評估、專項評估、趨勢性評估、自定義評估規(guī)則5大維度,實現(xiàn)對設備靜態(tài)配置的合理性檢查、設備軟硬件的實時運行狀態(tài)檢查、系統(tǒng)運行狀態(tài)的日志深度檢查、軟硬件資源的趨勢性檢查、維護人員自定義規(guī)則檢查等,對設備穩(wěn)健度全方位評估和網(wǎng)絡隱患監(jiān)控。通過將日常設備例行維護的經(jīng)驗固化為規(guī)則,然后實時在線采集數(shù)據(jù)和智能識別分析,網(wǎng)絡風險評估結(jié)果的準度可達到90%以上。
人工智能將是5G時代和智慧網(wǎng)絡時代的重要技術(shù),今后的無線網(wǎng)、核心網(wǎng)、傳輸網(wǎng)各個層面都離不開人工智能的技術(shù)和基礎。為了迎接網(wǎng)絡新時代的到來,中國移動集團積極打造下一代智慧網(wǎng)絡,而未來3年,江蘇移動和華為會在更多的智能運維領域進行合作,讓智慧網(wǎng)絡與智能運維作為數(shù)字化雙引擎,進一步助力中國移動向智慧運營轉(zhuǎn)型,把握未來數(shù)字化生態(tài)競爭中的關(guān)鍵點。?





