3月3日凌晨,阿里云出現(xiàn)宕機(jī)故障,受宕機(jī)故障影響,華北不少互聯(lián)網(wǎng)公司 APP、網(wǎng)站紛紛癱瘓,一大波程序員、運(yùn)營和運(yùn)維不得不從被窩里爬起來干活。網(wǎng)友“上海藍(lán)盟網(wǎng)絡(luò)夏立成”調(diào)侃,“阿里云一年一宕機(jī),今年特別早”。
然而日常生產(chǎn)、生活對應(yīng)用依賴程度逐漸增加導(dǎo)致宕機(jī)頻率和成本都在升高,人工運(yùn)維投入產(chǎn)出卻在下降。根據(jù)專業(yè)評測機(jī)構(gòu) downdetector.com 統(tǒng)計(jì),2018年,F(xiàn)acebook 系統(tǒng)全年宕機(jī)200次,Youtube 宕機(jī) 140 次,Google 宕機(jī) 100 次。每次宕機(jī)損失至少 100 萬美元!某些事故對企業(yè)的影響將是災(zāi)難性的,對于金融、互聯(lián)網(wǎng)、電信等信息化成熟度較高的行業(yè)更是如此。
軟件系統(tǒng)帶來的復(fù)雜度提升,還需要軟件來應(yīng)對。人工智能(AI)技術(shù)結(jié)合運(yùn)維(Ops)場景,已成為目前業(yè)界看到的唯一應(yīng)對之道 -AIOps。然而,落地 AIOps 并不簡單,首先需要從改進(jìn)現(xiàn)有運(yùn)維流程,升級監(jiān)管裝備入手。當(dāng)前,大多企業(yè)的人工為主,基于 Zabbix、Nagios、Prometheus 等開源、商業(yè)數(shù)據(jù)采集系統(tǒng)建設(shè)的諸多監(jiān)控采集展現(xiàn)數(shù)據(jù)的方式,會隨著監(jiān)控對象和數(shù)據(jù)采集量激增而失控。
隨著信息系統(tǒng)加速升級演進(jìn),運(yùn)維也正在遵循人肉運(yùn)維>工具化運(yùn)維>自動化運(yùn)維>智能化運(yùn)維轉(zhuǎn)變歷程。因此,新一代運(yùn)維體系,理念上首先需要站在運(yùn)維人員角度將復(fù)雜變簡單,人工轉(zhuǎn)智能。要達(dá)成此目標(biāo),我們需要完成以下四階段運(yùn)維系統(tǒng)升級。
應(yīng)用全景監(jiān)控
整合分散、孤島監(jiān)控系統(tǒng)數(shù)據(jù),實(shí)現(xiàn)全景監(jiān)控視圖:整合已經(jīng)建設(shè)的基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、中間件、應(yīng)用監(jiān)控系統(tǒng),形成以風(fēng)險(xiǎn)感知為核心的監(jiān)控系統(tǒng)。
運(yùn)維大數(shù)據(jù)分析
轉(zhuǎn)數(shù)據(jù)監(jiān)控為信息監(jiān)控,基于大數(shù)據(jù)分析能力構(gòu)建運(yùn)維信息檢索平臺:融合指標(biāo)、日志、代碼執(zhí)行堆棧、網(wǎng)絡(luò)嗅探數(shù)據(jù),全量存儲、索引、融合海量低價值密度的運(yùn)維大數(shù)據(jù),為運(yùn)維人員提供便捷的信息查詢?nèi)肟凇?/p>
智能化運(yùn)維
用算法積累運(yùn)維經(jīng)驗(yàn),轉(zhuǎn)人工數(shù)據(jù)篩查為智能化分析:利用知識庫、規(guī)則引擎、概率圖模型等手段積累運(yùn)維專家經(jīng)驗(yàn),集成異常檢測、因果關(guān)系判斷、根因定位分析等算法引擎輔助人工篩選海量數(shù)據(jù),探測、解釋異常。
運(yùn)維可視化
運(yùn)維數(shù)據(jù)可視化,自然人機(jī)交互:將實(shí)時、歷史信息可視化,利用更直觀、自然的人機(jī)交互界面連接人腦和計(jì)算機(jī),實(shí)現(xiàn)敏捷高效運(yùn)維。
東軟 RealSight APM 應(yīng)用智能運(yùn)維平臺在傳統(tǒng)應(yīng)用性能管理(Application Performance Management, APM)類產(chǎn)品基礎(chǔ)上升級設(shè)計(jì)理念,引入先進(jìn)技術(shù),打造了全景化監(jiān)控視圖,運(yùn)維大數(shù)據(jù)分析、智能化異常檢測分析等能力。為保障政府、企業(yè)數(shù)字信息系統(tǒng)高效、穩(wěn)定運(yùn)行提供必要支撐。
如今,產(chǎn)品已經(jīng)在社保、醫(yī)療、汽車、運(yùn)營商、金融、快消、保險(xiǎn)等多個行業(yè)客戶得到應(yīng)用。服務(wù)于寶馬中國、寶馬金融、中國航空、蒙牛集團(tuán)、宜昌三峽運(yùn)、上海教委、北京東城區(qū)、中翼航食、吉林人社等。
產(chǎn)品在行業(yè)中的應(yīng)用場景
互聯(lián)網(wǎng)
全景監(jiān)控態(tài)勢,保障客戶數(shù)字體驗(yàn),提升客戶轉(zhuǎn)化率
金融
預(yù)測規(guī)避風(fēng)險(xiǎn),提升核心系統(tǒng)穩(wěn)定性,降低運(yùn)維成本
汽車
監(jiān)控車聯(lián)網(wǎng)車機(jī)端、云端全鏈條健康狀態(tài),提升行車安全保障
醫(yī)療
提升患者就醫(yī)客戶數(shù)字體驗(yàn),為互聯(lián)網(wǎng)醫(yī)療建設(shè)提供運(yùn)維支撐
政府
保障信息系統(tǒng)穩(wěn)定,為民生工程、公共管理提供高效可靠數(shù)字平臺支撐