- Wang X, Su Y, Li Q, et al. Research on intelligent operation and maintenance management method of enterprise it[C]//Journal of Physics: Conference Series. IOP Publishing, 2021, 1732(1): 012059.
问题:随着现代企业IT相关软硬件系统变得越来越庞大、越来越复杂,这意味着运维的主要对象庞大、复杂、多样,运维的边界不断扩大,运维数据已经日益量化,传统的人工运维管理模式已经逐渐无法适应。
智能运维研究现状 #
随着信息技术的发展,企业IT运维管理的发展大致经历了四个阶段:手工阶段、工具和自动化阶段、平台阶段和智能运维阶段。
Gartner于2016年提出了人工智能IT运维(AIOps)的概念,并预测AIOps的全球部署率将从2017年的10%增长到2020年的50%。
Gartner.https//blogs.gartner.com/andrew-learner/2017/08/09/aiops-platforms/Liu D, Zhao Y , Xu H , et al.Opprentice : Towards Practical and Automatic Anomaly Detection Through Machine Learning[C]//Proceedings of the 2015 Internet Measurement Conference. New York: ACM Press,2015:211-224.
目前,众多科研机构(如清华大学NetMan智能运维实验室等)、互联网企业(如阿里巴巴、百度、京东金融等)、大型金融机构(如交通银行、银行等)中国等)、技术厂商(如Splunk、IBM、华为等)均走在智能运维工程应用的前沿,构建了运维大数据平台、智能分析等实际应用和决策、自动化工具,取得了良好的运维效果。
2019年,清华大学裴丹教授预测了AIOps产业的生态趋势。他指出:“各行业都在尝试落地AIOps,这为AIOps的方向提供了良好的产业基础。‘产、学、研、用’。各方都在积极跟进,形成AIOps生态圈。”
PEI Dan, ZHANG Shenglin, PEI Changhua. Intelligent Operation and Maintenance Based on Machine Learning[J]. Communications of CCF, 2017, 13(12): 67-73.
运维管理智能技术总体框架 #
对于企业IT来说,传统IT工具仍然发挥作用,充分保护企业的初期投资。智能运维管理是将人工智能技术融入到运维系统中,以大数据和机器学习为基础,从多种数据源收集海量数据(包括日志、业务数据、系统数据等)用于运维管理。实时或离线分析挖掘,从海量运维数据中自动学习总结规则,辅助运维人员在动态复杂的场景条件下做出高效决策[1]。准确的决策和判断,从而实现更好更快的决策和任务过程自动化。
因此,运维管理本质上是一个观察、判断、决策、执行的循环迭代过程。期望能够快速识别异常,准确定位故障,及时找出根本原因,及时响应和治疗,实现优质高效的愿景目标。从技术角度来看,智能运维管理基于多维度、海量时序KPI、文本日志、告警信息等,直接感知和采集各类关键运维数据。
ZHU Haiqi, JIANG Feng, Research and Analysis of Anomaly Detection Technology for Operation and Maintenance Data in the Era of Artificial Intelligence, NetInfo Security. 2019, Vol. 19 Issue (11),pp 24-35
加工后符合一定的规格和质量要求;基于大数据之上,利用机器学习等人工智能算法进行分析挖掘,根据具体运维场景分析确定运维事件的根源和传播关系,给出相应的决策建议,最后借助自动化工具直接进行运维操作。运维管理智能技术整体框架如下图所示。
为了构建运维领域的知识图谱,需要对运维管理的知识来源进行梳理。这些知识包含在结构化(如报警事件、监控数据等)、半结构化(如配置管理信息、日志等)和非结构化(如各种规范、手册、案例)数据中。相应的数据,获取语料库进行采集和提取。然后进行相关知识存储、知识建模与表示、知识补充与融合、知识计算等,完成运维领域知识图谱的构建。以运维领域知识图谱为支撑,重点收集运维场景中相关历史数据和实时数据,研究和实现智能故障预测、智能故障分析、智能运维等。维护调度等关键落地场景技术方法。
基于海量数据的智能故障预测方法 #
故障预测是运维管理中最基本的活动。传统运维通常在发现异常后采用运维方式进行处理,服务质量和用户体验往往受到不同程度的影响。如果将运维后的被动处理转变为事前的主动预测,用户体验和运维效率将得到大幅提升
基本思想 #
基于海量数据的智能故障预测方法依托人工智能的机器学习和深度学习能力,通过信息系统运维数据的实际采集和模拟生成部分训练数据,提取并分析看不见的特征故障事件发生前阶段前台业务异常情况的分析。
Jiahao Bu, Ying Liu, Shenglin Zhang,Weibin Meng, Qitong Liu, Xiaotian Zhu, and Dan Pei. Rapid deployment of anomaly detection models for large number of emerging kpi streams. In IEEE IPCCC, 2018.
网络指标下降、后台服务中断突变等常见特征,对主要、重大、一般、异常故障级别进行分类,并有效预测失败。
主要步骤 #
智能故障预测方法利用机器学习和深度学习,挖掘故障与异常之间的深层关联特征,对系统承载的应用数据进行分析,借助数据分析技术建立预测模型,客观、准确地捕捉故障的预兆。 - 故障症状,进而预测故障。具体方法步骤如下图所示。
首先,离线历史数据分析挖掘系统性能指标趋势和客观数据的深度关联特征,如运行环境、业务量突发事件、重大安全任务等。然后对性能指标进行在线实时监控,利用训练好的特征规则进行匹配推理,分析性能趋势,及时预测系统性能指标趋势。智能故障预测通过离线历史数据的训练得到预测模型。上线部署后,通过定期收集数据进行性能测试。同时,利用训练好的模型进行故障预测和推理。如果出现不可预测的故障,则汇总故障时间点之前的阶段数据作为训练输入,重新训练预测模型,不断迭代优化。
基于业务特征的智能故障分析方法 #
故障分析是运维管理中最常见的活动。企业信息系统故障表现出多样性,如性能报警、KPI异常或业务故障等。
Shenglin Zhang, Ying Liu, Weibin Meng, Zhiling Luo, Jiahao Bu, Sen Yang, Peixian Liang,Dan Pei, Jun Xu, Yuzhi Zhang, et al. Prefix: Switch failure prediction in datacenter networks. Proceedings of the ACM on Measurement and Analysis of Computing Systems,2(1):2, 2018.
ADEREMI O, ANDRONICUS A A. A Survey of Machine-learning and Nature-inspired Based Credit Card Fraud Detection Techniques[J]. International Journal of System Assurance Engineering and Management, 2017, 8(2): 937–953.
单一的故障报警已无法反映准确的故障信息,给运维人员带来困难。依靠经验判断和快速准确的定位。
主要思想 #
智能故障分析方法以业务承载的系统特征为切入点,综合分析企业信息系统网络、硬件、软件、数据、云平台等运维数据,进行故障预测和诊断。问题分析,弥补传统运维方式的缺陷。通过采用智能故障追踪技术,可以从多样化的告警中提取出共同特征,快速定位故障点,降低运维难度,提高运维效率。
主要步骤 #
智能故障分析方法基于大数据分析和人工智能特征挖掘,基于系统中网络等软硬件及业务隶属关系进行综合多维度历史数据分析,如:KPI、报警、性能、配置、日志、故障解决历史、运维工单历史数据等,挖掘人工经验无法总结的潜在特征和规则,输出实际运维中故障事件和特征匹配的规则库过程中,根据故障特征自动匹配故障规则进行诊断,并给出判断和处理建议。同时可以结合智能工单管理技术,实现故障精准定位并触发运维资源调度。具体方法步骤如下图所示。
智能故障诊断是故障分析的关键步骤,主要包括诊断规则库的生成和诊断规则的运行。
KWON D, KIM H, KIM J, et al. A Survey of Deep Learning-based Network Anomaly Detection[J]. Cluster Computing, 2019, 22(1): 949-961.
其中,基于AI学习的诊断规则库的生成包括多维度历史数据采集,并基于历史数据、人工智能模型算法实现的特征和规则挖掘数据。诊断规则的运行包括系统监控、实时故障和报警信息获取、匹配规则库、根本原因分析、智能故障诊断以及关联运维系统发出运维需求。
LITJENS G, KOOI T, BEJNORDI B E, et al. A Survey on Deep Learning in Medical Image Analysis[J]. Medical Image Analysis, 2017, 42: 60-88.[12] MOHAMMADI M, ALA A F, SAMEH S, et al. Deep Learnin
运维后,反转运维的有效性,对现有的规则体系进行修改和强化,进行自学习和自优化。
任务驱动的智能运维调度方法 #
运维调度是运维管理中最关键的活动。在执行运维任务后,特别是定位故障后,需要尽快安排运维人员处置,调度各类运维力量,完成网络、硬件、软件、数据、安全和云平台。处置效果的好坏直接决定运维效率。
基本思想 #
智能运维调度方法通过建立科学规范的工单体系、流转流程和流转机制,将系统运维活动量化为工单内容,有效连接运维人员和运维人员活动通过工单形成以任务为基础的系统。驱动智能运维调度流程,缩短处理时间,提高响应效率。
主要步骤 #
智能运维调度技术包括故障工单预警和基于AI学习的实时智能调度。具体方法步骤如下图所示。故障工单预警从历史工单信息中提取与故障发生相关的特征向量,借助多项式拟合、神经网络等AI经典预测算法生成故障模型。通过该模型,提取当前特征来预测发生故障的可能性,为主动运维提供策略参考。实时智能调度利用遗传算法根据工单类型、需求、优先级、备件、故障位置等自动规划满足全局最优调度的路径,实现实时调度。
Resource #
- [1]Gartner.https//blogs.gartner.com/andrew-learner/2017/08/09/aiops-platforms/Liu D, Zhao Y , Xu H , et al.Opprentice : Towards Practical and Automatic Anomaly Detection Through Machine Learning[C]//Proceedings of the 2015 Internet Measurement Conference. New York: ACM Press,2015:211-224.
- [2]PEI Dan, ZHANG Shenglin, PEI Changhua. Intelligent Operation and Maintenance Based on Machine Learning[J]. Communications of CCF, 2017, 13(12): 67-73.
- [3]ZHU Haiqi, JIANG Feng, Research and Analysis of Anomaly Detection Technology for Operation and Maintenance Data in the Era of Artificial Intelligence, NetInfo Security. 2019, Vol. 19 Issue (11),pp 24-35
- [4]Song Hai-tao , Wei Da-wei , Tang Guang-ming ,et a1. Anoma1y detection of single user behaviors based on pattern ming [J ] . Journal of Chinese Comput er Systems ,2016 ,37(2) :221226.
- [5]Jiahao Bu, Ying Liu, Shenglin Zhang,Weibin Meng, Qitong Liu, Xiaotian Zhu, and Dan Pei. Rapid deployment of anomaly detection models for large number of emerging kpi streams. In IEEE IPCCC, 2018.
- [6]Shenglin Zhang, Ying Liu, Weibin Meng, Zhiling Luo, Jiahao Bu, Sen Yang, Peixian Liang,Dan Pei, Jun Xu, Yuzhi Zhang, et al. Prefix: Switch failure prediction in datacenter networks. Proceedings of the ACM on Measurement and Analysis of Computing Systems,2(1):2, 2018.
- [7]ADEREMI O, ANDRONICUS A A. A Survey of Machine-learning and Nature-inspired Based Credit Card Fraud Detection Techniques[J]. International Journal of System Assurance Engineering and Management, 2017, 8(2): 937–953.
- [8]KWON D, KIM H, KIM J, et al. A Survey of Deep Learning-based Network Anomaly Detection[J]. Cluster Computing, 2019, 22(1): 949-961.
- [9]LITJENS G, KOOI T, BEJNORDI B E, et al. A Survey on Deep Learning in Medical Image Analysis[J]. Medical Image Analysis, 2017, 42: 60-88.[12] MOHAMMADI M, ALA A F, SAMEH S, et al. Deep Learnin