151****0110
发布于 2022-04-01 18:10:30
智能化运维近些年来开始被人们所熟知,我们专做it研发与运维,正好逛到这个问题,就来回答一波,希望能够帮到大家。
1. 智能运维是以大数据平台和机器学习(算法平台)为核心。
2. 智能运维需要与监控、服务台、自动化系统联动,智能运维需要从各个监控系统中抽取数据、面向用户提供服务、并有执行智能运维产生决策模型的自动化系统。
通过对运维数据的计算和分析支持智能监控、智能的故障分析和处理,智能it知识图谱等。
传统运维面对海量的运维数据,要快速止损和进行决策,人工专家的分析判断往往需要花费数小时或更大。
而aiops在于通过机器学习来进行运维数据的挖掘,能帮助人甚至代替人进行更有效和快速的决策。
智能运维在企业的落地,能够提升业务系统的sla,提升用户的体验,减小故障处理的时间等,带来业务的价值;并最终实现真正意义上的无人值守运维。
目前各大传统客户围绕aiops的探讨和建设主要是如下内容:
发现问题:基于机器学习的异常检测;
例如,目前监控数据的异常阈值往往是静态的,无法有效规避变更时间、特殊节假日、业务正常的高低峰等,简单阈值、同环比算法的覆盖面有限,很容易漏警和误警。
基于历史数据或进行样本标记的kpi异常检测,能第一时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。
根因分析:基于机器学习的故障树挖掘,定位故障发生的根源以及其原因;例如,首先实现故障精准定位,在多指标情况下的业务异常(多指标检测的异常),出现异常的原因具体是哪个指标导致的;然后根据故障树挖掘和知识图谱,实现故障的精准根因分析与定位。
预测未来:基于机器学习模型的指标预测;例如,基于多种回归和统计方法,实现对不同级别粒度的业务数据的预测,包括业务指标预测、容量预测等,如双11业务对组件容量和资源容量的容量预测等。
it辅助决策支持:深入运营场景,实现业务运营的it辅助决策应用;如营收预测、舆情分析与预测等场景。
算法层面则可以跟学术界进行合作或在社区中获取,在早期训练数据集和反馈数据量比较少的情况下,采用无监督学习,具体实现是用模式识别(pattern recognition)的技术来判断指标是否关联。关联性是通过时间序列曲线相似度(similarity distance)来衡量的。
机器学习算法库提供计算时间序列曲线相似度的各种算法,比如:欧几里德距离(euclidean distance)、曼哈顿距离(manhattan distance)、明科斯基距离(minkowski distance)等。
在有足够数据集以后,算法演化成有:监督学习、随机森林(random forrest)、gbdt(gradient boosted decision tree) 、(neutal network)等。
举报成功,我们会及时处理哦,谢谢
确定举报该用户的帖子吗?我们会在收到您的举报信息后核查该用户的言论是否违反社区条例,并对其做出相应处置,感谢您的反馈。
确定举报该用户的言论吗?我们会在收到您的举报信息后核查该用户的言论是否违反社区条例,并对其做出相应处置,感谢您的反馈。
第三方账号登陆
微信扫码登录
申请演示
请登录后在查看!
5访问量
0条评论