发布日期:2022-08-30 11:35:59
分享到
1. 从传统运维到aiops应用
1.1 场景举例
以企业常见的监控场景为例,传统的运维模式一般会采用阈值指标对特定的it对象设置告警策略。阈值的设定往往是固定不变的指标,在某些情形下会出现误告警或者不告警的问题,固定的阈值指标不能直接反映被监控对象的运行状态;更有甚者,许多告警事件之间存在共同原因,但是因为现有技术手段的原因不能找到发生告警的根本原因。诸如此类的情形导致组织效率低下、运维成本增高。
以上是传统运维中发生的典型场景,为了解决类似的问题,我们从场景出发抽象出解决方法的逻辑,可以发现,运维人员要做到:
其实要实现类似的功能或者目的,不可或缺的是机器学习、大数据分析等新兴技术手段。
1.2 传统运维困境特征总结
传统的运维模式正在面临两个主要的运维挑战:
与上例中传统运维面对的监控场景的困境类似,日益复杂的运维环境和新技术的更新迭代会带来一下问题:
一般而言,传统运维要经过脚本化运维、工具化运维、平台化运维、大数据运维,才能到达智能化运维阶段。如果从执行和决策的角度观察整个运维体系的演变,运维体系的决策权和执行权逐步的向机器或者系统转向,越是先进的运维体系或者工具,人在运维工作中的比重越低。具体内容可参看下图:
1.3 传统运维困境k8凯发天生赢家的解决方案—aiops逐渐浮出水面
我们必须承认:在传统方案下的运维能力已经达到了传统运维阶段应有的最高效率,因为一旦传统的运维k8凯发天生赢家的解决方案进一步改进的空间,那么运维困境就不会这么广泛和普遍,也就是说以上传统运维面临的共性问题是已有的运维体系达到了自身的能力边界后产生的。
在运维行业,技术的革新和应用是提升运维效率的至关重要的方法。针对传统运维无法解决的问题,新的技术和方法得到应用,比如大数据技术、机器学习技术。而aiops正是以这两种技术为代表的新兴的运维技术k8凯发天生赢家的解决方案。
2. aiops内容
2.1 aiops演变
aiops是从itoa演变过来的一个行业术语,itoa是通过软件或者工具把不同来源的信息收集起来进而运用大数据分析技术形成对运维事件的观点。aiops在内涵上与itoa有一脉相承的地方,但是在以下三个方面做了拓展:
2.2 aiops定义
根据国际著名管理咨询机构gartner的定义,aiops是大数据和机器学习的结合,使 it 操作流程自动化,包括事件关联、异常检测和因果关系确定。
如何理解gartner的定义呢?这里有两个重点,一个是大数据和机器学习的技术手段,另一个是基于技术手段做到的场景功能:运维环境或者事件的可视化(这里的可视化不仅仅是指可视化的界面展示,而是侧重运维数据包含能够导致工作人员得出对运维事件的有价值观点的信息,如因果关系、关联关系等)。具体可参考下图:
我们可以将aiops理解成:学习人类在运维过程中枯燥乏味的部分,包括机械化的操作、思维固化的判断识别,并代替人类高效完成这部分工作,让人类能够将时间和精力投入到有价值的创造中去,让企业实现业务价值,让员工发挥创造性,获得自我收获。
机器学习的作用在于:使用算法从运维数据中自动分析获得规律,并利用规律对未知数据进行预测、预警。
机器学习过程包括:
整个aiops的运维过程可以概括为:ai帮助人,ml赋能人。
2.3 aiops的运维目标
作为传统运维技术方案出现缺陷之后的补救或者优化方法,aiops旨在得到运维环境中有意义的见解并采取行动,以帮助 it 运行更高效的运营、做出更好的决策、以及支持业务生产力进一步发展。
2.4 aiops工作原理步骤
2.5 aiops最佳实践
2.6 业界aiops运维建设进展总结
根据人工智能运维体系在现实中的落地情况,大概可以分成五个发展层级,分别是:初始级、成长级、成熟级、专家级、卓越级,就大多数使用智能运维手段的公司而言,相当比例的企业处于专家级之前的阶段。
2.7 aiops运维服务架构设计
经过前面的叙述,我们要时刻不忘aiops的运维的本质:数据逐步建设和治理、学件逐步深入和全面、场景逐步扩展和联动、组织逐步培养和赋能,即无论是任何工具或者技术手段的应用,都要服从于提升运维体系建设、赋能组织的运维目标。
aiops运维体系架构图参考:
2.8 aiops建设路径
① 路径架构图
通过以上的介绍,可以发现,aiops的发展路径一直受到数据处理和分析能力的延宕或者推动,换言之,是数据的分析和处理能力决定了企业的智能运维k8凯发天生赢家的解决方案能够走多远。下图展示了整个aiops运维的建设路径,数据管理能力分成了三个阶段,由数据管理能力决定的智能分析也如此划分,智能运维的目标是具备智能数据管理能力以及复合模型的分析能力,从而服务与业务画像(运维数据的洞察)。
② 数据管理
在aiops运维体系中,数据的管理以及基于数据的分析能力是整个智能运维的基础和起点。
从数据属性上将,数据包括属性数据、运行数据和服务数据:
从数据的来源上讲,智能运维致力于把来自技术、业务及管理的数据元数据进行采集、存储、分析、应用:
对这三种数据的管理要遵循几个原则:
3. aiops相比传统运维的优势
aiops在整体层面而言,可以实现海量数据下的智能决策,提升故障发现、分析、处理的整体效率,并不断沉淀经验,实现更为快速和精准的运维运营决策。
具体到各个利益利益相关方,则有如下的优势:
1. 对一线运维人员:
2. 对企业it部门:
3. 对使用企业产品
微信扫码登录
申请演示
请登录后在查看!