发布日期:2022-08-14 13:57:01
分享到
本期我们就以google经典运维体系理念——sre为例,通过对sre的主旨内容剖析,梳理sre与运维开发之间的联系,同时通过典型sre落地案例详解,与大家一同探讨sre在金融行业的落地经验。
01. sre主旨内容概览
1)什么是sre
首先我们来看看sre的几个定义:
分别来看,起源于goole的sre相对于它的组织来说,定义得是较为契合的,首先google具备较强实力的人才储备,其次,经过了大量的内部实践,是经得起考验的,同时由内而外的推动使得这一体系的落地情况也比较全面。但对于国内企业来说, 全能型的人才稀缺以及传统理念的固化让这一定义显得并不是那么的完善。
站在国内企业自身的角度来看,我们更倾向于第三种:从实践角度看 sre 的关键点,就一个词:体系化,我们需要用全局视角才能更透彻的理解它。sre实际上是需要多个团队、多个岗位分别去承担不同职能,并且各个团队之间能够相互协作合力,同时对外与业务团队、产品团队连接,构建工具去实现日常的运维和运营。
2)sre与devops关系
本质上来讲sre与devops没有很大差别,都是伴随着分布式、云原生、容器化、微服务等技术所衍生出来的一些理念,我们可以理解为devops是sre核心理念的普适版。相比起来,devops比较抽象,而sre是google将devops具体实践后所提炼出来的理论体系。
3)sre指导思想与关键概念
sre具备以下几个指导思想:
围绕以上指导思想,我们可以将sre的一些关键概念串联起来,从而对sre体系有更明确的认知。
关键概念上,主要分为四个层面:
4)sre岗位/团队的主要工作
了解了sre整个体系的工作方式与方法以后,sre具体团队在做什么样的内容呢?主要分以下三个板块:
在这个过程中,我们可以下一个论断,即:运维模式/体系的下一站是sre,而运维技术的下一站是aiops。
5)sre方法论
方法论层面,主要有以下几个重要点:
02. sre运维平台与运维开发
1)运维管理平台:实现sre运维开发的底座
sre反复强调运维组织需要大量的参与到运维工具开发中去,来实现sre的转型。而做工具的开发,传统企业与互联网公司会有较大的区别。
因此对于大多数企业来说,要实现sre运维开发,需要一个统一的底座——具备通用能力、通用开发框架,同时提供统一的资源纳管,以及资源驱动等能力,借助统一底座,下层资源统一纳管实现数据打通和能力扩展,上层通用能力框架实现工具开发,可控生长,建立基于平台的完整运维开发体系。
其中包括几个典型的场景:
cmdb——sre运维管理体系的基石,建立消费驱动的,可视、可用、可信、可靠的运维高质量cmdb,支撑运维开发转型。
可观测性——助力sre实现全链路追踪与问题根因定位。构建trace、log、metric关联分析链路,依赖于平台,实现数据的统一处理。
自动化编排引擎——sre自动化运维的抓手,自动化场景的建设需要底层引擎的支撑,调用基本能力构建上层自动化体系,支撑sre工具能力拓展。
03. sre在金融行业落地探讨
1)落地案例分析
以国内某大型银行sre实践为例,其sre落地进程有以下几个重要关键点:
① 确定sre落地的核心理念:
符合长期战略,改善运维手动、重复性工作,建立sre团队提升运维价值。
② 组建sre试点团队:
包含团队负责人,轮值团队经理,业务核心技术成员,其他部门协助人员,从不同的团队中抽调相应人员,保证每位人员都清楚的认知sre的建设目标,力出一孔。
③ sre工作模式:采取平战结合模式。
战时应急依赖于平时建设的工具、自动化能力、问题总结等,形成平战结合的工作模式。
④ sre团队okr:
团队okr的制定与工作模式紧密配合,通过平战结合的模式,实现全景业务系统可感可见,应急处置可管可控,业务指标可计可析。同时sre团队建立三会机制,即周例会、月例会、专题会,保证日常工作与专项事宜的快速处理。
目前来看该行的sre实践是比较成功的,其核心在于sre团队的组建,一方面需要有开发人员介入,核心业务人员要懂开发,懂架构,具备运维开发能力。另一方面需要具备组织能力,sre建设目标分解到各个团队中,人员之间实现能力的融合,从而形成体系化的组织,推进整体sre进程。
除此之外我们对众多企业sre进程和落地实践也进行了详细的深入分析,包含农业银行、腾讯、美图等,如您感兴趣,欢迎点击了解详情!
2)经验探讨
① sre是否适合在金融行业落地?
sre是一个体系化的过程,从组织架构、到文化宣贯、到工具构建、到人员能力配备都具备以后,才能形成完整的sre体系。
我们建议可以先针对其中某一方向,例如工具向平台化层面去靠拢,同时如果还有富余的精力的话可以考虑进行一部分运维开发能力的建设,除此之外组织能力也可以适当培养,从而一步一步向sre迈进,而不是一步登天。
② 如果要落地,需要注意哪些事项?
主要有3个重点:
微信扫码登录
申请演示
请登录后在查看!