发布日期:2022-11-24 17:40:18
分享到
嘉为长期深耕于ad领域,对ad的规划、建设、升级、运维管理、灾难恢复、故障处理等均有实践经验,建立起了理念、技术、方案和人才的丰富储备,能够实现ad在企业内部的从无到有,从有到优。
然而并非所有企业都能成功建立起了合适的ad运维模式,其运维人员也不得不面对一个个“伤筋动骨”的ad故障。
下面将通过讲述某科技公司,以非良性ad运维模式为诱因,ad域内所有域控均发生故障,必须进行林恢复的真实案例,与大家共同分享嘉为在ad领域的实践经验。
01. 案例背景
1)故事的起点——常规恢复手段失效
2022年6月13日,该企业it管理员突然发现,在企业内部的无线网络无法正常认证连接,部分服务器的dns无法解析域名。
在经过简单排查后发现,出现异常的客户端,其dns服务器均指向主域控(指pdc角色所有者,这台主域控同时也是提供内部证书服务的ca服务器),随后it管理员临时将dns服务、应用ldap连接从主域控迁移到同站点同机房的另一台域控制器上,同时临时取消了无线网络的认证规则。
暂时恢复业务后,it管理员按照日常方式,重新搭建了域控制器,以此来替代旧服务器,但将新服务器升级为域控时却出现了新的报错,报错中提到新服务器无法加入域,同时dns注册异常。
在将常规手段全部尝试了一遍无果后,管理员开始寻求外部协助。
02. 雷厉风行,嘉为迅速介入
1)故障初步排查——提供常见恢复方案
2022年6月15日晚,该企业管理员通过集团总部联系到嘉为服务团队,嘉为立即提供了远程支持,通过远程连接到ad域环境后,发现以下问题:
经过上述检查后,嘉为技术人员以业务恢复为第一原则,做出以下判断:
2)尴尬而危险的平衡——更高的恢复要求
2022年6月16日凌晨,在提交初步k8凯发天生赢家的解决方案后,嘉为技术团队与开始域it管理员沟通实施细节,却发现远程实施该方案存在着以下不可预估的风险:
由于当前主要业务功能未受到很大影响,于是约定当日下午到企业现场进行故障处理。经过现场沟通,我们对其ad域故障事件的复杂性有了全面的认知:
① 恢复方案不能中断业务:主域控无法停机,任何涉及重启的修复操作不在考虑范围之内。
② 恢复方案受复杂环境影响大:ad域环境混乱,恢复方案需要排除的影响点过多,其中包括:
③ 恢复方案的时间压力大:618期间,业务流量大,连续性要求高,当前仅一台域控制器提供认证,随时可能发生业务中断,必须尽快恢复。
既不能停机,又没有ad健康备份的保障,再加上参差不齐的服务器配置、复杂难捋的网络环境以及业务高峰的现实压力,此时这套ad系统,正处在一个尴尬而危险的平衡点,随时有可能绷断。
在对故障信息有了以上清晰的认知后,嘉为团队提出了一个新的k8凯发天生赢家的解决方案,用过隔离辅助域控,进行林恢复。
3)新方案的制定——保障业务连续稳健恢复
2022年6月17日上午,嘉为团队再一次对企业ad域环境进行了深度调研,获取各个域控的基本信息、应用角色以及受损情况。
针对域控上的服务角色,如dhcp、dps、ca等,分别制定了迁移方案,以此形成了服务器信息调研表、拓扑图,故障恢复流程、checklist、恢复备案等合一的ad环境故障恢复方案。
同时与企业ad管理员、网络管理员、应用管理员等几乎所有相关的it管理员沟通,并组织了多次的方案讨论,最终确定了恢复方案。
在最终确定的恢复方案中,高版本的辅助域控将作为恢复基点,在隔离环境中执行以下操作:
确保林恢复完成后,再进行一系列的域控搭建、服务角色迁移、脱域计算机处理等操作:
4)新方案的执行——些许波折,成功执行
2022年6月18日晚。所有人到岗待命,开始执行恢复方案。
然而在准备隔离环境域控制器第一步时,就发生了令气压骤增的情况,原定计划需要使用生产环境的辅助域控进行裸机备份,再将裸机备份还原到隔离环境中,进行修复。
然而,企业整体环境中的虚拟化平台资源极少,大部分服务器均为物理机,在进行裸机备份还原的过程中,客户提供的虚拟机始终无法成功还原备份。
在经过2小时的尝试后,嘉为团队决定采用备份还原验证域生产服务器恢复并行的策略,即将备份提供给嘉为,让其使用其他可用环境还原验证,同时将一台生产环境的辅助域控制器进行隔离,进行恢复操作。
这样的决定,虽然稍微提高了对生产环境服务器的风险,但范围可以接受(限定在1台辅助域控制器)。终于在次日凌晨3点,成功在隔离环境中执行了林恢复,应用接入认证正常,常规域服务功能验证正常。
凌晨6点时,其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业ad域的基本业务均已恢复,ad域的可用性得到保障,所有人都松了一口气。
03. 案例示警
针对上述ad域故障恢复案例,我们可以提供一些具体的建议或建设范畴:
正如开头所说,ad是一套在许多企业内部落地的的基础架构系统,许多事件的参考信息可以很便捷地在网络上查阅,有关特定事件的处理、特定的功能实现也有齐备的文档参考,但这仅仅只能提高运维人员处理特定问题的能力,却无法在ad运维的整体逻辑上提供保障。
实际上,我们仍然会一遍又一遍的建议和帮助客户建立起适用于企业的ad运维管理规范,它们是围绕ad的操作文档、规章制度、流程管理、运维工具和一系列运维实践,是这些要素共同服务于企业it管理理念的产物。对于ad而言,健壮的“体魄”,而非“药石”,能更好地避免“伤筋动骨”。
04. 嘉为ad运维服务
针对企业ad运维,嘉为团队提供全面一站式的技术服务,包括:ad及基础架构实施、ad域升级与架构优化、ad安全加固、ad hw服务等,助企业打造坚如磐石的it系统,为企业信息系统保驾护航。
除此之外,嘉为还提供规划咨询服务、系统建设服务、二线专家服务、系统优化服务、it运维整体外包服务、人员派驻等服务,企业可以根据需求自由组合选择使用的服务内容和范围。
05. 智能转型——weops一体化运维平台
针对该科技公司ad域故障事件,嘉为团队后续推荐了weops一体化运维平台,持续赋能,帮助企业运维逐步迈向智能化。
嘉为蓝鲸weops,是一款专注于保障企业业务连续性、支持国产化的一站式运维平台,以故障定位和全生命周期管理为核心,融合联动资源中心、健康扫描、监控告警、知识库、数字大屏及自动化运维工具等多项功能。
有关企业ad运维,weops平台可从预防和监控故障处理两方面保驾护航:
1)预防
weops平台可针对日常排查时发现的一系列隐患做到及时预防。案例中由于企业ad不规范导致系统存在没有备份、没有补丁安装、网络环境负载等隐患,而weops平台可通过作业平台定时自动备份、通过补丁安装进行定期安装、通过平台进行网络设备的自动发现,生成拓扑完美解决上述问题。
2)监控故障处理
weops平台中的监控告警系统,可做到持续监控,智能告警,提前发现问题,降低业务影响,一旦发生故障,可通过拓扑图分析关联影响,同时结合资产管理分析资产影响情况,最后采用自动化工具快速解决故障,持续保障企业业务连续性。
嘉为蓝鲸weops平台满足国产化兼容,支持在国产环境下的一站式运维,自主可控,帮助用户解决工具功能单一、众多it运维对象管理难、自动化程度低、信创生态产品兼容等问题,助力客户安全落地一站式运维场景。
「经过与嘉为团队的协作,对其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业ad域的基本业务均已恢复,ad域的可用性得到保障,所有人都松了一口气。」
某科技公司近年来,面对全球新冠疫情危机以及严峻复杂的国内外环境,传统铝型材制造业遭遇到了严峻挑战,但是作为南海区制造业头部企业,坚美铝业积极响应《广东省佛山市落实推动制造业数字化智能化转型发展》的政策号召,攻坚克难,加大对升级建设自动化生产基地的投入,扩大产能,保持企业良好的增长势头。
创立于1929年的周大福,是全球著名的珠宝集团,零售网络遍及中国、日本、韩国、东南亚与美国。嘉为蓝鲸weops平台上线后,除了主机监控,监控范围增加了操作系统、数据库、中间件、虚拟化、云平台、基础应用等维度,运维人员可以主动针对影响业务的关键指标设置发现和解决问题的流程。
自新型冠状病毒爆发以来,地产行业面临前所未有的挑战,业务线上化已成为全面需求,某大型地产集团积极做出业务调整,全面实施线上卖房。通过线上应用服务,客户可以选择在线上享受看房、推荐及认购等一站式服务,该大型集团打破时间与空间的限制,为客户提供安全且便捷的服务。
微信扫码登录
申请演示
请登录后在查看!