发布日期:2023-10-08 15:35:32
分享到
01. 场景简述
采用weops的监控能力,结合exchange专家定制的专用化监控方案,实时监测服务器磁盘、邮件系统关键指标,异常告警,提醒管理员及时处理(支持自动化处理),配置后(近3个月),故障频率从1~2月一次,降到“零”故障。
02. 故事背景
1)邮件系统运维要求
周大福exchange邮件系统维系着全集团(包括顺德、武汉、香港和深圳等四大区)的协同办公,如分店与分店、分店与后勤的公告、文件、通知等,其重要性不言而喻,集团要求邮件系统可用性不低于99.99%,基本上不允许出现故障。
2)故障现象
今年上半年曾先后发生几起邮件投递失败的重大事故,受影响的用户多达上千人,it运维团队为此也受到严厉的责罚。
3)故障原因
最终定位到根因为部分exchange邮件系统服务器由于邮件量的增加,导致磁盘空间不足,触发了系统的反压机制,导致部分邮件无法正常投递,一直停留在队列中。
4)故障困扰
周大福邮件系统服务器数量多达40 台,且后端服务器的磁盘数较多(8-10个盘),尽管每天都在进行例行检查,发现磁盘不足及时扩充,但是扩多了浪费,扩少了很快又满,总是容易出现疏漏。令运维人员头疼的是,公司门店常有促销活动,需要大量带附件的邮件群发,这容易导致服务器的磁盘空间在前后两次巡检之间剧增达上百gb,造成故障,因此,事故接二连三的发生……
03. weops应对及效果
1)实时监测exchange邮件系统所有数据盘的磁盘空间,提前预警
① 对exchange邮件系统40 台服务器批量安装代理,实时监测磁盘空间的变化情况;
② 新建exchange邮件系统仪表盘,通过折线图方式展示所有数据盘的磁盘空间使用情况;
③ 基于本次故障的经验,对所有数据盘的“磁盘空间使用率” 设定严格的监控策略,并通过短信、邮件、微信等途径通知到相关人员处理。
当磁盘空间超过80%时,触发“预警”级别告警;
当磁盘空间超过85%时,触发“致命”级别告警;
④ 除对邮件系统的磁盘使用率、cpu、内存等基础指标监测外,还对邮件队列、重试投递队列、客户端连接数等关键应用指标进行检测,及时感知异常,保障邮件系统稳健运行。
2)weops实现效果
① weops监控告警配置完成后,未再出现邮件投递失败的事故
04. 场景适用性
该邮件系统监控的场景,适用于绝大部分企业的运维场景。weops监控,帮助企业早于业务发现问题,提升核心系统的可用性。
微信扫码登录
申请演示
请登录后在查看!