下载此文档

商业平台业务运维实践培训资料(ppt 36页).ppt


文档分类:通信/电子 | 页数:约36页 举报非法文档有奖
1/36
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/36 下载此文档
文档列表 文档介绍
商业平台业务运维实践培训资料(ppt 36页)
救火
防火
时间都去哪儿了
救火
防火
• 越是做到高级阶段,防火的工作所占的
比重就会越高。
• 从救火到防火,不是一蹴而就的事情,
应该是个逐渐演进的过程
思考点
发生
发现
响应
全部恢复
时间
故障发现
故障响应
故障修复
开始处理
故障定位
提升故障
发现率
提升故障处理速度
降低故障率
目标
故障预防
过程
Agenda
如何提升故障处理速度
如何提升故障发现率
如何降低故障率
1
2
3
故障响应规范
应急处理预案
这些都做了,还有提升的空间吗?
准确识别
故障响应时间
目标与措施
快速判断
故障定位时间
快速执行
故障修复时间





7*24值班规范 • 分析数据及图表 • 流量切换工具
• 报警内容 • 服务降级工具
职责与分工 • 故障运维手册 • 数据修复工具
故障预演 • 任务修复工具
• 回滚工具
• 数据提取工具
• ……
主要受哪些影响因素
影响因素
1、新手
2、故障处理步骤繁杂
应对方法
优化报警内容,使报警内容变得
可依赖。报警内容除了报告问题,还将
故障的判断和处理方法附在其中。
利用数据任务调度管理系统,
对数据任务进行统一管理
优化报警内容
该报警对应的运维专员联系方式
该报警对应的开发人员联系方式
减少对运
维人员经
验的依赖,
使得新人
和值班人
员都可以
快速处理
灵活配置报警内容
降低维护成本,
提升工作效率
繁杂数据故障处理
存在的问题:
• 不能快速识别哪些任务失败了,影响了谁
• 一个任务失败会导致多个任务失败,每个任务的任务都会发一个报警
• 处理多个任务失败时,需要人工确认修复顺序,还要等待每个任务执
行完成后再人工执行下一个
• 如果所需数据源存在短暂延迟到位,会导致任务执行失败并报警,有
时会对运维人员产生干扰
A
B
C
D
E
F
G
H
I
J
K
L
M

商业平台业务运维实践培训资料(ppt 36页) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数36
  • 收藏数0 收藏
  • 顶次数0
  • 上传人916581885
  • 文件大小5.21 MB
  • 时间2021-06-18