设备运维指标计算

2024-12-28

- 字

设备运维指标在设备运维中非常的重要，通常体现在SLA中，对于系统的稳定性考核

1、平均检测时间（Mean time to detect ）MTTD

MTTD是指从系统故障到检测或告警所需的平均时间。

MTTD = 故障与检测之间的总时间/事件数量

例如：某系统在12:00发生故障，但直到12:10才有人注意到或被提醒，那么此时MTTD是10分钟。

MTTA是指从系统产生告警到人员开始注意并处理的平均时间。

MTTA = 检测与确认之间的总时间/事件数量

例如：安全组件在12:10检测并发送告警后，应急响应人员在12:15开始处理该事件。那么此时MTTA是5分钟。

MTTI是指从确认一个安全事件到开始调查其原因和解决方案的平均时间。

MTTI = 确认告警与分析调查之间的总时间/事件数量

例如：某安全运营人员在12:15开始处理告警并在12:30完成初步分析及拟定止损方案。那么此时MTTI是15分钟。

MTTC是指安全团队找到威胁者并阻止他们进一步进入你的系统和网络所需的时间。

MTTC = 分析调查与快速止损之间的总时间/事件数量

例如：自安全事件在12:10被检测到后，应急响应人员在12:45成功遏制了攻击者的利用方式并阻断了通讯隧道，有效地防止攻击者进行下一步入侵。

注意：遏制可能是隔离一个电子邮件账户，重设一个用户密码，或关闭一个服务器。遏制是走向恢复的第一步。应急响应团队越快遏制住威胁行为者，越能降低企业受到更大风险的可能性。

MTTR有4种不同的测量方法，这是由于R可以代表修复（repair）、恢复（recovery/restore）、响应（respond）和解决（resolve）。虽然这4个指标有重叠，但它们都有各自的含义和细微差别。安全人员通常关注的是平均响应时间这个指标。

MTTR是修复一个系统的平均时间。它包括维修时间和测试时间，直到系统再次完全运作。

MTTR = 将修复时间与恢复时间相加/修复次数

例如：一周内有10次停电，修复系统花费了4个小时。四个小时是240分钟。240除以10是24。这意味着在这种情况下，修复的平均时间是24分钟。

注意：平均修复时间并不总是与系统中断本身的时间相同。在某些情况下，修复这个动作是在产品故障或系统中断后的几分钟内开始。

MTTR（平均恢复时间）是指从产品或系统故障中恢复的平均时间。这包括从系统或产品发生故障到其重新完全运作的整个中断时间。

MTTR = 将故障时间与恢复时间相加/故障数量

例如：我们的系统在24小时内在两个独立事件中停机了30分钟。30除以2是15，所以我们的MTTR是15分钟。

注意：这个指标它包括故障现象出现到告警发出的这段延迟时间与respond有着明显的区别。

MTTR（平均解决时间）是指完全解决一个故障所需的平均时间。这不仅包括检测故障、诊断问题和修复问题的时间，还包括确保故障不会再次发生的时间。这个指标代表从“救火”到“防火”的转变。

MTTR = 将故障时间与完全解决之间的时间相加/故障数量

例如：你的系统在24小时内的一次事件中总共瘫痪了两个小时，而团队又花了两个小时进行修复，以确保系统中断不会再次发生，这就是解决该问题的总时间。这意味着你的MTTR是四个小时。

注意：MTTR 最常使用工作时间（8小时）计算（假设你在下班时将故障恢复，并在第二天上班时解决潜在问题，那么你的 MTTR 将不包括下班的16小时）。如果你的团队在能够7X24小时，或者有值班员工在下班后工作，那么这个指标将可以进行适当的微调。

MTTR（平均响应时间）是指从第一次收到警报时起，直到产品或系统从故障中恢复所需的平均时间。

MTTR = 检测告警与服务恢复之间的总时间/事件数量

示例：如果你在一个40小时的工作周里发生了四起事件，并且在这些事件上总共花了一个小时（从警报到恢复），那么你那一周的MTTR将是15分钟。

注意：平均响应时间不考虑问题已经存在但未被识别的时间。

“您的支持是我持续分享的动力”

微信

支付宝