MTTRとは
MTTRは、障害が起きてからサービスが復旧し通常利用できるまでの平均時間を表します。保守や運用のしやすさを示す代表的な指標で、短いほど復旧力が高いといえます。求め方は、一定期間の復旧に要した時間を合計し、故障件数で割ります(合計修復時間 ÷ 故障件数)。
復旧時間には、原因調査、部品交換や設定変更、テスト、公開までを含めるのが一般的です。実務では、監視のアラート発報から正常性確認完了までを計測区間とし、どこからどこまでを数えるかをチームで統一します。範囲が曖昧だと数値比較が難しくなります。
MTTRを継続的に追跡すると、ボトルネックの特定や改善の優先付けに役立ちます。手順の自動化、予備機の活用、アラート設計の見直しなどは短縮に有効です。MTBF(平均故障間隔)やSLAと合わせて見ると、信頼性の全体像をつかみやすくなります。なお、MTBFは故障と故障の間隔を示し、MTTRとは意味が異なります。

