運用・保守

障害対応・インシデント管理 しょうがいたいおう・いんしでんとかんり

インシデント管理障害対応問題管理ITIL障害復旧インシデント
障害対応・インシデント管理について教えて

簡単に言うとこんな感じ!

インシデント管理は「システムで何かおかしいことが起きたとき、素早く元に戻すための仕組み」のことだよ。飛行機のトラブル対応に例えると、「まず安全に着陸させる(復旧優先)→後でなぜ起きたか原因究明する」みたいな順序がある。「障害が起きたら困る」のは当然だけど、「起きたときにどう対応するか」を決めておくことが、発注者としての重要な備えなんだ!


障害対応・インシデント管理とは

インシデント(Incident) とは、ITIL(ITサービス管理のベストプラクティス)の定義では「計画されていないITサービスの中断、またはITサービスの品質低下」のことです。わかりやすく言えば「システムが動かない、遅い、エラーが出るなど、ユーザーに影響が出ているすべての問題」です。

インシデント管理(Incident Management) は、インシデントを検知してから復旧するまでの一連のプロセスを指します。重要なポイントは「原因の究明より、まず復旧を優先する」という考え方です。例えばサーバーが落ちた場合、原因調査より先にサーバーを再起動して業務を再開させる判断をします。原因の根本的な解決は「問題管理(Problem Management)」として別プロセスで行います。

発注者としては、ベンダーとのインシデント管理プロセスを事前に合意しておくことが重要です。特にインシデントの報告タイミング・報告内容・復旧目標時間(RTO)・復旧ポイント目標(RPOSLAに明記することで、重大障害発生時でも混乱なく対応を進められます。


インシデント管理の主要用語

用語英語意味
RTORecovery Time Objective復旧目標時間。障害発生からシステムが再稼働するまでの目標時間
RPORecovery Point Objective復旧目標時点。どの時点のデータまで戻すか(データ損失の許容範囲)
MTTRMean Time To Repair平均修復時間。障害から復旧までの平均時間(短いほど良い)
MTBFMean Time Between Failures平均故障間隔。どれくらいの頻度で障害が起きるか(長いほど良い)
ワークアラウンドWorkaround根本解決ではなく一時的な回避策(例:手作業で代替)
ポストモーテムPost-mortem障害後の振り返り。原因・再発防止策をまとめた報告書

インシデント管理と問題管理の違い

項目インシデント管理問題管理
目的素早く復旧させる根本原因を特定・再発防止
優先事項ビジネス継続恒久的な解決
タイムライン即時〜数時間数日〜数週間
成果物インシデントレポート問題チケット・RCA(根本原因分析)レポート

歴史と背景

  • 1989年:英国政府がITIL第1版を発行。「インシデント管理」を独立したITサービス管理プロセスとして定義。以後の標準的な障害対応フレームワークの基礎となる
  • 1999〜2000年:ITバブル崩壊・Y2K問題対応を経て、企業のBCP(事業継続計画)とITシステムの連携が重視される
  • 2007年:ITIL v3発行。サービスライフサイクルの概念が強化され、インシデント管理・問題管理・変更管理の連携が体系化
  • 2010年代:DevOpsの普及で「ポストモーテム文化」が広まる。Googleの「Site Reliability Engineering(SRE)」で「blame-free(責任追及なし)の振り返り」が推進される
  • 2019年:ITIL v4発行。アジャイル・DevOpsとの統合が強化される
  • 2020年代AIOps(AIを活用した運用)によるインシデント自動検知・自動対応が実用化

インシデント対応フロー

インシデント対応フロー ①検知 監視ツール・ユーザー報告で把握 ②記録・分類 チケット起票・優先度判定 ③調査・診断 原因特定・影響範囲確認 ④復旧(ワークアラウンド含む) まず業務再開を最優先で ⑤クローズ・確認 ユーザーに復旧を確認・チケット閉鎖 ⑥ポストモーテム 振り返り→問題管理へ引き継ぎ ⏱ RTOとRPO RTO: 何時間以内に復旧 RPO: どこまでデータを戻す 重大度によって エスカレーション発動 → P1は即座に管理者報告

関連する規格・RFC

規格・標準内容
ITIL v4インシデント管理プロセスを「インシデント管理プラクティス」として定義
ISO/IEC 20000ITサービスマネジメントの国際標準。インシデント管理の要件を規定
NIST SP 800-61コンピュータセキュリティインシデント対応ガイド(セキュリティインシデント向け)
IPA「システム障害報告書」重大インシデントの報告様式・内容に関するガイドライン

関連用語