運用・保守

障害対応・インシデント管理しょうがいたいおう・いんしでんとかんり

インシデント管理障害対応問題管理ITIL障害復旧インシデント

障害対応・インシデント管理について教えて

簡単に言うとこんな感じ！

インシデント管理は「システムで何かおかしいことが起きたとき、素早く元に戻すための仕組み」のことだよ。飛行機のトラブル対応に例えると、「まず安全に着陸させる（復旧優先）→後でなぜ起きたか原因究明する」みたいな順序がある。「障害が起きたら困る」のは当然だけど、「起きたときにどう対応するか」を決めておくことが、発注者としての重要な備えなんだ！

障害対応・インシデント管理とは

インシデント（Incident） とは、ITIL（ITサービス管理のベストプラクティス）の定義では「計画されていないITサービスの中断、またはITサービスの品質低下」のことです。わかりやすく言えば「システムが動かない、遅い、エラーが出るなど、ユーザーに影響が出ているすべての問題」です。

インシデント管理（Incident Management） は、インシデントを検知してから復旧するまでの一連のプロセスを指します。重要なポイントは「原因の究明より、まず復旧を優先する」という考え方です。例えばサーバーが落ちた場合、原因調査より先にサーバーを再起動して業務を再開させる判断をします。原因の根本的な解決は「問題管理（Problem Management）」として別プロセスで行います。

発注者としては、ベンダーとのインシデント管理プロセスを事前に合意しておくことが重要です。特にインシデントの報告タイミング・報告内容・復旧目標時間（RTO）・復旧ポイント目標（RPO） をSLAに明記することで、重大障害発生時でも混乱なく対応を進められます。

インシデント管理の主要用語

用語	英語	意味
RTO	Recovery Time Objective	復旧目標時間。障害発生からシステムが再稼働するまでの目標時間
RPO	Recovery Point Objective	復旧目標時点。どの時点のデータまで戻すか（データ損失の許容範囲）
MTTR	Mean Time To Repair	平均修復時間。障害から復旧までの平均時間（短いほど良い）
MTBF	Mean Time Between Failures	平均故障間隔。どれくらいの頻度で障害が起きるか（長いほど良い）
ワークアラウンド	Workaround	根本解決ではなく一時的な回避策（例：手作業で代替）
ポストモーテム	Post-mortem	障害後の振り返り。原因・再発防止策をまとめた報告書

インシデント管理と問題管理の違い

項目	インシデント管理	問題管理
目的	素早く復旧させる	根本原因を特定・再発防止
優先事項	ビジネス継続	恒久的な解決
タイムライン	即時〜数時間	数日〜数週間
成果物	インシデントレポート	問題チケット・RCA（根本原因分析）レポート

歴史と背景

1989年：英国政府がITIL第1版を発行。「インシデント管理」を独立したITサービス管理プロセスとして定義。以後の標準的な障害対応フレームワークの基礎となる
1999〜2000年：ITバブル崩壊・Y2K問題対応を経て、企業のBCP（事業継続計画）とITシステムの連携が重視される
2007年：ITIL v3発行。サービスライフサイクルの概念が強化され、インシデント管理・問題管理・変更管理の連携が体系化
2010年代：DevOpsの普及で「ポストモーテム文化」が広まる。Googleの「Site Reliability Engineering（SRE）」で「blame-free（責任追及なし）の振り返り」が推進される
2019年：ITIL v4発行。アジャイル・DevOpsとの統合が強化される
2020年代：AIOps（AIを活用した運用）によるインシデント自動検知・自動対応が実用化

規格・標準	内容
ITIL v4	インシデント管理プロセスを「インシデント管理プラクティス」として定義
ISO/IEC 20000	ITサービスマネジメントの国際標準。インシデント管理の要件を規定
NIST SP 800-61	コンピュータセキュリティインシデント対応ガイド（セキュリティインシデント向け）
IPA「システム障害報告書」	重大インシデントの報告様式・内容に関するガイドライン

障害対応・インシデント管理しょうがいたいおう・いんしでんとかんり

障害対応・インシデント管理とは

インシデント管理の主要用語

インシデント管理と問題管理の違い

歴史と背景

インシデント対応フロー

関連する規格・RFC

関連用語