障害対応・インシデント管理 しょうがいたいおう・いんしでんとかんり
インシデント管理障害対応問題管理ITIL障害復旧インシデント
障害対応・インシデント管理について教えて
簡単に言うとこんな感じ!
インシデント管理は「システムで何かおかしいことが起きたとき、素早く元に戻すための仕組み」のことだよ。飛行機のトラブル対応に例えると、「まず安全に着陸させる(復旧優先)→後でなぜ起きたか原因究明する」みたいな順序がある。「障害が起きたら困る」のは当然だけど、「起きたときにどう対応するか」を決めておくことが、発注者としての重要な備えなんだ!
障害対応・インシデント管理とは
インシデント(Incident) とは、ITIL(ITサービス管理のベストプラクティス)の定義では「計画されていないITサービスの中断、またはITサービスの品質低下」のことです。わかりやすく言えば「システムが動かない、遅い、エラーが出るなど、ユーザーに影響が出ているすべての問題」です。
インシデント管理(Incident Management) は、インシデントを検知してから復旧するまでの一連のプロセスを指します。重要なポイントは「原因の究明より、まず復旧を優先する」という考え方です。例えばサーバーが落ちた場合、原因調査より先にサーバーを再起動して業務を再開させる判断をします。原因の根本的な解決は「問題管理(Problem Management)」として別プロセスで行います。
発注者としては、ベンダーとのインシデント管理プロセスを事前に合意しておくことが重要です。特にインシデントの報告タイミング・報告内容・復旧目標時間(RTO)・復旧ポイント目標(RPO) をSLAに明記することで、重大障害発生時でも混乱なく対応を進められます。
インシデント管理の主要用語
| 用語 | 英語 | 意味 |
|---|---|---|
| RTO | Recovery Time Objective | 復旧目標時間。障害発生からシステムが再稼働するまでの目標時間 |
| RPO | Recovery Point Objective | 復旧目標時点。どの時点のデータまで戻すか(データ損失の許容範囲) |
| MTTR | Mean Time To Repair | 平均修復時間。障害から復旧までの平均時間(短いほど良い) |
| MTBF | Mean Time Between Failures | 平均故障間隔。どれくらいの頻度で障害が起きるか(長いほど良い) |
| ワークアラウンド | Workaround | 根本解決ではなく一時的な回避策(例:手作業で代替) |
| ポストモーテム | Post-mortem | 障害後の振り返り。原因・再発防止策をまとめた報告書 |
インシデント管理と問題管理の違い
| 項目 | インシデント管理 | 問題管理 |
|---|---|---|
| 目的 | 素早く復旧させる | 根本原因を特定・再発防止 |
| 優先事項 | ビジネス継続 | 恒久的な解決 |
| タイムライン | 即時〜数時間 | 数日〜数週間 |
| 成果物 | インシデントレポート | 問題チケット・RCA(根本原因分析)レポート |
歴史と背景
- 1989年:英国政府がITIL第1版を発行。「インシデント管理」を独立したITサービス管理プロセスとして定義。以後の標準的な障害対応フレームワークの基礎となる
- 1999〜2000年:ITバブル崩壊・Y2K問題対応を経て、企業のBCP(事業継続計画)とITシステムの連携が重視される
- 2007年:ITIL v3発行。サービスライフサイクルの概念が強化され、インシデント管理・問題管理・変更管理の連携が体系化
- 2010年代:DevOpsの普及で「ポストモーテム文化」が広まる。Googleの「Site Reliability Engineering(SRE)」で「blame-free(責任追及なし)の振り返り」が推進される
- 2019年:ITIL v4発行。アジャイル・DevOpsとの統合が強化される
- 2020年代:AIOps(AIを活用した運用)によるインシデント自動検知・自動対応が実用化
インシデント対応フロー
関連する規格・RFC
| 規格・標準 | 内容 |
|---|---|
| ITIL v4 | インシデント管理プロセスを「インシデント管理プラクティス」として定義 |
| ISO/IEC 20000 | ITサービスマネジメントの国際標準。インシデント管理の要件を規定 |
| NIST SP 800-61 | コンピュータセキュリティインシデント対応ガイド(セキュリティインシデント向け) |
| IPA「システム障害報告書」 | 重大インシデントの報告様式・内容に関するガイドライン |
関連用語
- ヘルプデスク・サポート体制 — インシデントを最初に受け付けるサービスデスク
- エスカレーションフロー — 重大インシデント発生時の報告・引き継ぎルート
- SLA(サービスレベル合意) — RTO・MTTR等の復旧目標値を定める合意書
- 保守・運用契約 — インシデント対応の範囲と責任を定める契約
- ITIL — インシデント管理プロセスの標準的な設計指針
- システム評価・監査 — インシデント履歴を活用したシステム品質の評価