インシデント対応

復旧 ふっきゅう

インシデント対応障害対応BCPRTORPOディザスタリカバリ
復旧について教えて

簡単に言うとこんな感じ!

システムやサービスが障害・事故で止まったとき、「元の使える状態に戻す」作業が復旧だよ!お店で停電が起きたとき、電気を直してレジを再起動して「よし、営業再開!」ってなるイメージ。どこまで戻すか・どれだけ早く戻すかが腕の見せ所なんだ。


復旧とは

復旧(Recovery)とは、システム障害・サイバー攻撃・自然災害などのインシデント(問題事象)が発生したあと、ITシステムやビジネスサービスを正常稼働できる状態に戻す一連のプロセスを指します。単にサーバーを再起動するだけでなく、データの整合性確認・業務フローの再開確認・利用者への通知まで含めた広い概念です。

復旧は「いつまでに(RTO: 目標復旧時間)」「どの時点まで(RPO: 目標復旧時点)」戻すかという2つの指標で評価されます。この2つを事前に決めておくことが、実際の障害対応の速さと品質を左右します。

また復旧は、インシデント対応の全体フロー(検知封じ込め根絶復旧 → 事後対応)の中の第4フェーズに位置づけられており、その後のサービス正常化と再発防止策の実施につながる重要なステップです。


復旧の全体像と主要な指標

指標正式名称意味
RTORecovery Time Objective(目標復旧時間)障害発生からサービス再開までの許容時間「4時間以内に復旧する」
RPORecovery Point Objective(目標復旧時点)どの時点のデータまで失っても許容できるか「最大1時間前のデータまで許容」
RLORecovery Level Objective(目標復旧レベル)どこまで機能を回復させるか(全機能か部分か)「まず決済機能だけ先に復旧」

覚え方:RTO・RPOの語呂合わせ

RTO=「Time(時間)」→ いつまでに戻す? RPO=「Point(地点)」→ どこまで戻す?

時計(Time)で「いつ」、地図のピン(Point)で「どこ」と覚えると混乱しにくいです。

復旧フェーズの4ステップ

ステップ内容担当例
① 状態確認何がどこまで壊れているか現状把握インフラ・SRE担当
② データ復元バックアップからデータをリストアDBA・バックアップ担当
③ システム再起動・疎通確認サービスの起動・正常動作確認システム担当
④ 業務再開確認実際の業務フローで問題ないか確認業務担当・ユーザー

歴史と背景

  • 1970年代:メインフレーム時代、磁気テープによるバックアップと手動復旧が標準。復旧に数日かかることも珍しくなかった
  • 1980年代BCP(事業継続計画)の概念が米国金融機関を中心に広まり、IT復旧計画の体系化が始まる
  • 1990年代:阪神・淡路大震災(1995年)を機に、日本でもDR(ディザスタリカバリ)サイトへの関心が高まる
  • 2000年代仮想化技術の普及により、サーバーのスナップショット復旧が現実的な選択肢になる。RTO・RPOの概念が一般化
  • 2010年代:クラウド(AWS・Azureなど)の台頭で、地理的に離れた場所への自動フェイルオーバーが普及。復旧の自動化が加速
  • 2020年代ランサムウェア被害の急増を受け、「サイバーリカバリ(改ざん・暗号化されたデータからの復旧)」が新たな重要課題として注目される

復旧戦略の種類と比較

組織がどの戦略を採用するかは、コスト・RTO・RPOのトレードオフで決まります。

戦略概要RTO目安コスト典型的な用途
コールドスタンバイ普段は停止中の予備環境を手動で起動数時間〜数日社内の重要度低めなシステム
ウォームスタンバイ縮小構成で常時起動し、障害時に拡張数十分〜数時間基幹系・ECサイトなど
ホットスタンバイ本番と同等の環境が常時稼働・即切替秒〜数分金融・医療など24/365必須
バックアップリストアバックアップから手動でデータを復元数時間〜数日最低コスト優先の中小規模
復旧戦略のコスト vs RTO(概念図) コスト(高い →) RTO(短い →) バックアップ リストア RTO: 数時間〜日 コールド スタンバイ RTO: 数時間〜日 ウォーム スタンバイ RTO: 数十分〜時間 ホット スタンバイ RTO: 秒〜数分

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 27031ICTの事業継続に関する国際規格。復旧計画の策定・実施・評価のガイドライン
ISO 22301事業継続マネジメントシステム(BCMS)の国際規格。復旧を含むBCP全体をカバー
NIST SP 800-34米国国立標準技術研究所による情報システム緊急時計画ガイド。RTO・RPO定義の基礎

関連用語