復旧 ふっきゅう
インシデント対応障害対応BCPRTORPOディザスタリカバリ
復旧について教えて
簡単に言うとこんな感じ!
システムやサービスが障害・事故で止まったとき、「元の使える状態に戻す」作業が復旧だよ!お店で停電が起きたとき、電気を直してレジを再起動して「よし、営業再開!」ってなるイメージ。どこまで戻すか・どれだけ早く戻すかが腕の見せ所なんだ。
復旧とは
復旧(Recovery)とは、システム障害・サイバー攻撃・自然災害などのインシデント(問題事象)が発生したあと、ITシステムやビジネスサービスを正常稼働できる状態に戻す一連のプロセスを指します。単にサーバーを再起動するだけでなく、データの整合性確認・業務フローの再開確認・利用者への通知まで含めた広い概念です。
復旧は「いつまでに(RTO: 目標復旧時間)」「どの時点まで(RPO: 目標復旧時点)」戻すかという2つの指標で評価されます。この2つを事前に決めておくことが、実際の障害対応の速さと品質を左右します。
また復旧は、インシデント対応の全体フロー(検知 → 封じ込め → 根絶 → 復旧 → 事後対応)の中の第4フェーズに位置づけられており、その後のサービス正常化と再発防止策の実施につながる重要なステップです。
復旧の全体像と主要な指標
| 指標 | 正式名称 | 意味 | 例 |
|---|---|---|---|
| RTO | Recovery Time Objective(目標復旧時間) | 障害発生からサービス再開までの許容時間 | 「4時間以内に復旧する」 |
| RPO | Recovery Point Objective(目標復旧時点) | どの時点のデータまで失っても許容できるか | 「最大1時間前のデータまで許容」 |
| RLO | Recovery Level Objective(目標復旧レベル) | どこまで機能を回復させるか(全機能か部分か) | 「まず決済機能だけ先に復旧」 |
覚え方:RTO・RPOの語呂合わせ
RTO=「Time(時間)」→ いつまでに戻す? RPO=「Point(地点)」→ どこまで戻す?
時計(Time)で「いつ」、地図のピン(Point)で「どこ」と覚えると混乱しにくいです。
復旧フェーズの4ステップ
| ステップ | 内容 | 担当例 |
|---|---|---|
| ① 状態確認 | 何がどこまで壊れているか現状把握 | インフラ・SRE担当 |
| ② データ復元 | バックアップからデータをリストア | DBA・バックアップ担当 |
| ③ システム再起動・疎通確認 | サービスの起動・正常動作確認 | システム担当 |
| ④ 業務再開確認 | 実際の業務フローで問題ないか確認 | 業務担当・ユーザー |
歴史と背景
- 1970年代:メインフレーム時代、磁気テープによるバックアップと手動復旧が標準。復旧に数日かかることも珍しくなかった
- 1980年代:BCP(事業継続計画)の概念が米国金融機関を中心に広まり、IT復旧計画の体系化が始まる
- 1990年代:阪神・淡路大震災(1995年)を機に、日本でもDR(ディザスタリカバリ)サイトへの関心が高まる
- 2000年代:仮想化技術の普及により、サーバーのスナップショット復旧が現実的な選択肢になる。RTO・RPOの概念が一般化
- 2010年代:クラウド(AWS・Azureなど)の台頭で、地理的に離れた場所への自動フェイルオーバーが普及。復旧の自動化が加速
- 2020年代:ランサムウェア被害の急増を受け、「サイバーリカバリ(改ざん・暗号化されたデータからの復旧)」が新たな重要課題として注目される
復旧戦略の種類と比較
組織がどの戦略を採用するかは、コスト・RTO・RPOのトレードオフで決まります。
| 戦略 | 概要 | RTO目安 | コスト | 典型的な用途 |
|---|---|---|---|---|
| コールドスタンバイ | 普段は停止中の予備環境を手動で起動 | 数時間〜数日 | 低 | 社内の重要度低めなシステム |
| ウォームスタンバイ | 縮小構成で常時起動し、障害時に拡張 | 数十分〜数時間 | 中 | 基幹系・ECサイトなど |
| ホットスタンバイ | 本番と同等の環境が常時稼働・即切替 | 秒〜数分 | 高 | 金融・医療など24/365必須 |
| バックアップリストア | バックアップから手動でデータを復元 | 数時間〜数日 | 最低 | コスト優先の中小規模 |
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| ISO/IEC 27031 | ICTの事業継続に関する国際規格。復旧計画の策定・実施・評価のガイドライン |
| ISO 22301 | 事業継続マネジメントシステム(BCMS)の国際規格。復旧を含むBCP全体をカバー |
| NIST SP 800-34 | 米国国立標準技術研究所による情報システム緊急時計画ガイド。RTO・RPO定義の基礎 |
関連用語
- インシデント対応 — セキュリティ・システム障害時の検知から復旧・事後対応までの一連プロセス
- BCP(事業継続計画) — 災害・障害が起きても事業を継続・早期復旧するための計画
- ディザスタリカバリ — 大規模災害を想定した、拠点・システムの復旧計画と体制
- RTO(目標復旧時間) — 障害発生からサービス再開までの許容時間の目標値
- RPO(目標復旧時点) — どの時点のデータまで失っても許容できるかを示す目標値
- バックアップ — データの複製を別の場所に保存しておく障害対策の基本手段
- フェイルオーバー — 障害発生時に自動または手動で予備システムへ切り替える仕組み
- ランサムウェア — データを暗号化して身代金を要求するマルウェア。復旧計画の主要な脅威