バックアップ・DR

フェイルオーバーテスト ふぇいるおーばーてすと

フェイルオーバー災害復旧DR訓練RTO高可用性BCP
フェイルオーバーテストって何?

簡単に言うとこんな感じ!

「本番システムが壊れたとき、予備システムに自動で切り替わる」仕組みが実際にちゃんと動くか、わざと障害を起こして確かめる訓練だよ!消防訓練みたいなもので、「いざというとき動くか」を本番前にテストしておくんだ!


フェイルオーバーテストとは

フェイルオーバーテスト(Failover Test)とは、システムに障害が発生したときに予備システムへ自動または手動で切り替わる「フェイルオーバー」機能が、実際に正しく動作するかを意図的に障害を起こして検証するテストのことです。

企業のシステムは「壊れないように作る」だけでなく、「壊れたときにすぐ復旧できるように作る」ことが重要です。しかし、いくら設計上は「切り替わるはず」でも、実際に試してみないと本当に動くかはわかりません。フェイルオーバーテストは、この「机上の計算」を「実証済みの事実」に変えるための訓練です。

BCP(事業継続計画)DR(ディザスターリカバリー) の実効性を担保するうえで不可欠なテストであり、金融機関・医療・EC事業者など、システム停止が許されない業種では定期的な実施が求められています。


フェイルオーバーテストの仕組みと種類

フェイルオーバーテストは「どこで」「どうやって」障害を起こすかによって、いくつかの種類に分かれます。

テスト種別内容リスク
計画的フェイルオーバー事前に告知・準備したうえで切り替えを実施低い(本番影響を最小化できる)
ブラインドテスト担当者に予告なしで実施(抜き打ち訓練)中程度(対応力を測れる)
カオスエンジニアリング本番環境に意図的な障害を注入して耐障害性を検証高い(Netflix等の大企業が採用)
DR訓練(全系切り替え)本番をすべて停止し、DRサイトで業務継続を確認高い(業務影響あり)

テストで確認すべき3つのポイント

  • RTO(目標復旧時間)を満たせるか — 「30分以内に復旧」という目標を実際に達成できるか
  • RPO(目標復旧時点)を満たせるか — 「直近1時間分のデータは失わない」という目標が守られるか
  • 業務継続性 — 切り替え後のシステムで実際の業務オペレーションが問題なく動くか

よくあるテスト手順(概要)

1. テスト計画の策定(対象システム・手順・判定基準を文書化)
2. 関係者への事前通知と承認取得
3. 現用環境のバックアップ確認
4. 意図的な障害の注入(サーバー停止・ネットワーク切断など)
5. フェイルオーバー動作の確認(自動切り替えの発動を観察)
6. RTOの計測(障害発生〜復旧完了までの時間を記録)
7. 業務テスト(切り替え後に実際の操作が通るか確認)
8. フェイルバック(元の構成への戻し)
9. 結果の記録・課題の改善

歴史と背景

  • 1960〜70年代 — メインフレーム時代。冗長構成の考え方が登場。ただしテストは費用・時間的に困難
  • 1980年代 — 金融・航空業界でDR要件が義務化。定期テストの概念が生まれる
  • 2001年 9.11同時多発テロ — 物理的災害がITインフラを破壊することが広く認識され、DR訓練の重要性が世界的に高まる
  • 2000年代後半仮想化技術(VMwareなど)の普及により、フェイルオーバーの自動化・テストが格段に容易になる
  • 2010年代 — クラウドの普及でマルチリージョン構成が一般化。AWS・Azureなどが自動フェイルオーバー機能を標準提供
  • 2011年(Netflix)Chaos Monkey をOSS公開。本番環境での意図的障害注入(カオスエンジニアリング)という概念が広まる
  • 現在 — ISO 22301(事業継続マネジメント)やクラウドのWell-Architectedフレームワークでもフェイルオーバーテストの定期実施が推奨されている

現用環境とDRサイトの関係

フェイルオーバーテストは「現用(プライマリ)」と「予備(セカンダリ/DRサイト)」の2拠点構成で実施されることが多いです。

フェイルオーバーテストの構成イメージ 🏢 現用サイト(Primary) Webサーバー(稼働中) DBサーバー(稼働中) ⚡ 障害注入(テスト) 🏭 DRサイト(Secondary) Webサーバー(待機中) DBサーバー(待機中) ✅ 引き継ぎ後に稼働 データ同期 (レプリケーション) フェイルオーバー (切り替え) 📏 ここでRTO(復旧時間)を計測する! 障害発生 → フェイルオーバー完了 → 業務確認完了 までの時間

フェイルオーバーテスト vs 関連テストの比較

テスト名目的本番停止頻度の目安
フェイルオーバーテスト切り替え機能の動作確認一時的にあり年1〜2回
バックアップリストアテストデータが復元できるか確認基本なし月1回
DR訓練(フルDRテスト)全系切り替えでの業務継続確認あり年1回
ペネトレーションテストセキュリティ上の侵入可能性を確認基本なし年1〜2回

関連する規格・RFC

規格・番号内容
ISO 22301事業継続マネジメントシステム(BCMS)の国際規格。DRテストの定期実施を要求
NIST SP 800-34米国政府向けの情報システム緊急時対応計画ガイド。テスト手順を詳細に規定
AWS Well-Architected(信頼性の柱)AWSが推奨するアーキテクチャのベストプラクティス。フェイルオーバーテストを明示的に推奨
FISC安全対策基準金融機関向け。バックアップセンターへの切り替え訓練の定期実施を要求

関連用語