負荷分散と可用性

パイロットライト ぱいろっとらいと

ディザスタリカバリフェイルオーバークラウドRTORPO可用性
パイロットライトについて教えて

簡単に言うとこんな感じ!

ガスコンロの「種火」みたいなイメージだよ!障害時にすぐ本番環境を立ち上げられるよう、最低限のシステムだけをクラウドで常時動かしておく災害対策の手法なんだ。フル稼働じゃないからコストを抑えつつ、いざとなれば素早く復旧できるってこと!


パイロットライト とは

パイロットライト(Pilot Light) とは、災害復旧(DR: Disaster Recovery)戦略のひとつで、本番環境の「最小限のコア部分だけ」をクラウド上で常時稼働させておく手法です。名前の由来はガスコンロの「種火(パイロットライト)」で、普段は小さな火を燃やし続け、必要なときにすぐ大きな火にできる様子をイメージしています。

通常時は、データベースレプリケーション(複製)や最小構成のサーバーのみ動かしておきます。障害が発生したときは、あらかじめ用意しておいた設定や自動化スクリプトを使って残りのリソース(Webサーバー・アプリケーションサーバーなど)を素早く起動し、フルスケールの本番環境に切り替えます。

クラウドが普及する以前は、予備のデータセンターを丸ごと用意するのが一般的でしたが、それでは莫大なコストがかかります。パイロットライト戦略ではコストを最小限に抑えながらも数十分〜数時間以内の復旧を実現できるため、中規模のシステムで広く採用されています。


DR戦略の4つのレベル

DRにはコストと復旧速度のトレードオフにより、主に4つの戦略があります。パイロットライトはその中間に位置します。

戦略概要復旧目標時間(RTO)コスト
バックアップ&リストアデータを定期バックアップし、障害時に一から復元数時間〜数日最安
パイロットライトコア部分のみ常時稼働、障害時にスケールアップ数十分〜数時間低〜中
ウォームスタンバイ縮小版の本番環境を常時稼働させておく数分〜数十分中〜高
マルチサイト(ホットスタンバイ)本番環境と同等の環境を常時フル稼働ほぼゼロ(秒〜分)最高

RTO と RPO ってなに?

DR戦略を選ぶときに必ず出てくる2つの指標です。

  • RTO(Recovery Time Objective): 「どれだけ早く復旧するか」の目標値。例:「障害から2時間以内に復旧する」
  • RPO(Recovery Point Objective): 「どの時点まで遡ってデータを復旧するか」の目標値。例:「最大1時間前の状態まで許容する」

パイロットライトは一般的に RTO: 数十分〜数時間、RPO: 数分〜数十分 を実現できます。

パイロットライト構成の要素

通常時に「常時稼働させておくもの」と「停止させておくもの」を切り分けるのがポイントです。

【通常時】
  ✅ 常時稼働(種火)
    - データベース(レプリカ)
    - DNS設定・ロードバランサー
    - 最小構成のアプリサーバー(1台)
    - 監視・アラートシステム

  🔴 停止・最小化(障害時に起動)
    - Webサーバー群
    - アプリケーションサーバー群
    - キャッシュサーバー
    - バッチ処理サーバー

歴史と背景

  • 2000年代前半: 企業のDR対策は「コールドスタンバイ(バックアップのみ)」か「ホットスタンバイ(フル複製)」の二択が主流。どちらもコストか復旧速度のどちらかを犠牲にしていた
  • 2006年: AWSがクラウドサービス(Amazon S3/EC2)を開始。必要なときだけサーバーを起動・停止できる環境が整い始める
  • 2010年代: クラウドの従量課金モデルが普及し、「普段は最小限だけ動かして、いざとなれば増やす」という発想が現実的になる
  • 2012年頃: AWSがDR戦略のベストプラクティスとして「バックアップ&リストア」「パイロットライト」「ウォームスタンバイ」「マルチサイト」の4段階フレームワークを公式に整理・公表
  • 2020年代: マルチクラウドIaC(Infrastructure as Code)の普及により、パイロットライト環境の自動化・管理がさらに容易になり、中小規模企業でも採用しやすくなった

DR戦略の比較と構成イメージ

4つの戦略を視覚的に比較すると、以下のような関係になります。

DR戦略の比較マップ ← コスト低い コスト高い → ← RTO 長い(復旧に時間かかる)    RTO 短い(すぐ復旧) → バックアップ & リストア コスト: ★☆☆☆ RTO: 数時間〜数日 RPO: 数時間 パイロット ライト ★ コスト: ★★☆☆ RTO: 数十分〜数時間 RPO: 数分〜数十分 ウォーム スタンバイ コスト: ★★★☆ RTO: 数分〜数十分 RPO: 数秒〜数分 マルチサイト (ホット) コスト: ★★★★ RTO: 秒〜分 RPO: ほぼゼロ 【パイロットライトの通常時/障害時】 通常時(種火モード) 🔵 DBレプリカ … 稼働中 🔴 Webサーバー群 … 停止 🔴 APサーバー群 … 停止 障害! 自動拡張 障害時(フルスケール) ✅ DBレプリカ … 昇格 ✅ Webサーバー群 … 起動 ✅ APサーバー群 … 起動

実際の発注・選定でどう使う?

システムの重要度によって戦略を使い分けるのが現実的です。

システムの例推奨DR戦略理由
社内掲示板・情報共有ツールバックアップ&リストア止まっても業務への影響が限定的
基幹業務システム・ECサイトパイロットライトコストと復旧速度のバランスが良い
金融取引・医療システムマルチサイト1秒の停止も許されない

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 27031事業継続のためのICT対応準備に関するガイドライン(DR・BCPの国際標準)

関連用語