負荷分散と可用性

稼働率 かどうりつ

可用性SLAダウンタイムMTBFMTTR信頼性
稼働率について教えて

簡単に言うとこんな感じ!

システムが「ちゃんと動いていた時間の割合」のことだよ!たとえば1年間のうち止まっていた時間が8.76時間だけなら稼働率99.9%(いわゆる「スリーナイン」)ってこと。数字が大きいほど「めったに落ちない優秀なシステム」なんだ!


稼働率とは

稼働率(Availability)とは、システムやサービスが正常に動作している時間の割合を示す指標です。「全体の時間のうち、何割の時間は使えていたか」を0〜1(または0〜100%)で表します。システムの信頼性・可用性を評価する際の最も基本的な指標のひとつです。

たとえばシステム発注・選定の場面では、ベンダーが「稼働率99.9%を保証します」と提示してくることがあります。これはSLA(サービスレベル合意)の核心的な数値であり、その数字がどれほどのダウンタイム(停止時間)を意味するのかを正しく読み解くことが、発注側に求められる重要なリテラシーです。

稼働率は単に「落ちにくい」という印象論ではなく、数式で明確に定義されます。MTBF(平均故障間隔)とMTTR(平均修復時間)という2つの値から計算でき、システム設計や運用改善の方向性を議論するための共通言語として機能します。


稼働率の計算式と「ナイン」の世界

稼働率は次の式で求められます。

稼働率 = MTBF ÷ (MTBF + MTTR)

MTBF(Mean Time Between Failures)= 平均故障間隔(壊れずに動き続ける平均時間)
MTTR(Mean Time To Repair)       = 平均修復時間(故障してから直るまでの平均時間)

「ナイン」で読み解く稼働率

稼働率は「9が何個並ぶか」で表現されることが多く、業界では「ナイン」と呼ばれます。

呼び方稼働率年間ダウンタイムの目安実務イメージ
ツーナイン99%約87.6時間(≒3.6日)社内の非重要システム
スリーナイン99.9%約8.76時間一般的なWebサービス
フォーナイン99.99%約52.6分業務基幹システム
ファイブナイン99.999%約5.26分金融・通信インフラ
シックスナイン99.9999%約31.5秒航空・医療など超高信頼

ポイント: 99%と99.9%は「たった0.9%の差」に見えますが、年間ダウンタイムは約10倍違います。発注時にこの差を把握しておくことが重要です。

直列・並列構成と合成稼働率の覚え方

複数のコンポーネントを組み合わせるとき、稼働率の計算方法が変わります。

  • 直列構成(すべてが動いて初めて動く): 全体稼働率 = A × B × C ...(どんどん下がる)
  • 並列構成(どれか1つ動けばOK): 全体稼働率 = 1 − (1−A) × (1−B) ...(上がる)

「直列は掛け算でどんどん落ちる、並列は冗長化で上がる」と覚えておきましょう!


歴史と背景

  • 1950年代〜: 航空・軍事分野で信頼性工学(Reliability Engineering)が体系化。MTBF・MTTRの概念が確立される
  • 1960〜70年代: IBMなどのメインフレームメーカーがハードウェアの信頼性指標として稼働率を顧客向けに提示し始める
  • 1990年代: インターネットの普及とともにWebサービスの「可用性」が重要視され、稼働率がSLAの核心指標として定着
  • 2000年代: AmazonやGoogleなどのクラウド事業者がSLAで稼働率を明記する商慣習を確立。「フォーナイン」が業界標準の目標値として広まる
  • 2010年代以降: クラウドネイティブマイクロサービスの普及により、単一システムの稼働率だけでなくエンドツーエンドの可用性設計が重視されるようになる

稼働率・MTBF・MTTRの関係

3つの指標がどのように関係しているかを図解します。

稼働率・MTBF・MTTRの関係 MTBF 平均故障間隔 (正常稼働している時間) MTTR 平均修復時間 (故障→復旧までの時間) 稼働率 MTBF ÷ (MTBF+MTTR) (0〜1 または 0〜100%) 稼働率を上げる2つのアプローチ ① MTBFを大きくする → 壊れにくくする(品質向上・冗長化) ② MTTRを小さくする → 早く直す(監視・自動復旧・手順整備)

SLAにおける稼働率の読み方

発注時にベンダーが提示するSLAの稼働率は、多くの場合「月次」で計算されます。「年99.9%」と「月99.9%」では意味が異なるため、計測期間・計測方法・除外条件(メンテナンス時間など)を必ず確認することが重要です。

確認ポイント意味注意点
計測期間年間か月間か月間99.9%の方が年間より厳しい計算になることも
計測対象APIか画面か部分的な障害は含まない場合がある
除外時間定期メンテナンス除外が多いと実質的な保証が薄くなる
ペナルティ違反時の返金・補償稼働率違反が発生したときの対応を確認

関連する規格・RFC

規格・RFC番号内容
ITU-T E.800通信サービスにおける可用性・信頼性の定義と指標(MTBF・MTTRを含む)
IEC 60050-191信頼性・保全性の国際標準用語定義(稼働率の定義を含む)

関連用語

  • SLA — サービスレベル合意。稼働率はSLAの核心的な数値として使われる
  • 可用性 — システムが使える状態を維持できる能力。稼働率で定量化される
  • MTBF — 平均故障間隔。稼働率の計算に使う「壊れるまでの平均時間」
  • MTTR — 平均修復時間。稼働率の計算に使う「直るまでの平均時間」
  • 冗長化 — 並列構成で稼働率を高める設計手法
  • フェイルオーバー — 障害発生時に自動で予備システムへ切り替える仕組み
  • 負荷分散 — トラフィックを複数サーバーに分散し可用性を高める技術
  • クラウドSLA — AWSやAzureなどクラウド事業者が提示する稼働率保証の仕組み