負荷分散と可用性

MTBF(平均故障間隔) えむてぃーびーえふ

可用性信頼性MTTR稼働率SLA障害
MTBFについて教えて

簡単に言うとこんな感じ!

機械やシステムが「壊れずに動き続けられる時間の平均」のことだよ!「このサーバーのMTBFは5万時間」なら、平均5万時間に1回くらい故障するって意味なんだ。数字が大きいほど「めったに壊れない=信頼性が高い」ってこと!


MTBFとは

MTBF(Mean Time Between Failures)とは、日本語で「平均故障間隔」と呼ばれ、システムや機器が「ある故障から次の故障まで、平均してどれくらいの時間、正常に稼働し続けるか」を示す指標です。単位は「時間(hours)」で表されることがほとんどで、数値が大きいほど故障しにくい=信頼性が高い機器・システムということになります。

MTBFはシステムの信頼性(Reliability)を定量的に評価するための代表的な指標で、サーバーやストレージ、ネットワーク機器などのカタログスペックにもよく登場します。システムの発注・選定をする際に「どのくらい安定して動いてくれるか」を比較するための共通言語として使われています。

また、MTBFは単体で語られるだけでなく、MTTR(平均修復時間)とセットで使われることが多く、この2つの数値から「稼働率(Availability)」が計算できます。SLA(サービスレベル契約)の根拠となる数値でもあるため、システム調達の場面では特に重要な概念です。


MTBFの計算と読み方

MTBFはシンプルな計算式で求められます。

項目説明
MTBF故障と故障の間の平均稼働時間
MTTR故障が発生してから復旧するまでの平均時間(Mean Time To Repair)
稼働率システムが正常に動いている時間の割合
MTBF の計算式:
  MTBF = 総稼働時間 ÷ 故障回数

稼働率の計算式:
  稼働率 = MTBF ÷ (MTBF + MTTR)

具体例で見てみよう:

あるサーバーが1年間(8,760時間)運用され、その間に3回故障し、各修復に合計12時間かかったとすると:

稼働時間  = 8,760 - 12 = 8,748 時間
MTBF     = 8,748 ÷ 3  = 2,916 時間(約4ヶ月に1回故障)
MTTR     = 12 ÷ 3     = 4 時間(1回あたりの平均修復時間)
稼働率   = 2,916 ÷ (2,916 + 4) ≈ 0.9986 → 約 99.86%

覚え方:「MTBF は Between(間)、MTTR は To Repair(直すまで)」

Between → Bは「Between(故障と故障の間)」= MTBF
Repair → Rは「Repair(修理)」= MTTR

この2つをセットで覚えておくと、稼働率の話題で迷わなくなります。

稼働率とナインズ(Nines)

稼働率は「9がいくつ並ぶか」で語られることが多く、ナインズ(Nines)と呼ばれます。

表現稼働率年間停止許容時間
Two Nines99%約87.6時間
Three Nines99.9%約8.76時間
Four Nines99.99%約52.6分
Five Nines99.999%約5.26分

基幹システムやクラウドサービスのSLAでは「Four Nines(99.99%)」以上が求められることも増えています。


歴史と背景

  • 1950年代〜:軍事・航空宇宙分野で機器の信頼性評価のために使われ始める。ミッションクリティカルな環境で「どれくらいの頻度で壊れるか」を定量化する必要があった
  • 1960〜70年代:電子機器・半導体産業に広がり、製品の品質管理指標として定着。JIS規格(JIS Z 8115)にも「信頼性用語」として整備される
  • 1980〜90年代:ITインフラの普及に伴い、サーバーやハードディスク(HDD)のカタログスペックにMTBFが記載されるようになる。特にHDDは「MTBF 100万時間」などの表記が一般的に
  • 2000年代以降:クラウドサービスの台頭とともに、SLA(サービスレベル契約)における稼働率保証の根拠としてMTBF/MTTRが活用される場面が増える
  • 現在オンプレミスのハードウェア選定だけでなく、クラウド移行の判断材料や、システム全体の可用性設計(冗長化構成の検討)においても重要な指標として使われている

MTBF・MTTR・稼働率の関係図

MTBF・MTTR・稼働率の関係 時間軸(システムのライフサイクル) 故障① ──── 稼働中(MTBF) ──── 故障② ──── 稼働中(MTBF) ──── MTBF Mean Time Between Failures 故障〜次の故障までの平均稼働時間 MTTR Mean Time To Repair 故障発生〜復旧までの平均修復時間 稼働率 Availability MTBF ÷ (MTBF + MTTR) 実務での使われ方 ・機器選定時の信頼性比較(MTBFが大きい=壊れにくい) ・SLA の稼働率保証(99.99% など)の根拠として使用

MTBFに関連する概念との比較

指標正式名称意味大きい方が良い?
MTBFMean Time Between Failures故障間の平均稼働時間✅ 大きいほど良い
MTTRMean Time To Repair平均修復時間❌ 小さいほど良い
MTTFMean Time To Failure修復不能な機器の平均寿命✅ 大きいほど良い
稼働率Availability正常稼働している時間の割合✅ 大きいほど良い

MTBFとMTTFの違い:MTBFは「修理して使い続ける機器」に使う指標(繰り返し故障あり)。MTTFは「壊れたら交換する部品」(電球や使い捨て部品)に使います。サーバーやネットワーク機器にはMTBFが使われます。

注意:MTBFは「保証された寿命」ではない!

カタログに「MTBF:100万時間」と書いてあっても、「100万時間(約114年)は絶対壊れない」という意味ではありません。あくまで統計的な平均値なので、10万時間で壊れることも、200万時間動き続けることもあります。購入後すぐ壊れる可能性もゼロではないため、重要なシステムでは冗長化構成(RAIDクラスタリングなど)と組み合わせて可用性を高める設計が必要です。


関連する規格・RFC

規格番号内容
JIS Z 8115信頼性用語(MTBF・MTTRを含む信頼性関連の日本語定義)
IEC 60050-191国際電気技術委員会による信頼性・保全性の用語定義
MIL-HDBK-217米国軍用規格。電子機器の信頼性予測(MTBF算出方法の基礎)

関連用語

  • MTTR — 平均修復時間。MTBFとセットで稼働率を計算するために使う指標
  • 稼働率 — システムが正常に動いている時間の割合。MTBF÷(MTBF+MTTR)で求められる
  • SLA — サービスレベル契約。稼働率をパーセンテージで保証する契約上の取り決め
  • 冗長化 — 障害に備えて機器やシステムを二重化・多重化すること
  • RAID — 複数のディスクを組み合わせて信頼性・性能を高めるストレージ技術
  • フェイルオーバー — 障害発生時に自動で予備システムへ切り替える仕組み