負荷分散と可用性

SLA(サービスレベルアグリーメント) えすえるえー

サービスレベル可用性アップタイム障害対応クラウド契約ペナルティ
SLAについて教えて

簡単に言うとこんな感じ!

SLAは「このサービス、月の99.9%は動かし続けますよ!」っていう約束を文書にしたものだよ。もし守れなかったら返金とか補償がある”品質保証書”みたいなものなんだ。システムを発注するときの大事な交渉ポイントだよ!


SLAとは

SLA(Service Level Agreement:サービスレベルアグリーメント) とは、ITサービスの提供者(ベンダー)と利用者(企業など)の間で、「どのくらいの品質でサービスを提供するか」を数値で明確に約束した契約文書のことです。単なる努力目標ではなく、達成できなかった場合のペナルティや補償も定める法的効力のある合意です。

クラウドサービスやシステム保守契約では必ずと言っていいほど登場します。たとえば「月間稼働率99.9%を保証する」「障害発生から4時間以内に復旧する」といった約束がSLAに書かれており、これをもとにベンダーを選定・評価するのが実務の基本です。

SLAは発注者側にとって「何を買っているのか」を明確にするための道具です。曖昧な口約束をなくし、トラブル時の責任範囲をあらかじめ決めておくことで、想定外のコスト増やサービス停止リスクを管理できます。


SLAの主要な指標と構成要素

SLAに盛り込まれる代表的な指標を整理します。

指標名英語意味
稼働率可用性Availability / Uptime一定期間中にサービスが正常稼働している割合月間99.9%以上
RTORecovery Time Objective障害発生から復旧するまでの目標時間4時間以内
RPORecovery Point Objective障害発生時にどの時点までのデータを復元できるか直近1時間前まで
応答時間Response Timeリクエストに対するシステムの反応速度平均200ms以下
サポート対応時間Support Hours問い合わせや障害対応が受けられる時間帯24時間365日
ペナルティService CreditSLAを達成できなかった場合の補償内容月額料金の10%返金

稼働率「ナインの数」で覚えよう

稼働率はよく「ナイン(9)がいくつか」で表現されます。9の数が多いほど高品質ですが、コストも跳ね上がります。

表現稼働率年間ダウンタイム目安
ツーナイン99%約87.6時間
スリーナイン99.9%約8.76時間
フォーナイン99.99%約52.6分
ファイブナイン99.999%約5.26分

語呂合わせ:「9が多いほど止まらないが、お金も9(苦)労する」 と覚えましょう!

ペナルティ(サービスクレジット)の仕組み

SLAを下回った場合、多くのベンダーは「サービスクレジット」という形で次月の請求額を割り引きます。現金での返金ではなく、次回利用料の割引が一般的な点に注意しましょう。


歴史と背景

  • 1980年代後半:IT部門とビジネス部門の間の「内部SLA」として概念が登場。ITサービスの品質を可視化する必要性が高まる
  • 1990年代:アウトソーシング(外部委託)ブームとともに、ベンダーとの正式な契約書にSLAが組み込まれるようになる
  • 2000年代前半:インターネットサービスの普及で、ウェブサービスの稼働率保証としてSLAが一般化
  • 2006年〜:AWS(Amazon Web Services)がクラウドサービスを開始し、クラウドベンダー各社がSLAを公式に公開する慣行が定着
  • 2010年代以降マイクロサービス・APIエコノミーの広がりで、サービス間のSLA管理(内部SLA)が再び重要に
  • 現在:IaaS・SaaS・PaaSそれぞれのSLAを比較して発注判断するのが当たり前の時代に

SLAとよく似た用語との違い

SLAと混同されやすい用語を整理します。

用語正式名称意味SLAとの関係
SLOService Level ObjectiveSLA達成のための内部目標値SLAより少し厳しめに設定する社内目標
SLIService Level Indicator実際に計測する指標(稼働率の実測値など)SLOの達成を判断するための生データ
OLAOperational Level Agreement社内部門間の取り決めSLAを守るための社内約束
UCUnderpinning Contract外部委託先との契約SLAを支える下位契約

SLI → SLO → SLA の関係図

SLI Service Level Indicator 実際の計測値 (稼働率の実測など) SLO Service Level Objective 社内目標値 (SLAより厳しめ) SLA Service Level Agreement ベンダーとの契約 (補償付きの約束)

SLI(実測値)→ SLO(社内目標)→ SLA(対外契約) という階層で管理するのがGoogle発祥の「SRE(サイトリライアビリティエンジニアリング)」の考え方です。SLAを守るために、社内ではより厳しいSLOを設定し、実測値のSLIで監視し続けます。


実務での活用ポイント

発注・選定の場面でSLAを読むときのチェックリストです。

【SLAチェックリスト】

□ 稼働率は何ナインか?(用途に対して十分か)
□ ダウンタイムの計算方法は?(メンテナンス時間は除外?)
□ RTOとRPOの数値はあるか?
□ ペナルティはクレジット?現金返金?
□ ペナルティ請求の申請は自動か手動か?
□ 免責条項(不可抗力・ユーザー起因)の範囲は?
□ SLAの監視・報告はどう行われるか?
□ SLA未達が続いた場合の契約解除条件は?

実務の落とし穴:SLAの稼働率99.9%は月換算で約43分のダウンタイムが許容されます。「ほぼ止まらない」と思いがちですが、業務のピーク時間に集中して止まる可能性もあります。「いつ止まっても許容できるか」も確認が必要です。


関連する規格・RFC

規格・RFC番号内容
ITIL v4SLAをサービスマネジメントの中核実践として定義するフレームワーク
ISO/IEC 20000ITサービスマネジメントの国際規格。SLMプロセス(Service Level Management)を含む
ISO 22301事業継続マネジメント(BCM)の国際規格。RTOの概念と深く関連

関連用語