SLA(サービスレベルアグリーメント) えすえるえー
簡単に言うとこんな感じ!
SLAは「このサービス、月の99.9%は動かし続けますよ!」っていう約束を文書にしたものだよ。もし守れなかったら返金とか補償がある”品質保証書”みたいなものなんだ。システムを発注するときの大事な交渉ポイントだよ!
SLAとは
SLA(Service Level Agreement:サービスレベルアグリーメント) とは、ITサービスの提供者(ベンダー)と利用者(企業など)の間で、「どのくらいの品質でサービスを提供するか」を数値で明確に約束した契約文書のことです。単なる努力目標ではなく、達成できなかった場合のペナルティや補償も定める法的効力のある合意です。
クラウドサービスやシステム保守契約では必ずと言っていいほど登場します。たとえば「月間稼働率99.9%を保証する」「障害発生から4時間以内に復旧する」といった約束がSLAに書かれており、これをもとにベンダーを選定・評価するのが実務の基本です。
SLAは発注者側にとって「何を買っているのか」を明確にするための道具です。曖昧な口約束をなくし、トラブル時の責任範囲をあらかじめ決めておくことで、想定外のコスト増やサービス停止リスクを管理できます。
SLAの主要な指標と構成要素
SLAに盛り込まれる代表的な指標を整理します。
| 指標名 | 英語 | 意味 | 例 |
|---|---|---|---|
| 稼働率(可用性) | Availability / Uptime | 一定期間中にサービスが正常稼働している割合 | 月間99.9%以上 |
| RTO | Recovery Time Objective | 障害発生から復旧するまでの目標時間 | 4時間以内 |
| RPO | Recovery Point Objective | 障害発生時にどの時点までのデータを復元できるか | 直近1時間前まで |
| 応答時間 | Response Time | リクエストに対するシステムの反応速度 | 平均200ms以下 |
| サポート対応時間 | Support Hours | 問い合わせや障害対応が受けられる時間帯 | 24時間365日 |
| ペナルティ | Service Credit | SLAを達成できなかった場合の補償内容 | 月額料金の10%返金 |
稼働率「ナインの数」で覚えよう
稼働率はよく「ナイン(9)がいくつか」で表現されます。9の数が多いほど高品質ですが、コストも跳ね上がります。
| 表現 | 稼働率 | 年間ダウンタイム目安 |
|---|---|---|
| ツーナイン | 99% | 約87.6時間 |
| スリーナイン | 99.9% | 約8.76時間 |
| フォーナイン | 99.99% | 約52.6分 |
| ファイブナイン | 99.999% | 約5.26分 |
語呂合わせ:「9が多いほど止まらないが、お金も9(苦)労する」 と覚えましょう!
ペナルティ(サービスクレジット)の仕組み
SLAを下回った場合、多くのベンダーは「サービスクレジット」という形で次月の請求額を割り引きます。現金での返金ではなく、次回利用料の割引が一般的な点に注意しましょう。
歴史と背景
- 1980年代後半:IT部門とビジネス部門の間の「内部SLA」として概念が登場。ITサービスの品質を可視化する必要性が高まる
- 1990年代:アウトソーシング(外部委託)ブームとともに、ベンダーとの正式な契約書にSLAが組み込まれるようになる
- 2000年代前半:インターネットサービスの普及で、ウェブサービスの稼働率保証としてSLAが一般化
- 2006年〜:AWS(Amazon Web Services)がクラウドサービスを開始し、クラウドベンダー各社がSLAを公式に公開する慣行が定着
- 2010年代以降:マイクロサービス・APIエコノミーの広がりで、サービス間のSLA管理(内部SLA)が再び重要に
- 現在:IaaS・SaaS・PaaSそれぞれのSLAを比較して発注判断するのが当たり前の時代に
SLAとよく似た用語との違い
SLAと混同されやすい用語を整理します。
| 用語 | 正式名称 | 意味 | SLAとの関係 |
|---|---|---|---|
| SLO | Service Level Objective | SLA達成のための内部目標値 | SLAより少し厳しめに設定する社内目標 |
| SLI | Service Level Indicator | 実際に計測する指標(稼働率の実測値など) | SLOの達成を判断するための生データ |
| OLA | Operational Level Agreement | 社内部門間の取り決め | SLAを守るための社内約束 |
| UC | Underpinning Contract | 外部委託先との契約 | SLAを支える下位契約 |
SLI → SLO → SLA の関係図
SLI(実測値)→ SLO(社内目標)→ SLA(対外契約) という階層で管理するのがGoogle発祥の「SRE(サイトリライアビリティエンジニアリング)」の考え方です。SLAを守るために、社内ではより厳しいSLOを設定し、実測値のSLIで監視し続けます。
実務での活用ポイント
発注・選定の場面でSLAを読むときのチェックリストです。
【SLAチェックリスト】
□ 稼働率は何ナインか?(用途に対して十分か)
□ ダウンタイムの計算方法は?(メンテナンス時間は除外?)
□ RTOとRPOの数値はあるか?
□ ペナルティはクレジット?現金返金?
□ ペナルティ請求の申請は自動か手動か?
□ 免責条項(不可抗力・ユーザー起因)の範囲は?
□ SLAの監視・報告はどう行われるか?
□ SLA未達が続いた場合の契約解除条件は?
実務の落とし穴:SLAの稼働率99.9%は月換算で約43分のダウンタイムが許容されます。「ほぼ止まらない」と思いがちですが、業務のピーク時間に集中して止まる可能性もあります。「いつ止まっても許容できるか」も確認が必要です。
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| ITIL v4 | SLAをサービスマネジメントの中核実践として定義するフレームワーク |
| ISO/IEC 20000 | ITサービスマネジメントの国際規格。SLMプロセス(Service Level Management)を含む |
| ISO 22301 | 事業継続マネジメント(BCM)の国際規格。RTOの概念と深く関連 |
関連用語
- 可用性(Availability) — システムが稼働し続けられる能力。SLAの稼働率指標の基盤となる概念
- RTO / RPO — 災害・障害時の復旧目標時間と復旧ポイント目標。SLAに必ず登場するセット
- 冗長化 — SLAの稼働率を達成するためにシステムを二重・三重にする設計手法
- フェイルオーバー — 障害時に自動で予備システムに切り替える仕組み。RTOに直結する
- クラウドサービス(IaaS/PaaS/SaaS) — SLAが必ず付随する現代の主要サービス形態
- SRE(サイトリライアビリティエンジニアリング) — SLI/SLO/SLAの3層管理を実践するGoogleが体系化したエンジニアリング手法