リソース監視 りそーすかんし
リソース監視CPUメモリディスクネットワークインフラ監視
リソース監視について教えて
簡単に言うとこんな感じ!
サーバーのCPUやメモリ、ディスクの空き容量などが「適切な範囲に収まっているか」を継続的にチェックする監視のことだよ。リソース不足がサービス障害につながる前に早めに気づいて対処するための基本的な監視なんだ。
リソース監視とは
リソース監視(Resource Monitoring)とは、サーバー・仮想マシン・コンテナなどのコンピューティングリソース(CPU・メモリ・ディスク・ネットワーク)の使用状況を継続的に収集・記録し、過負荷や枯渇を事前に検知する監視活動です。インフラ監視の最も基本的な要素です。
クラウド環境ではリソースを必要に応じてスケールアップ・スケールアウトできますが、そのためには「今どのくらい使っているか」を可視化する必要があります。リソース監視データは障害予防だけでなく、コスト最適化(ライトサイジング)やキャパシティプランニングにも使われます。
リソース監視で注意すべきは「CPU 100%が必ずしも問題ではない」という点です。バッチ処理中は当然高くなります。傾向(トレンド)や継続時間、そしてユーザー影響の有無を合わせて判断することが重要です。
主なリソース監視項目
| リソース | 主な監視指標 | 注意点 |
|---|---|---|
| CPU | 使用率(%)、ロードアベレージ | 短時間スパイクは許容。長時間高止まりに注意 |
| メモリ | 使用量、スワップ使用量 | スワップ多用はパフォーマンス劣化のサイン |
| ディスク | 使用率(%)、I/O待ち時間 | 満杯になるとサービス停止。早めに警告を設定 |
| ネットワーク | 帯域使用率、パケットロス、遅延 | NIC飽和や外部障害の検出に有効 |
| プロセス | プロセス数、スレッド数 | ゾンビプロセスやリーク検出 |
| ファイルディスクリプタ | 使用数 / 上限値 | 上限に近づくとサービス不能に |
クラウドリソースの特有指標
| クラウドリソース | 監視指標 | 意味 |
|---|---|---|
| RDS(DB) | コネクション数、IOPS | コネクション枯渇・I/Oボトルネック |
| Lambda | 同時実行数、タイムアウト率 | 制限に近づくとリクエスト拒否 |
| ALB(ロードバランサー) | リクエスト数、5xxエラー率 | バックエンドの異常検出 |
| ECS/Kubernetes Pod | CPU/メモリ要求 vs 実使用 | スケーリング判断の基準 |
歴史と背景
- 1990年代:SNMPプロトコルでネットワーク機器のリソース監視が始まる
- 2000年代:Nagios・Zabbixがサーバーリソース監視の標準ツールに
- 2010年代:クラウド普及でオートスケーリングとリソース監視が連携
- 2020年代:コンテナ・サーバーレスの普及でリソース監視の粒度が細かくなり、Kubernetesリソース監視専用ツール(kube-state-metrics等)が普及
リソース監視のアーキテクチャ例
関連用語
- メトリクス・カスタムメトリクス — リソース監視データの種類と収集方法
- アラート設計 — リソース異常のアラートを適切に設計する
- ライトサイジング — リソース監視データを元にコスト最適化
- CloudWatch・Azure Monitor・Cloud Monitoring — クラウドネイティブなリソース監視サービス