監視・オブザーバビリティ

リソース監視 りそーすかんし

リソース監視CPUメモリディスクネットワークインフラ監視
リソース監視について教えて

簡単に言うとこんな感じ!

サーバーのCPUやメモリ、ディスクの空き容量などが「適切な範囲に収まっているか」を継続的にチェックする監視のことだよ。リソース不足がサービス障害につながる前に早めに気づいて対処するための基本的な監視なんだ。


リソース監視とは

リソース監視(Resource Monitoring)とは、サーバー・仮想マシン・コンテナなどのコンピューティングリソース(CPU・メモリ・ディスク・ネットワーク)の使用状況を継続的に収集・記録し、過負荷や枯渇を事前に検知する監視活動です。インフラ監視の最も基本的な要素です。

クラウド環境ではリソースを必要に応じてスケールアップ・スケールアウトできますが、そのためには「今どのくらい使っているか」を可視化する必要があります。リソース監視データは障害予防だけでなく、コスト最適化(ライトサイジングキャパシティプランニングにも使われます。

リソース監視で注意すべきは「CPU 100%が必ずしも問題ではない」という点です。バッチ処理中は当然高くなります。傾向(トレンド)継続時間、そしてユーザー影響の有無を合わせて判断することが重要です。


主なリソース監視項目

リソース主な監視指標注意点
CPU使用率(%)、ロードアベレージ短時間スパイクは許容。長時間高止まりに注意
メモリ使用量、スワップ使用量スワップ多用はパフォーマンス劣化のサイン
ディスク使用率(%)、I/O待ち時間満杯になるとサービス停止。早めに警告を設定
ネットワーク帯域使用率、パケットロス、遅延NIC飽和や外部障害の検出に有効
プロセスプロセス数、スレッドゾンビプロセスやリーク検出
ファイルディスクリプタ使用数 / 上限値上限に近づくとサービス不能に

クラウドリソースの特有指標

クラウドリソース監視指標意味
RDS(DB)コネクション数、IOPSコネクション枯渇・I/Oボトルネック
Lambda同時実行数、タイムアウト率制限に近づくとリクエスト拒否
ALBロードバランサーリクエスト数、5xxエラー率バックエンドの異常検出
ECS/Kubernetes PodCPU/メモリ要求 vs 実使用スケーリング判断の基準

歴史と背景

  • 1990年代SNMPプロトコルでネットワーク機器のリソース監視が始まる
  • 2000年代:Nagios・Zabbixがサーバーリソース監視の標準ツールに
  • 2010年代:クラウド普及でオートスケーリングとリソース監視が連携
  • 2020年代:コンテナ・サーバーレスの普及でリソース監視の粒度が細かくなり、Kubernetesリソース監視専用ツール(kube-state-metrics等)が普及

リソース監視のアーキテクチャ例

リソース監視の典型的な構成 EC2/VM node_exporter コンテナ cAdvisor Prometheus メトリクス収集 Grafana 可視化 Alertmanager アラート通知

関連用語