AI/MLインフラ(クラウド)

Amazon SageMaker あまぞん せいじめいかー

機械学習AWSモデルトレーニングMLOps推論エンドポイントAutoML
SageMakerって何?

簡単に言うとこんな感じ!

AIモデルを作るための「全部入り調理台」だよ!データの準備・料理(学習)・盛り付け(デプロイ)まで、AWSが用意したキッチンで一気にこなせるサービスなんだ。自分でサーバーを用意しなくていいのが最大のポイントってこと!


SageMakerとは

Amazon SageMakerは、AWSが提供するフルマネージドの機械学習プラットフォームです。AIモデルの開発に必要な「データ準備・モデルの学習・評価・本番デプロイ・監視」という一連の工程をクラウド上でまとめて行える環境を提供します。2017年にAWSが発表して以来、エンジニアから非エンジニアまで幅広い層に使われるサービスに成長しました。

従来、機械学習システムを構築するには、GPUサーバーの調達・環境構築・ライブラリ管理など、本来の「AIを作る作業」とは別の大量の下準備が必要でした。SageMakerはそうしたインフラ管理の手間を肩代わりしてくれるため、チームはモデルの品質改善に集中できます。

システム発注の文脈では「AIを使った新機能をベンダーに頼む際、AWSを使っているなら SageMaker 上で開発・運用するケースが多い」という理解が重要です。どこでモデルが動いているか・どこにコストが発生しているかを把握するうえで、SageMakerの基本構造を知っておくと発注・レビューの場で役立ちます。


SageMakerの主な機能・構成

SageMakerは「ML開発ライフサイクル」に沿った多数のコンポーネントで構成されています。全部使う必要はなく、必要な部分だけ組み合わせるのが一般的です。

フェーズ主なコンポーネントできること
データ準備Data WranglerGUIでデータ加工・変換
実験・開発Studio(Notebook)JupyterベースのIDE
自動MLAutopilotコード不要でモデルを自動生成
学習Training JobsGPU/CPUを自動調達して学習実行
ハイパーパラメータ調整Automatic Model Tuning最良のパラメータを自動探索
モデル管理Model Registryバージョン管理・承認フロー
デプロイEndpointsAPIとしてモデルを公開
監視Model Monitor精度劣化・データ異常を検知
パイプラインPipelines上記工程をCI/CDで自動化

覚え方:「学習→公開→監視」の3ステップ

SageMakerの本質は 「①学習 → ②エンドポイント公開 → ③モニタリング」 の繰り返しです。発注時に「どのフェーズを委託するのか」を確認するだけでも、スコープの認識ズレを防げます。

Autopilot(AutoML)は特に注目

AutopilotはCSVデータと予測したい列名を指定するだけで、最適なアルゴリズム選定・前処理・学習・評価まで自動で行ってくれる機能です。「とりあえずAIを試してみたい」という初期検証フェーズで重宝されます。ただし、本番精度を突き詰める場合は人手によるチューニングが必要になることも多いです。


歴史と背景

  • 2017年11月 — AWS re:Invent 2017 で Amazon SageMaker を発表・GA(一般公開)
  • 2019年SageMaker Studio(統合IDE)を発表。ブラウザだけで開発できる環境を提供
  • 2020年SageMaker Pipelines(MLパイプライン自動化)・Model Monitor を追加。MLOps機能が本格化
  • 2021年SageMaker Autopilot(AutoML)の強化、Canvas(ノーコードAI)を発表
  • 2022年SageMaker Ground Truth Plus(ラベリング業務のアウトソース)など大幅機能拡充
  • 2023年〜生成AIモデルのホスティング(Llama 2 / Stable Diffusionなど)に対応。JumpStart経由でFoundation Modelを即デプロイ可能に
  • 背景 — クラウド各社がML基盤を整備するなか、AWSは「インフラ王者」の強みを活かし、スケーラブルな学習・推論環境として企業採用を拡大

SageMakerの全体像(フロー)

機械学習プロジェクトがどのようにSageMaker上で流れるか、工程の関係をSVGで図解します。

SageMaker MLライフサイクル ① データ準備 Data Wrangler ② 学習 Training Jobs ③ 評価・登録 Model Registry ④ デプロイ Endpoints 全工程を支える横断機能 Pipelines 工程の自動化 Model Monitor 精度劣化の監視 Autopilot 自動モデル生成 Studio 統合開発環境 💰 コストの発生ポイント(発注時の確認事項) 学習時のインスタンス時間 / エンドポイントの稼働時間 / データ保存(S3)/ 推論リクエスト数 → 「常時起動のエンドポイントか?」「学習頻度は?」を必ず確認

SageMaker vs 自前構築 vs 他社サービス

比較軸SageMaker自前GPU環境Google Vertex AIAzure ML
初期コスト低(従量課金高(ハード購入)低(従量課金)低(従量課金)
スケーラビリティ△(拡張に手間)
AWSとの連携
AutoML機能○(Autopilot)◎(AutoML)
既存AWS資産活用

既存システムがAWS上にある場合、SageMakerは特に相性がよいです。S3のデータをそのまま学習に使えたり、Lambda・API GatewayからエンドポイントをAPI呼び出しする構成が簡単に組めたりするためです。


関連する規格・RFC

規格・仕様内容
ONNX(Open Neural Network Exchange)SageMakerでも利用可能なモデル交換フォーマット
MLflow互換SageMaker Experimentsと連携可能な実験管理標準
AWS SDK / Boto3PythonからSageMakerをAPIで操作するためのライブラリ
SageMaker Python SDKトレーニング・デプロイを抽象化した高レベルSDK

関連用語