AI/MLインフラ(クラウド)

Lake Formation れいくふぉーめーしょん

データレイクAWSデータカタログアクセス制御GlueS3
Lake Formationについて教えて

簡単に言うとこんな感じ!

Lake Formation(レイク フォーメーション)は、AWSが提供する「データレイクをかんたんに作って、安全に管理するためのサービス」だよ。バラバラに散らばったデータを1か所に集めて、誰が何を見ていいかをまとめて管理できるんだ!


Lake Formationとは

AWS Lake Formationは、Amazon Web Services(AWS)が提供するマネージドサービスで、データレイク(大量の生データをそのまま蓄積する巨大なデータ倉庫)の構築・管理・セキュリティ制御をひとまとめに担うサービスです。

従来、データレイクを作るには「S3にデータを置く」「Glueでカタログ化する」「IAMでアクセス権を設定する」と、バラバラのサービスを組み合わせて設定する必要がありました。Lake Formationはそれらをワンストップで統合管理する司令塔の役割を果たします。

ビジネス視点でいうと、「社内のあちこちに散らばったデータ(販売実績・顧客情報・ログなど)を一か所に集め、分析チームには見せてよいデータだけを安全に渡す」という仕組みをすばやく構築できるサービスです。情シス担当者の工数を大幅に削減しながら、データガバナンス(誰が何のデータを使えるかの管理) を強化できる点が最大の価値です。


Lake Formationの主な機能と構造

機能カテゴリ具体的な機能役割のたとえ
データ取り込みS3・RDS・外部DBからのデータ収集各部署の書類を一か所に集める
データカタログテーブル定義・メタデータの管理(Glue連携)集めた書類に目次・索引をつける
アクセス制御テーブル・列・行レベルの権限管理「この棚は営業部だけ閲覧可」と鍵をかける
データ品質データフィルタリング・変換不要・不正なデータを整理する
監査ログアクセス履歴の記録(CloudTrail連携)誰がいつ何を見たかを記録する

列レベル・行レベルのアクセス制御

Lake Formationの強みの一つが細かい権限設定です。たとえば「顧客テーブルの”氏名”列と”年収”列は経営層だけ閲覧可能、その他のメンバーはマスク(隠す)する」「東日本の営業担当者には東日本の行データだけ見せる」といった細粒度の制御が、コードを書かずにGUI操作で設定できます。

Glue・Athena・Redshiftとの関係

[データソース]         [Lake Formation]        [分析サービス]
  S3                 ┌─────────────────┐
  RDS           ───▶ │  データカタログ  │ ───▶  Athena(SQL分析)
  外部DB             │  アクセス制御   │ ───▶  Redshift(DWH)
  ストリーム     ───▶ │  監査ログ       │ ───▶  QuickSight(BIツール)
                     └─────────────────┘
                        ↑ Glueがデータ変換・クロール担当

歴史と背景

  • 2011年ごろ〜:「データレイク」という概念が登場。S3などのオブジェクトストレージに生データをためて後で分析するスタイルが注目される
  • 〜2018年:AWSユーザーはS3・Glue・IAMを個別に設定する必要があり、構築工数・管理コストが高かった
  • 2019年8月AWS Lake FormationがGA(一般提供)開始。データレイク構築の複雑さを解消するサービスとして登場
  • 2020〜2021年:列レベルセキュリティ・行フィルター機能を追加。より細かなガバナンスが可能に
  • 2022〜2023年:Lake Formation連携のサービスが拡大(EMR・Redshift Spectrumなど)。マルチアカウント間でのデータ共有機能も強化
  • 現在データメッシュ(部署ごとにデータを管理する分散型アーキテクチャ)の基盤としても採用が広がっている

関連サービスとの比較・役割分担

Lake Formationは単体で完結するサービスではなく、AWSの複数サービスと連携して機能します。

Lake Formation と関連AWSサービスの役割分担 データ保管 Amazon S3 生データを格納する倉庫 データ変換・収集 AWS Glue ETL・カタログクロール 権限管理 AWS IAM AWSリソース全体の認証 Lake Formation ● データカタログ統合管理 ● 列・行レベルアクセス制御 ● データ取り込みフロー制御 ● 監査ログ・ガバナンス ● マルチアカウント共有 🔑 司令塔・管理センター SQLで分析 Amazon Athena サーバーレスSQL分析 DWH分析 Amazon Redshift 大規模データウェアハウス BIダッシュボード Amazon QuickSight グラフ・レポート可視化 左側のサービスを束ねて管理し、右側の分析サービスへ安全にデータを提供する

Lake Formation vs. S3単体 vs. Glue単体

観点S3単体Glue単体Lake Formation
データ保管✅(S3と連携)
メタデータ管理✅(Glueと統合)
列・行レベル権限
監査ログ△(S3ログ)
セットアップ工数小(ただし管理が複雑)小(統合管理で楽)
向いている規模小〜中中〜大・ガバナンス重視

関連する規格・RFC

規格・ドキュメント内容
AWS Lake Formation 公式ドキュメント設定手順・権限モデルの詳細
AWS Glue Data Catalog 仕様Lake Formationが利用するメタデータ管理の基盤仕様
AWS Well-Architected Framework(データ分析レンズ)データレイク設計のベストプラクティス集

関連用語

  • データレイク — 大量の生データをそのまま蓄積・保管するストレージの仕組み
  • Amazon S3 — AWSのオブジェクトストレージ。Lake Formationのデータ保管先
  • [AWS Glue](