Lake Formation れいくふぉーめーしょん
データレイクAWSデータカタログアクセス制御GlueS3
Lake Formationについて教えて
簡単に言うとこんな感じ!
Lake Formation(レイク フォーメーション)は、AWSが提供する「データレイクをかんたんに作って、安全に管理するためのサービス」だよ。バラバラに散らばったデータを1か所に集めて、誰が何を見ていいかをまとめて管理できるんだ!
Lake Formationとは
AWS Lake Formationは、Amazon Web Services(AWS)が提供するマネージドサービスで、データレイク(大量の生データをそのまま蓄積する巨大なデータ倉庫)の構築・管理・セキュリティ制御をひとまとめに担うサービスです。
従来、データレイクを作るには「S3にデータを置く」「Glueでカタログ化する」「IAMでアクセス権を設定する」と、バラバラのサービスを組み合わせて設定する必要がありました。Lake Formationはそれらをワンストップで統合管理する司令塔の役割を果たします。
ビジネス視点でいうと、「社内のあちこちに散らばったデータ(販売実績・顧客情報・ログなど)を一か所に集め、分析チームには見せてよいデータだけを安全に渡す」という仕組みをすばやく構築できるサービスです。情シス担当者の工数を大幅に削減しながら、データガバナンス(誰が何のデータを使えるかの管理) を強化できる点が最大の価値です。
Lake Formationの主な機能と構造
| 機能カテゴリ | 具体的な機能 | 役割のたとえ |
|---|---|---|
| データ取り込み | S3・RDS・外部DBからのデータ収集 | 各部署の書類を一か所に集める |
| データカタログ | テーブル定義・メタデータの管理(Glue連携) | 集めた書類に目次・索引をつける |
| アクセス制御 | テーブル・列・行レベルの権限管理 | 「この棚は営業部だけ閲覧可」と鍵をかける |
| データ品質 | データフィルタリング・変換 | 不要・不正なデータを整理する |
| 監査ログ | アクセス履歴の記録(CloudTrail連携) | 誰がいつ何を見たかを記録する |
列レベル・行レベルのアクセス制御
Lake Formationの強みの一つが細かい権限設定です。たとえば「顧客テーブルの”氏名”列と”年収”列は経営層だけ閲覧可能、その他のメンバーはマスク(隠す)する」「東日本の営業担当者には東日本の行データだけ見せる」といった細粒度の制御が、コードを書かずにGUI操作で設定できます。
Glue・Athena・Redshiftとの関係
[データソース] [Lake Formation] [分析サービス]
S3 ┌─────────────────┐
RDS ───▶ │ データカタログ │ ───▶ Athena(SQL分析)
外部DB │ アクセス制御 │ ───▶ Redshift(DWH)
ストリーム ───▶ │ 監査ログ │ ───▶ QuickSight(BIツール)
└─────────────────┘
↑ Glueがデータ変換・クロール担当
歴史と背景
- 2011年ごろ〜:「データレイク」という概念が登場。S3などのオブジェクトストレージに生データをためて後で分析するスタイルが注目される
- 〜2018年:AWSユーザーはS3・Glue・IAMを個別に設定する必要があり、構築工数・管理コストが高かった
- 2019年8月:AWS Lake FormationがGA(一般提供)開始。データレイク構築の複雑さを解消するサービスとして登場
- 2020〜2021年:列レベルセキュリティ・行フィルター機能を追加。より細かなガバナンスが可能に
- 2022〜2023年:Lake Formation連携のサービスが拡大(EMR・Redshift Spectrumなど)。マルチアカウント間でのデータ共有機能も強化
- 現在:データメッシュ(部署ごとにデータを管理する分散型アーキテクチャ)の基盤としても採用が広がっている
関連サービスとの比較・役割分担
Lake Formationは単体で完結するサービスではなく、AWSの複数サービスと連携して機能します。
Lake Formation vs. S3単体 vs. Glue単体
| 観点 | S3単体 | Glue単体 | Lake Formation |
|---|---|---|---|
| データ保管 | ✅ | ❌ | ✅(S3と連携) |
| メタデータ管理 | ❌ | ✅ | ✅(Glueと統合) |
| 列・行レベル権限 | ❌ | ❌ | ✅ |
| 監査ログ | △(S3ログ) | ❌ | ✅ |
| セットアップ工数 | 小(ただし管理が複雑) | 中 | 小(統合管理で楽) |
| 向いている規模 | 小〜中 | 中 | 中〜大・ガバナンス重視 |
関連する規格・RFC
| 規格・ドキュメント | 内容 |
|---|---|
| AWS Lake Formation 公式ドキュメント | 設定手順・権限モデルの詳細 |
| AWS Glue Data Catalog 仕様 | Lake Formationが利用するメタデータ管理の基盤仕様 |
| AWS Well-Architected Framework(データ分析レンズ) | データレイク設計のベストプラクティス集 |