データレイク・データレイクハウス でーたれいく・でーたれいくはうす
データレイクデータレイクハウスDelta LakeApache IcebergS3データ基盤
データレイク・データレイクハウスについて教えて
簡単に言うとこんな感じ!
データレイクは「とりあえず全部のデータを生のまま貯めておくダム湖」で、データレイクハウスはそこにDWHのクエリ機能も合体させた「欲張りな新型データ基盤」だよ。DWHより安くて柔軟、データレイクよりも使いやすいいいとこどりの構成なんだ!
データレイク・データレイクハウスとは
データレイクは、構造化・半構造化・非構造化データを生の形式(Raw)のまま大量に蓄積するストレージ基盤です。S3やGoogle Cloud StorageなどのオブジェクトストレージにCSV・JSON・Parquet・画像・動画など多様なデータを保存し、必要なときに取り出して分析します。従来のDWHより安く大量のデータを保存できますが、「何が入ってるかわからないデータの沼(Data Swamp)」になりやすいという問題もあります。
データレイクハウスは、データレイクの低コスト・柔軟性とDWHのACID整合性・クエリ性能を統合した新しいアーキテクチャです。Delta Lake(Databricks)、Apache Iceberg、Apache Hudiといったオープンテーブル形式を使い、オブジェクトストレージ上でもトランザクション管理やタイムトラベル(過去のデータ状態への遡及)が可能になりました。
データレイクとDWHの比較
| 項目 | データレイク | データウェアハウス | データレイクハウス |
|---|---|---|---|
| データ形式 | 生データ何でも | 構造化データのみ | 両対応 |
| スキーマ定義 | 読み取り時(Schema-on-Read) | 書き込み時(Schema-on-Write) | 両対応 |
| コスト | 低(オブジェクトストレージ) | 高(専用エンジン) | 中 |
| ACID対応 | なし | あり | あり(テーブル形式次第) |
| ユーザー | データサイエンティスト | BIアナリスト | 両方 |
| 代表技術 | S3 + Athena | Redshift, BigQuery | Delta Lake, Iceberg |
オープンテーブル形式の主要3択
- Delta Lake — Databricksが開発。Spark中心のエコシステム。タイムトラベルが得意
- Apache Iceberg — Netflix発のOSS。テーブルの並列書き込みと大規模パーティション管理に強い
- Apache Hudi — Uber発のOSS。ストリーミングデータの増分更新に得意
歴史と背景
- 2010年 — James DixonがデータレイクというコンセプトをPentaho社のブログで提唱
- 2013年 — Hadoopエコシステムの成熟でデータレイク構築が現実的に
- 2019年 — DatabricksがDelta Lakeをオープンソース化
- 2020年 — Apache Icebergがトップレベルプロジェクトに
- 2021年 — 「データレイクハウス」という用語が急速に普及
- 現在 — Snowflake・Databricks・AWS・Google Cloudが揃ってレイクハウス戦略を展開
データレイクハウスのアーキテクチャ
関連する規格・RFC
| 規格 | 内容 |
|---|---|
| Apache Parquet | 列指向の圧縮ファイル形式。データレイクで広く使用 |
| Apache ORC | Hiveで普及した列指向形式 |
| Delta Lake仕様 | Databricksが公開するオープンテーブル形式仕様 |
関連用語
- データウェアハウス — データレイクハウスが統合を目指すDWH
- S3互換ストレージ(MinIO) — データレイクのストレージ基盤
- Elasticsearch・OpenSearch — データレイクと連携するログ分析基盤