データベース

データレイク・データレイクハウス でーたれいく・でーたれいくはうす

データレイクデータレイクハウスDelta LakeApache IcebergS3データ基盤
データレイク・データレイクハウスについて教えて

簡単に言うとこんな感じ!

データレイクは「とりあえず全部のデータを生のまま貯めておくダム湖」で、データレイクハウスはそこにDWHのクエリ機能も合体させた「欲張りな新型データ基盤」だよ。DWHより安くて柔軟、データレイクよりも使いやすいいいとこどりの構成なんだ!


データレイク・データレイクハウスとは

データレイクは、構造化・半構造化・非構造化データを生の形式(Raw)のまま大量に蓄積するストレージ基盤です。S3やGoogle Cloud StorageなどのオブジェクトストレージにCSV・JSON・Parquet・画像・動画など多様なデータを保存し、必要なときに取り出して分析します。従来のDWHより安く大量のデータを保存できますが、「何が入ってるかわからないデータの沼(Data Swamp)」になりやすいという問題もあります。

データレイクハウスは、データレイクの低コスト・柔軟性とDWHのACID整合性・クエリ性能を統合した新しいアーキテクチャです。Delta Lake(Databricks)、Apache IcebergApache Hudiといったオープンテーブル形式を使い、オブジェクトストレージ上でもトランザクション管理やタイムトラベル(過去のデータ状態への遡及)が可能になりました。


データレイクとDWHの比較

項目データレイクデータウェアハウスデータレイクハウス
データ形式生データ何でも構造化データのみ両対応
スキーマ定義読み取り時(Schema-on-Read)書き込み時(Schema-on-Write)両対応
コスト低(オブジェクトストレージ)高(専用エンジン)
ACID対応なしありあり(テーブル形式次第)
ユーザーデータサイエンティストBIアナリスト両方
代表技術S3 + AthenaRedshift, BigQueryDelta Lake, Iceberg

オープンテーブル形式の主要3択

  • Delta Lake — Databricksが開発。Spark中心のエコシステム。タイムトラベルが得意
  • Apache Iceberg — Netflix発のOSS。テーブルの並列書き込みと大規模パーティション管理に強い
  • Apache Hudi — Uber発のOSS。ストリーミングデータの増分更新に得意

歴史と背景

  • 2010年 — James DixonがデータレイクというコンセプトをPentaho社のブログで提唱
  • 2013年 — Hadoopエコシステムの成熟でデータレイク構築が現実的に
  • 2019年 — DatabricksがDelta Lakeをオープンソース化
  • 2020年 — Apache Icebergがトップレベルプロジェクト
  • 2021年 — 「データレイクハウス」という用語が急速に普及
  • 現在 — Snowflake・Databricks・AWS・Google Cloudが揃ってレイクハウス戦略を展開

データレイクハウスのアーキテクチャ

データレイクハウス アーキテクチャ オープンテーブル形式(Delta Lake / Iceberg / Hudi) ACID・タイムトラベル・スキーマ進化・メタデータ管理 オブジェクトストレージ(S3 / GCS / ADLS) 低コスト・無制限スケール・Parquet/ORC形式で保存 BIクエリエンジン Trino, Athena, Redshift Spectrum ML/AI処理エンジン Spark, Ray, Databricks MLflow

関連する規格・RFC

規格内容
Apache Parquet列指向の圧縮ファイル形式。データレイクで広く使用
Apache ORCHiveで普及した列指向形式
Delta Lake仕様Databricksが公開するオープンテーブル形式仕様

関連用語