データベース

データレイク・データレイクハウスでーたれいく・でーたれいくはうす

データレイクデータレイクハウスDelta LakeApache IcebergS3データ基盤

データレイク・データレイクハウスについて教えて

簡単に言うとこんな感じ！

データレイクは「とりあえず全部のデータを生のまま貯めておくダム湖」で、データレイクハウスはそこにDWHのクエリ機能も合体させた「欲張りな新型データ基盤」だよ。DWHより安くて柔軟、データレイクよりも使いやすいいいとこどりの構成なんだ！

データレイク・データレイクハウスとは

データレイクは、構造化・半構造化・非構造化データを生の形式（Raw）のまま大量に蓄積するストレージ基盤です。S3やGoogle Cloud StorageなどのオブジェクトストレージにCSV・JSON・Parquet・画像・動画など多様なデータを保存し、必要なときに取り出して分析します。従来のDWHより安く大量のデータを保存できますが、「何が入ってるかわからないデータの沼（Data Swamp）」になりやすいという問題もあります。

データレイクハウスは、データレイクの低コスト・柔軟性とDWHのACID整合性・クエリ性能を統合した新しいアーキテクチャです。Delta Lake（Databricks）、Apache Iceberg、Apache Hudiといったオープンテーブル形式を使い、オブジェクトストレージ上でもトランザクション管理やタイムトラベル（過去のデータ状態への遡及）が可能になりました。

データレイクとDWHの比較

項目	データレイク	データウェアハウス	データレイクハウス
データ形式	生データ何でも	構造化データのみ	両対応
スキーマ定義	読み取り時（Schema-on-Read）	書き込み時（Schema-on-Write）	両対応
コスト	低（オブジェクトストレージ）	高（専用エンジン）	中
ACID対応	なし	あり	あり（テーブル形式次第）
ユーザー	データサイエンティスト	BIアナリスト	両方
代表技術	S3 + Athena	Redshift, BigQuery	Delta Lake, Iceberg

オープンテーブル形式の主要3択

Delta Lake — Databricksが開発。Spark中心のエコシステム。タイムトラベルが得意
Apache Iceberg — Netflix発のOSS。テーブルの並列書き込みと大規模パーティション管理に強い
Apache Hudi — Uber発のOSS。ストリーミングデータの増分更新に得意

歴史と背景

2010年 — James DixonがデータレイクというコンセプトをPentaho社のブログで提唱
2013年 — Hadoopエコシステムの成熟でデータレイク構築が現実的に
2019年 — DatabricksがDelta Lakeをオープンソース化
2020年 — Apache Icebergがトップレベルプロジェクトに
2021年 — 「データレイクハウス」という用語が急速に普及
現在 — Snowflake・Databricks・AWS・Google Cloudが揃ってレイクハウス戦略を展開

規格	内容
Apache Parquet	列指向の圧縮ファイル形式。データレイクで広く使用
Apache ORC	Hiveで普及した列指向形式
Delta Lake仕様	Databricksが公開するオープンテーブル形式仕様

データレイク・データレイクハウスでーたれいく・でーたれいくはうす

データレイク・データレイクハウスとは

データレイクとDWHの比較

オープンテーブル形式の主要3択

歴史と背景

データレイクハウスのアーキテクチャ

関連する規格・RFC

関連用語