データリネージ でーたりねーじ
データリネージデータの流れ血統トレーサビリティデータ品質コンプライアンス
データリネージって何のためにあるの?
簡単に言うとこんな感じ!
データリネージは「このデータはどこから来て、どう変換されて、今どこにあるか」の全経路を追跡する仕組みだよ!「この売上数字がおかしい、どこで間違えた?」を調査したり、個人情報がどこに流れているかを確認したりするときに必須なんだ。
データリネージとは
データリネージ(Data Lineage) とは、データがどのソースから生まれ、どのような変換・処理を経て、現在の場所に到達したかの経路を追跡・可視化する仕組みです。「データの血統(Lineage=系譜)」とも呼ばれます。
データリネージの可視化により、①データ品質問題の根本原因調査、②規制対応(GDPR・個人情報保護法における個人データの所在確認)、③システム変更の影響分析、が可能になります。
データリネージの種類
| 種類 | 内容 |
|---|---|
| テーブルレベル | どのテーブルからどのテーブルへデータが流れるか |
| カラムレベル | 特定のカラムの値がどのカラムから来ているか |
| ジョブレベル | ETLジョブ・SQLクエリのレベルでの追跡 |
データリネージの可視化例
顧客管理システム(CRM)
↓ ETLバッチ(夜間)
データウェアハウス(STGテーブル)
↓ 変換処理
データウェアハウス(MARTテーブル)
↓ 集計クエリ
BI/ダッシュボード(売上レポート)
歴史と背景
- GDPR施行(2018年):個人データの所在・移転経路の把握が法的要件に
- データガバナンスの成熟:データ品質・コンプライアンスへの関心とともに普及
- 現在:Apache Atlas・OpenLineage等のオープン標準で追跡の自動化が進む
関連する規格・RFC
| 規格 | 内容 |
|---|---|
| OpenLineage | データリネージのオープン標準仕様 |