データカタログ でーたかたろぐ
データカタログデータ検索メタデータ管理データガバナンスデータリネージセルフサービスBI
データカタログって何のためにあるの?
データカタログとは
データカタログ(Data Catalog) とは、組織内のデータ資産(テーブル・ファイル・APIなど)をメタデータ(データについてのデータ)と共に登録・検索・管理できるシステムです。
大企業では何千ものテーブル・データセットが存在し、「必要なデータがどこにあるか」がわからない「データの迷子」問題が深刻です。データカタログはこの問題を解決し、データドリブンな意思決定を組織全体に広げるインフラとなります。
データカタログに含まれるメタデータ
| メタデータ種類 | 内容 |
|---|---|
| 技術的メタデータ | スキーマ・データ型・テーブル名・カラム定義 |
| ビジネスメタデータ | 用語の定義・オーナー・用途の説明 |
| 運用メタデータ | 最終更新日・データ量・品質スコア |
| データリネージ | データがどこから来てどこへ流れるか |
主なデータカタログツール
| ツール | 特徴 |
|---|---|
| Apache Atlas | オープンソース、Hadoop連携 |
| Alation | エンタープライズ向け、AI検索 |
| Collibra | データガバナンスに強み |
| Google Dataplex | GCP統合のマネージドカタログ |
| AWS Glue Data Catalog | AWS統合のサーバーレスカタログ |
| Amundsen | Lyft発OSSの検索・発見ツール |
歴史と背景
- 2010年代前半:ビッグデータ時代にデータが爆増し「データの迷子」問題が表面化
- 2015年以降:データガバナンスの重要性とともにデータカタログ製品が登場
- 2020年代:AIによるメタデータ自動生成・自然言語検索が登場