データガバナンス・管理

データカタログ でーたかたろぐ

データカタログデータ検索メタデータ管理データガバナンスデータリネージセルフサービスBI
データカタログって何のためにあるの?

簡単に言うとこんな感じ!

データカタログは「会社のどこにどんなデータがあるか」を検索できる図書館の目録みたいなものだよ!「売上データはどのテーブルにある?」「このカラムの意味は?」をすぐに調べられるから、データを活用したい人が正しいデータをすぐ見つけられるんだ。


データカタログとは

データカタログ(Data Catalog) とは、組織内のデータ資産(テーブル・ファイル・APIなど)をメタデータ(データについてのデータ)と共に登録・検索・管理できるシステムです。

大企業では何千ものテーブル・データセットが存在し、「必要なデータがどこにあるか」がわからない「データの迷子」問題が深刻です。データカタログはこの問題を解決し、データドリブンな意思決定を組織全体に広げるインフラとなります。


データカタログに含まれるメタデータ

メタデータ種類内容
技術的メタデータスキーマデータ型・テーブル名・カラム定義
ビジネスメタデータ用語の定義・オーナー・用途の説明
運用メタデータ最終更新日・データ量・品質スコア
データリネージデータがどこから来てどこへ流れるか

主なデータカタログツール

ツール特徴
Apache Atlasオープンソース、Hadoop連携
Alationエンタープライズ向け、AI検索
Collibraデータガバナンスに強み
Google DataplexGCP統合のマネージドカタログ
AWS Glue Data CatalogAWS統合のサーバーレスカタログ
AmundsenLyft発OSSの検索・発見ツール

歴史と背景

  • 2010年代前半:ビッグデータ時代にデータが爆増し「データの迷子」問題が表面化
  • 2015年以降:データガバナンスの重要性とともにデータカタログ製品が登場
  • 2020年代:AIによるメタデータ自動生成・自然言語検索が登場

関連用語