AI/MLインフラ(クラウド)

データカタログ でーたかたろぐ

メタデータデータガバナンスデータ検索データリネージデータマネジメントデータ品質
データカタログについて教えて

簡単に言うとこんな感じ!

会社の中に散らばってる大量のデータを「図書館の目録」みたいに整理したシステムだよ!「あのデータ、どこにあるっけ?」「これ、誰が作ったやつ?」が一発で検索できるようになるんだ。データ探しにかかる時間をぐっと減らしてくれる便利なツールってこと!


データカタログとは

データカタログとは、組織が保有するデータ資産を体系的に整理・管理し、誰でも必要なデータを検索・発見できるようにするシステムです。データベース、ファイル、APIなど社内のあらゆるデータについて「どこにあるか」「何が入っているか」「誰が管理しているか」といった情報(メタデータ)を一元的に集約します。

たとえば「先月の東日本エリアの売上データ」を探したいとき、従来は各部署に問い合わせたり、複数のシステムをたぐり寄せたりする必要がありました。データカタログがあれば、キーワード検索するだけで「どのサーバーの、どのテーブルに、どんな形式で、誰の承認があれば使えるか」まで即座にわかります。

近年、AI・機械学習プロジェクトの増加やクラウド活用の拡大によって、扱うデータの種類と量が爆発的に増えています。データカタログはデータガバナンス(データの品質・セキュリティ・利活用を管理する取り組み)の中核ツールとして、データドリブン経営を支える重要なインフラになっています。


データカタログが管理する情報

データカタログが扱う情報は大きく3種類に分類できます。

種類内容具体例
技術メタデータデータの構造・形式・保存場所テーブル名、カラム定義、ファイル形式、データベースのURL
ビジネスメタデータデータの意味・用途・オーナー「この列は税込み価格」「管理者: 経理部 田中さん」
運用メタデータデータの更新履歴・品質情報最終更新日時、データ件数、欠損率、アクセスログ

データリネージ(血統情報)とは

データリネージとは「このデータがどこから来て、どう加工され、どこで使われているか」を追跡する機能です。家系図のように、データの出所から現在地までの流れを可視化します。

[基幹システム] → [ETL加工] → [データウェアハウス] → [BIレポート]
     ↑ 元データ          ↑ 変換処理           ↑ 分析用DB         ↑ 最終利用

たとえば売上レポートに誤りが発覚したとき、リネージを辿れば「どの処理で誤りが混入したか」を素早く特定できます。

データカタログの主な機能まとめ

機能説明
データ検索キーワードやタグでデータ資産を検索
データプロファイリングデータの統計情報・品質を自動計測
データリネージデータの流れ(源流→加工→利用)を追跡
アクセス管理誰がどのデータを使えるかを定義
コラボレーションデータの説明・評価をチームで書き込む
自動クロール接続したシステムからメタデータを自動収集

歴史と背景

  • 〜2000年代: データカタログの概念はなく、Excelで手動管理する「データ台帳」が主流。メンテナンスが追いつかず形骸化しがちだった
  • 2010年代前半: ビッグデータブームでデータレイク(大量の生データを格納する巨大な保管庫)が普及。「データはあるが、中身がわからない」問題が深刻化
  • 2015年頃: LinkedInが社内データ管理ツール「WhereHows」をオープンソース化。データカタログという概念が注目を集め始める
  • 2016〜2018年: Alation、Collibra、Ataccama などの専業ベンダーが台頭。エンタープライズ向けデータカタログ市場が形成される
  • 2019〜: クラウド各社がマネージドサービスとして提供開始(AWS Glue Data Catalog、Google Cloud Dataplex、Azure Purview など)
  • 2022年〜現在: AIによるメタデータ自動生成・自動タグ付けが実装され、「アクティブメタデータ管理」と呼ばれる次世代型データカタログへ進化中

主要なデータカタログサービスの比較

主要なクラウドプロバイダーやSaaSベンダーのデータカタログを比較します。

サービス名提供元特徴
AWS Glue Data CatalogAmazonAWSサービス(S3・Redshiftなど)との親和性が高い。ETL処理と一体運用
Google Cloud DataplexGoogleBigQueryとの連携に強み。データ品質チェックを自動化
Microsoft PurviewMicrosoftAzure・Microsoft 365と深く統合。コンプライアンス管理に強い
CollibraCollibra社マルチクラウド対応のエンタープライズ向け。データガバナンス機能が充実
AlationAlation社機械学習による検索精度が高い。ユーザーの使い勝手重視
Apache AtlasOSSオープンソース。Hadoopエコシステムとの連携向け

データカタログとデータウェアハウスの違い

よく混同されますが、役割がまったく異なります。

データカタログ 「地図」 目的: データを「探す・理解する」 メタデータ(データの説明)を管理 保存するもの: データの場所・意味・品質 実際のデータ本体は保存しない 使う人: データ利用者・データ管理者 全社員が使う入口 例え: 図書館の「目録・カード」 本の在りかと概要がわかる 本そのものは別の棚にある データウェアハウス 「倉庫」 目的: データを「蓄積・分析する」 実際のデータ本体を格納・集計 保存するもの: 売上・顧客・在庫などの実データ 大量データを高速に集計できる形に整形 使う人: データアナリスト・経営層 SQLでクエリを投げて分析 例え: 図書館の「本棚・書庫」 本そのものが置いてある場所 目録と連携して使うと最強 連携

関連する規格・RFC

規格・標準内容
DCAT (W3C)データカタログ記述のためのW3C標準語彙。異なるカタログ間でのメタデータ交換を容易にする
Dublin Coreタイトル・作成者・日付など基本的なメタデータの記述標準。データカタログの基礎語彙として使われる
ISO/IEC 11179メタデータレジストリの国際標準。データ要素の登録・管理方法を規定
Open Metadata StandardCollibra社などが推進するオープンなメタデータ交換フォーマット

関連用語

  • メタデータ — データを説明するデータ。「このファイルは誰が、いつ、何のために作ったか」といった情報
  • データガバナンス — 組織のデータ資産を品質・セキュリティ・利活用の観点で管理・統制する取り組み
  • データレイク — 生データをそのままの形で大量に蓄積する巨大なデータ保管庫
  • データウェアハウス — 分析用に整形・集約されたデータを蓄積するデータベース
  • ETL — データを抽出(Extract)・変換(Transform)・格納(Load)する処理の総称
  • データリネージ — データの発生から現在地までの流れ・加工履歴を追跡する仕組み