ETL・ELT いーてぃーえる・いーえるてぃー
データパイプラインデータ統合変換処理dbtFivetranデータウェアハウス
ETL・ELTについて教えて
ETL・ELTとは
**ETL(Extract・Transform・Load)とは、複数のデータソース(業務DB・SaaS・ログなど)から抽出(Extract)→変換(Transform)→格納(Load)**の順でデータを処理し、DWHやデータレイクへ投入するデータ統合プロセスです。1990〜2000年代に普及した伝統的なアプローチです。
ELT(Extract・Load・Transform)は順序が変わり、まずデータをDWH/データレイクへそのままロード(L)し、その後DWH内部で変換(T)する新しいアプローチです。クラウドDWH(BigQuery・Snowflake等)の計算能力が高くなった2010年代以降に主流化しました。変換をDWH内で行うためSQLが使いやすく、dbt(data build tool)のようなツールと相性抜群です。
ETLはデータをDWHに入れる前に整形するため「ゴミを持ち込まない」利点がありますが、変換ロジックの変更のたびに再ロードが必要という弱点があります。ELTは生データを保持できるため遡及処理(バックフィル)が容易ですが、「一旦全部入れる」ためストレージコストが増える側面もあります。
ETL vs ELT の比較
| 観点 | ETL | ELT |
|---|---|---|
| 変換タイミング | ロード前(外部エンジン) | ロード後(DWH内部) |
| 変換場所 | 専用ETLサーバー | DWH/データレイク |
| 生データの保持 | 保持しない | 保持する(遡及可能) |
| 変換ロジック変更 | 再ロードが必要 | 再クエリで対応 |
| 得意な用途 | プライバシー配慮・レガシー連携 | クラウドDWH・大量データ |
| 代表ツール | Informatica・Talend・SSIS | Fivetran・Airbyte + dbt |
歴史と背景
- 1970〜80年代:大型汎用機時代にデータ変換バッチ処理の概念が誕生
- 1990年代:DWH普及に伴いInformatica・AbInitioなどの専用ETLツールが市場を形成
- 2000年代:MicrosoftのSSIS・Oracle Data Integratorなどが企業に普及
- 2013年:Fivetranがコネクタ型ELTサービスとして創業。SaaS連携を自動化
- 2016年:dbtが誕生。SQLによるTransformの管理ツールとして急速に普及
- 2019年:Airbyteがオープンソースのコネクタプラットフォームとして登場
- 現在:「モダンデータスタック」としてFivetran/Airbyte + DWH + dbtの組み合わせが主流
主なツール比較
| ツール | 役割 | 特徴 |
|---|---|---|
| Fivetran | E+L(コネクタ) | 300以上のコネクタ・フルマネージド |
| Airbyte | E+L(コネクタ) | オープンソース・カスタムコネクタ可 |
| dbt | T(変換) | SQLベース・バージョン管理・テスト自動化 |
| Apache Airflow | オーケストレーション | DAGによるパイプライン管理 |
| Informatica | ETL(統合) | エンタープライズ向けの老舗ETLツール |
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| dbt Core 仕様 | SQLベースのTransformフレームワーク |
| Apache Airflow DAG | ワークフローをDAG(有向非巡回グラフ)で定義する仕様 |
関連用語
- データウェアハウス — ETL/ELTのデータ投入先
- データレイク — ETL/ELTのもう一つの投入先
- OLAP — ETL/ELT後のデータを使った分析処理モデル
- ストアドプロシージャ — DB内のTransformに使われることもある
- マテリアライズドビュー — ELTのTransformで作る集計済みテーブルの一形態
- バックアップ・リストア — ETLパイプラインの障害時の復旧手順