アテンション機構 あてんしょんきこう
セルフアテンションマルチヘッドアテンションTransformerクエリキーバリュー
アテンション機構について教えて
簡単に言うとこんな感じ!
「文章の中でどの単語がどの単語に注目すべきか」を自動で学習する仕組みだよ!「私は東京で生まれた彼女が好きだ」という文で「彼女」が「東京」じゃなく「生まれた」に関係すると理解する…みたいな、文の遠い位置にある単語同士の関係を掴む力がポイントなんだ!
アテンション機構とは
アテンション機構(Attention Mechanism) とは、テキストや画像などのデータを処理する際に、「どの部分に注目(Attention)すべきか」の重みを動的に学習する深層学習の仕組みです。2015年ごろから機械翻訳で使われ始め、2017年のTransformerで全面採用されて一般的になりました。
人間が長文を読む際に「重要な部分に目を止め、他は流し読みする」行動に似たメカニズムです。例えば「彼は昨日買った赤い車を売った」という文で「売った」の主語が「彼」だとわかるのは、離れた位置の単語間の関係を理解しているからです。アテンション機構はこの「どの単語が今処理している単語に関係するか」をスコアとして学習します。
セルフアテンション(Self-Attention) はTransformerの中核で、入力文章の全単語について「互いにどれだけ関連しているか」を計算します。マルチヘッドアテンション は複数のアテンション(ヘッド)を並列に走らせ、様々な観点から単語関係を捉える仕組みです。
アテンション機構の仕組み
マルチヘッドアテンション
| 概念 | 内容 |
|---|---|
| ヘッド数 | 並列に動かすアテンションの数(GPT-3は96ヘッド) |
| 役割の分担 | あるヘッドは文法的関係、別のヘッドは意味的関係を捉える |
| 統合 | 各ヘッドの出力を結合して最終的な表現を生成 |
歴史と背景
- 2014年 — Bahdanauらが機械翻訳でアテンションを提案。長文翻訳の精度が大幅向上
- 2015年 — Luongらがアテンション機構を改良・汎化
- 2016年 — グローバルアテンションとローカルアテンションの使い分けが研究される
- 2017年 — Google「Attention Is All You Need」でセルフアテンションのみのTransformerを発表
- 2018年 — BERTがセルフアテンションで双方向文脈理解を実現。NLP性能が飛躍
- 2021年〜 — 画像・音声にもアテンション機構が適用。マルチモーダルAIへ
アテンション機構の種類
| 種類 | 説明 | 主な用途 |
|---|---|---|
| セルフアテンション | 同一シーケンス内の単語間の関係 | Transformerのエンコーダー |
| クロスアテンション | 入力と出力の異なるシーケンス間の関係 | 機械翻訳・Transformerデコーダー |
| マスクドアテンション | 未来のトークンを見ないよう隠す | GPTのデコーダー(自己回帰生成) |
| スパースアテンション | 全ペアでなく一部だけ計算(高速化) | Longformer・超長文モデル |
関連する規格・RFC
| 規格・RFC番号 | 内容 |
|---|---|
| — | 学術論文ベースの技術のため公式規格なし |
関連用語
- Transformer — アテンション機構を全面採用した深層学習アーキテクチャ
- BERT — セルフアテンションで双方向文脈理解を実現した言語モデル
- GPT — マスクドアテンションで自己回帰生成を行うモデル
- 単語埋め込み — アテンション計算の入力となるベクトル表現
- 自然言語処理(NLP) — テキストを扱うAI技術の総称
- 大規模言語モデル(LLM) — アテンション機構を大規模化したAIモデル
- 深層学習 — ニューラルネットワークを多層化した機械学習