ALiBi ありばい
ALiBiAttention with Linear Biases位置エンコーディング長文対応BLOOMMPT
ALiBiについて教えて
簡単に言うとこんな感じ!
「離れた単語ほどアテンションスコアを少し下げる」というシンプルなルールを追加するだけの位置エンコーディング手法だよ!別途位置ベクトルを足すのではなく、アテンション計算の中に直接距離ペナルティを組み込むんだ。長い文章でも性能が落ちにくいのが特徴!
ALiBiとは
ALiBi(Attention with Linear Biases) とは、アテンションスコアにトークン間の距離に比例するバイアス(ペナルティ)を直接加算することで位置情報を表現する手法です。2021年にPress et al.が提案し、2022年のBLOOM(176Bパラメータのオープンモデル)で採用されたことで広く知られました。
従来の位置エンコーディングが埋め込みベクトルへの加算でしたが、ALiBiはそれを排しアテンション重みに距離に応じた負の値を引くだけです。距離が1のトークンには−m(傾き)、距離が2のトークンには−2m、と線形に増加するペナルティにより、近いトークンほど高いアテンションが自然に得られます。実装がシンプルで、学習コンテキスト長を超えた長文でも性能劣化が比較的少ない特性があります。
ALiBiの計算
通常のアテンションスコア:
softmax( Q・Kᵀ / √d_k ) ・ V
ALiBiのアテンションスコア:
softmax( Q・Kᵀ / √d_k + m・距離行列 ) ・ V
距離行列の例(5トークン):
0 -1 -2 -3 -4
0 0 -1 -2 -3
0 0 0 -1 -2
...
mはヘッドごとに異なる定数(ハイパーパラメータ)
歴史と背景
- 2021年:Press et al.「Train Short, Test Long: Attention with Linear Biases」で提案
- 2022年:BigScience「BLOOM」(176B)がALiBiを採用し注目
- 2022年:MosaicML「MPT」シリーズがALiBiで長文外挿性能を実証
- 現在:RoPEが主流だが、ALiBiは実装の簡潔さから小規模モデルや研究で活用
RoPEとの比較
| 項目 | ALiBi | RoPE |
|---|---|---|
| 実装の複雑さ | シンプル(バイアス加算のみ) | やや複雑(回転行列計算) |
| 長文外挿 | 強い | 強い(拡張技術が充実) |
| 位置情報の表現 | 線形距離ペナルティ | 相対位置の回転 |
| 採用モデル | BLOOM、MPT | LLaMA、Falcon |
| ファインチューニング | 安定 | 安定 |
関連用語
- ポジショナルエンコーディング — ALiBiが属する位置情報付与技術の分類
- RoPE — ALiBiと並ぶ相対位置エンコーディングの主要手法
- コンテキスト長 — ALiBiが長コンテキスト外挿で貢献する指標
- マルチヘッドアテンション — ALiBiのバイアスが加算されるアテンション機構