Transformerアーキテクチャ

ALiBi ありばい

ALiBiAttention with Linear Biases位置エンコーディング長文対応BLOOMMPT
ALiBiについて教えて

簡単に言うとこんな感じ!

「離れた単語ほどアテンションスコアを少し下げる」というシンプルなルールを追加するだけの位置エンコーディング手法だよ!別途位置ベクトルを足すのではなく、アテンション計算の中に直接距離ペナルティを組み込むんだ。長い文章でも性能が落ちにくいのが特徴!


ALiBiとは

ALiBi(Attention with Linear Biases) とは、アテンションスコアにトークン間の距離に比例するバイアス(ペナルティ)を直接加算することで位置情報を表現する手法です。2021年にPress et al.が提案し、2022年のBLOOM(176Bパラメータのオープンモデル)で採用されたことで広く知られました。

従来の位置エンコーディングが埋め込みベクトルへの加算でしたが、ALiBiはそれを排しアテンション重みに距離に応じた負の値を引くだけです。距離が1のトークンには−m(傾き)、距離が2のトークンには−2m、と線形に増加するペナルティにより、近いトークンほど高いアテンションが自然に得られます。実装がシンプルで、学習コンテキスト長を超えた長文でも性能劣化が比較的少ない特性があります。


ALiBiの計算

通常のアテンションスコア:
  softmax( Q・Kᵀ / √d_k ) ・ V

ALiBiのアテンションスコア:
  softmax( Q・Kᵀ / √d_k + m・距離行列 ) ・ V

距離行列の例(5トークン):
   0  -1  -2  -3  -4
   0   0  -1  -2  -3
   0   0   0  -1  -2
   ...

mはヘッドごとに異なる定数(ハイパーパラメータ)

歴史と背景

  • 2021年:Press et al.「Train Short, Test Long: Attention with Linear Biases」で提案
  • 2022年:BigScience「BLOOM」(176B)がALiBiを採用し注目
  • 2022年:MosaicML「MPT」シリーズがALiBiで長文外挿性能を実証
  • 現在:RoPEが主流だが、ALiBiは実装の簡潔さから小規模モデルや研究で活用

RoPEとの比較

項目ALiBiRoPE
実装の複雑さシンプル(バイアス加算のみ)やや複雑(回転行列計算)
長文外挿強い強い(拡張技術が充実)
位置情報の表現線形距離ペナルティ相対位置の回転
採用モデルBLOOM、MPTLLaMA、Falcon
ファインチューニング安定安定

関連用語