LLM基礎

コンテキスト長 こんてきすとちょう

コンテキスト長Context Lengthトークン数コンテキストウィンドウ長文対応LLM
コンテキスト長について教えて

簡単に言うとこんな感じ!

AIが「一度に読めるページ数」のことだよ!コンテキスト長が短いAIは、長い文書を途中で忘れてしまう。長いと100ページの報告書を丸ごと読んで質問に答えてくれる。システム発注で「長文対応か」を確認するときの重要指標なんだ!


コンテキスト長とは

コンテキスト長(Context Length) とは、LLMが1回の推論で処理できるトークン(文字や単語のかたまり)の最大数を指します。「コンテキストウィンドウ」とも呼ばれます。この範囲内のテキストしかモデルは「見えない」ため、長い文書を扱うときの実用的な制約となります。

日本語の場合、1トークンは概ね1〜2文字に相当するため、100,000トークンのコンテキスト長なら約5〜10万字(200〜400ページ相当)を一度に扱える計算です。コンテキスト長を超えた情報はモデルが参照できず、古い情報から「忘れる」 か、エラーが発生します。


主要モデルのコンテキスト長比較

モデルコンテキスト長日本語換算(目安)
GPT-3.516K トークン約8,000字
GPT-4o128K トークン約6.4万字
Claude 3.5 Sonnet200K トークン約10万字
Claude 3.7 Sonnet200K トークン約10万字
Gemini 1.5 Pro1M トークン約50万字

歴史と背景

  • 2020年:GPT-3登場時は2,048トークンと短く、長文対応が大きな課題
  • 2023年:Claude 2が100Kトークンを実現し「長文対応LLM」として注目
  • 2024年:Gemini 1.5がMillionトークンコンテキストを達成
  • 現在:RoPEやFlash Attentionの進化により長コンテキスト化が加速

コンテキスト長と実務への影響

短いコンテキスト(例:4K〜16K)
  → 長い契約書や報告書は分割して送らないといけない
  → 会話履歴が積み上がると古い内容を忘れる
  → 大量のコードを一度に解析できない

長いコンテキスト(例:100K〜1M)
  → 100ページの仕様書をそのまま貼り付けて質問できる
  → 長時間の会議議事録を一括で要約可能
  → 大規模コードベースを横断した解析ができる

コンテキスト長が長いほどよい反面、計算コスト・処理時間・費用が増大するため、用途に合ったモデル選択が重要です。


関連用語

  • KVキャッシュ — 長いコンテキストの推論を高速化する仕組み
  • Flash Attention — 長コンテキストを省メモリで処理するアテンション実装
  • トークン — コンテキスト長を測る基本単位
  • RoPE — 長いコンテキスト対応を支える位置エンコーディング
  • Sparse Attention — 長コンテキストの計算量を削減するアテンション手法