LLM基礎

ナレッジカットオフ なれっじかっとおふ

ナレッジカットオフKnowledge Cutoff学習打ち切り日最新情報RAGLLM限界
ナレッジカットオフについて教えて

簡単に言うとこんな感じ!

AIが「学習した最後の日付」のことだよ!それ以降に起きた出来事はAIが知らないんだ。例えばカットオフが2024年4月なら、2024年5月以降のニュースや新製品の情報は持っていない。だから「最新情報は?」と聞くと古い情報か「わかりません」と言われることがあるんだ!


ナレッジカットオフとは

ナレッジカットオフ(Knowledge Cutoff) とは、LLMの事前学習データの収集が終了した日付のことです。この日付以降の出来事・製品・法律・研究成果等についてモデルは知識を持たず、質問しても誤った情報や「知りません」という回答が返ります。

モデルの公開日とカットオフは異なります。GPT-4o(2024年5月公開)のカットオフは2023年10月で、約7ヶ月の「空白期間」があります。これはデータ収集・前処理・学習・評価・安全性テストに時間がかかるためです。また、カットオフが近い時期のデータは学習量が少ないため、その時期の情報の精度が低くなる「境界効果」も知られています。


主要モデルのカットオフ(2025年4月時点)

モデル公開時期知識カットオフ
GPT-4o2024年5月2023年10月
GPT-4.52025年2月2023年10月
o12024年9月2023年10月
Claude 3.5 Sonnet2024年6月2024年4月
Claude 3.7 Sonnet2025年2月2025年2月
Gemini 1.5 Pro2024年2月2023年11月

歴史と背景

  • 2020年:GPT-3の登場でカットオフの概念が実用上の課題として認識
  • 2022年末:ChatGPTのカットオフが2021年9月で「最新情報に弱い」と広く指摘
  • 2023年:Bing Chat(Copilot)が検索と組み合わせてカットオフ問題を一部解決
  • 現在RAGや検索連携でカットオフを補う手法が普及。モデルのカットオフも最近に近づく傾向

カットオフへの対処法

方法1: RAG(Retrieval-Augmented Generation)
  最新のドキュメントをデータベースに保存し、
  質問に関連する情報をリアルタイムで検索してから回答
  → 社内情報・最新法令・リアルタイムデータに有効

方法2: 検索ツールとの連携
  AIが検索エンジンをツールとして呼び出し最新情報を取得
  → Perplexity AI・Bing Chat等が採用

方法3: システムプロンプトで現在日時を提供
  「現在は2026年4月です」と明記することで
  「知識の期限切れ」を一部補完

関連用語