AI・機械学習

大規模言語モデル(LLM) だいきぼげんごもでる

LLMChatGPTGeminiClaude事前学習基盤モデル
大規模言語モデル(LLM)について教えて

簡単に言うとこんな感じ!

インターネット上の膨大なテキストで学習した超巨大AIモデルのことだよ!ChatGPT・Gemini・Claude・Llama…これらが全部LLM。文章を書く・要約する・翻訳する・コードを書く・質問に答えるなど、言語に関することなら何でもこなせるんだ。まさに「万能文章AI」だよ!


大規模言語モデル(LLM)とは

大規模言語モデル(LLM: Large Language Model) とは、数十億〜数兆のパラメータを持ち、インターネット・書籍・コードなど大量のテキストデータで事前学習したTransformerベースの言語AIモデルです。GPTBERT・Claudeなど現代の主要なテキストAIはすべてLLMの一種です。

LLMの最大の特徴は 汎用性 です。翻訳・要約・分類・Q&A・コード生成・文章作成など、従来は個別にモデルを開発していたタスクを1つのモデルで対応できます。また In-Context Learning(文脈内学習) という能力により、プロンプト(指示文)に数例を示すだけで、追加学習なしに新しいタスクに対応できます。

ビジネス活用では大きく3つの方式があります。①API利用(OpenAI・Anthropic・Googleのモデルをクラウド経由で呼び出す、初期コスト低・データ管理注意)、②ファインチューニング(自社データで追加学習して業務特化させる)、③オンプレミス展開(Llama等のオープンソースモデルを社内サーバーで運用、データ機密性が高い場合に選択)。


主要LLMの比較

モデル開発元特徴利用形態
GPT-4oOpenAI高精度・マルチモーダルAPI・ChatGPT
Claude 3.5/4Anthropic長文・安全性・コードAPI・Claude.ai
Gemini 2.0Google検索連携・マルチモーダルAPI・Gemini
Llama 3.xMetaオープンソース・商用可セルフホスト
MistralMistral AI軽量・オープンAPI・セルフホスト
Command R+CohereRAG特化・EnterpriseAPI

LLMの能力の広がり

LLM 文章生成・要約 コード生成 翻訳 質問応答・検索 感情分析 分類・タグ付け 推論・計画 対話 データ 構造化

歴史と背景

  • 2017年 — Transformerアーキテクチャ発表。LLMの技術基盤が確立
  • 2018年BERT(Google)・GPT-1(OpenAI)発表。事前学習モデルの時代へ
  • 2020年GPT-3(1,750億パラメータ)が「スケーリング則」を実証。大きいほど賢い
  • 2021年Codex(コード生成モデル)が登場。GitHub Copilotに採用
  • 2022年11月ChatGPTが公開。一般ユーザーがLLMを日常的に使う時代へ
  • 2023年 — Llama・Mistral等のオープンソースLLMが相次いで公開
  • 2024年〜 — マルチモーダル・エージェント(自律タスク実行)・長文脈対応が主要トレンドに

スケーリング則と Emergent Abilities

スケーリング則(Scaling Laws) とは、「モデルのパラメータ数・学習データ量・計算量を増やすと、予測可能に性能が向上する」という経験則です。この法則に従い、各社がモデルを大型化し続けています。

また一定規模を超えると 創発的能力(Emergent Abilities) と呼ばれる、事前に予測できなかった新能力(数学的推論・コード生成・多段階の論理推論など)が突然出現することも知られています。

モデル規模の目安代表的な特徴
~70億パラメータ単純な質問応答・文書分類が可能
70〜700億パラメータ推論・コード生成・多言語対応が向上
700億〜複雑な推論・創造的な文章生成・専門知識

関連する規格・RFC

規格・RFC番号内容
ISO/IEC 42001AI管理システムの国際規格(LLM導入時の管理指針)
EU AI Act高リスクAIシステムとしてLLMの規制対象を規定

関連用語