LLM基礎

トークン(LLM) とーくん

トークンTokenトークナイザーテキスト分割コストコンテキスト長
トークンについて教えて

簡単に言うとこんな感じ!

AIが文字を読むときの「最小単位」がトークンだよ!英語は単語や部分語、日本語は1〜2文字ほどがトークン1個に対応するんだ。APIを使うときの料金も「トークン数」で決まるから、ビジネス利用ではコスト計算に必須の概念だよ!


トークン(LLM)とは

トークン(Token) とは、LLMがテキストを処理する際の基本単位です。文字でも単語でもなく、トークナイザーという変換器によって決まる中間的な単位です。英語では “unhappiness” が “un”・“happi”・“ness” などに分割され、日本語では「東京都」が「東」「京」「都」のように1〜2文字単位に分割されることが多いです(使用するトークナイザーによって異なります)。

LLMの利用においてトークンが重要な理由は3つあります。①コスト:OpenAI API等の料金がトークン数で課金される、②コンテキスト長モデルが処理できる最大トークン数の制限がある、③速度:生成するトークン数が多いほど応答時間が長い、です。APIを使ったシステム開発・調達では、トークン単価と想定トークン数からコストを見積もる必要があります。


言語別のトークン換算目安

言語文字/トークン
英語約4文字/トークン”hello” → 1トークン
日本語約1.5文字/トークン「こんにちは」→ 約3〜5トークン
中国語約1文字/トークン「你好」→ 約2トークン
コード約3文字/トークン変数名・記号で変動

歴史と背景

  • 2018年BERTがWordPieceトークナイザーを採用し広まる
  • 2019年:GPT-2がBPE(Byte Pair Encoding)を採用
  • 2022年:ChatGPT公開後に「トークン課金」という概念が一般ビジネスに浸透
  • 現在:日本語対応の改善が進み、以前より少ないトークンで日本語を処理できるモデルが増加

トークン数の目安とAPIコスト(参考)

日本語テキスト1,000文字 ≈ 500〜1,000トークン

GPT-4o の価格例(2025年4月時点):
  入力: $2.50 / 1Mトークン
  出力: $10.00 / 1Mトークン

1万回の問い合わせ(平均500トークン入力+500トークン出力):
  入力: 500万トークン × $2.50 = $12.5
  出力: 500万トークン × $10.00 = $50.0
  合計: 約$62.5(約9,000円)

関連用語