トークン(LLM) とーくん
トークンTokenトークナイザーテキスト分割コストコンテキスト長
トークンについて教えて
簡単に言うとこんな感じ!
AIが文字を読むときの「最小単位」がトークンだよ!英語は単語や部分語、日本語は1〜2文字ほどがトークン1個に対応するんだ。APIを使うときの料金も「トークン数」で決まるから、ビジネス利用ではコスト計算に必須の概念だよ!
トークン(LLM)とは
トークン(Token) とは、LLMがテキストを処理する際の基本単位です。文字でも単語でもなく、トークナイザーという変換器によって決まる中間的な単位です。英語では “unhappiness” が “un”・“happi”・“ness” などに分割され、日本語では「東京都」が「東」「京」「都」のように1〜2文字単位に分割されることが多いです(使用するトークナイザーによって異なります)。
LLMの利用においてトークンが重要な理由は3つあります。①コスト:OpenAI API等の料金がトークン数で課金される、②コンテキスト長:モデルが処理できる最大トークン数の制限がある、③速度:生成するトークン数が多いほど応答時間が長い、です。APIを使ったシステム開発・調達では、トークン単価と想定トークン数からコストを見積もる必要があります。
言語別のトークン換算目安
| 言語 | 文字/トークン | 例 |
|---|---|---|
| 英語 | 約4文字/トークン | ”hello” → 1トークン |
| 日本語 | 約1.5文字/トークン | 「こんにちは」→ 約3〜5トークン |
| 中国語 | 約1文字/トークン | 「你好」→ 約2トークン |
| コード | 約3文字/トークン | 変数名・記号で変動 |
歴史と背景
- 2018年:BERTがWordPieceトークナイザーを採用し広まる
- 2019年:GPT-2がBPE(Byte Pair Encoding)を採用
- 2022年:ChatGPT公開後に「トークン課金」という概念が一般ビジネスに浸透
- 現在:日本語対応の改善が進み、以前より少ないトークンで日本語を処理できるモデルが増加
トークン数の目安とAPIコスト(参考)
日本語テキスト1,000文字 ≈ 500〜1,000トークン
GPT-4o の価格例(2025年4月時点):
入力: $2.50 / 1Mトークン
出力: $10.00 / 1Mトークン
1万回の問い合わせ(平均500トークン入力+500トークン出力):
入力: 500万トークン × $2.50 = $12.5
出力: 500万トークン × $10.00 = $50.0
合計: 約$62.5(約9,000円)