AIのトークンとは?文字数との違い・料金との関係をわかりやすく解説

まずは、これだけ

AIのトークンは、LLMが文章を読み書きするときに使う小さな分割単位。
入力と出力のトークン数は、扱える文章量、利用料金、回答にかかる時間などに関係します。

入力された文章が小さなトークンへ分割され、LLMで処理された後に回答として返る様子
入力:文章を小さな単位へ分ける 出力:トークンを重ねて回答を作る

AIのトークンは「文章を処理するための分割単位」

LLMは、入力された文章をそのまま一続きの文字列として処理しません。文章をトークンという小さな単位へ分け、各トークンの関係を計算します。回答を生成するときも、トークンをひとつずつ選びながら文章を作ります。

ここでいうトークンは、ログイン認証に使うアクセストークンとは別物です。AI分野では、文章を数える・処理するための単位を指します。

入力トークン

指示、質問、会話履歴、参照資料など、LLMへ渡す内容。

出力トークン

LLMが回答として生成する文章やコードなどの内容。

認証トークンとは別

本人確認やAPI利用権限を示す秘密情報とは意味が異なる。

1トークンは、1文字・1単語とは限らない

文章をどこで区切るかは、利用するモデルや言語によって異なります。ひとつの単語が1トークンになる場合もあれば、長い単語が複数へ分かれたり、日本語の短い文字列がいくつかのトークンになったりします。

そのため、画面に表示される文字数と、AIが実際に数えるトークン数は一致しません。実際に消費したトークン数を確認できるAIサービスやAPIでは、使用量の情報を確認します。

文字数

画面上の文字を数えるため、利用者へ分かりやすく表示しやすい。

単語数

文章を人が読む感覚に近いが、言語によって区切り方が異なる。

トークン数

LLMが実際に処理する単位で、モデルごとに分け方が変わる。

入力と出力は、ひとつのトークン上限を分け合う

LLMが一度に扱えるトークン量には上限があります。この範囲はコンテキストウィンドウと呼ばれ、利用者の質問、会話履歴、添付した資料、生成する回答などが含まれます。

大量の資料や長い会話を続けると、回答に使える余裕が減ります。長い会話で以前の内容が反映されにくくなったり、入力が上限を超えたりするのは、この容量が関係しています。

入力、会話履歴、参照資料、生成する回答が限られたトークン量を分け合う様子
トークン上限は、入力・履歴・資料・出力で共有する限られた容量です。
質問や指示

利用者が今回入力した文章も、容量の一部として数えられる。

履歴や資料

長い会話や添付資料が多いほど、使うトークン量が増える。

AIの回答

AIが生成する文章にもトークンが必要になる。

トークン数は、API料金と待ち時間にも関係する

多くのAI APIでは、入力トークンと出力トークンの量をもとに料金が計算されます。普段のAIツールでも、長い会話や大量の資料を扱うほど、多くの処理が必要になります。

また、生成する回答が長いほど、回答完了まで時間がかかりやすくなります。「短くまとめて」「箇条書きで」のように必要な長さを伝えると、読みやすさだけでなく利用量も抑えやすくなります。

長い入力

質問、会話履歴、添付資料が長いほど入力トークンが増える。

長い回答

AIが生成する文章が長いほど出力トークンが増える。

使用量

確認できるサービスでは、実際に使ったトークン量を確認する。

ここまでのまとめ

トークンは、LLMが文章を処理するための分割単位です。文字数や単語数とは一致せず、入力と出力の両方で消費されます。

長い会話や資料、長い回答ほど多くのトークンを使い、扱える文章量・料金・待ち時間にも影響します。