AIのトークンは、LLMが文章を読み書きするときに使う小さな分割単位。
入力と出力のトークン数は、扱える文章量、利用料金、回答にかかる時間などに関係します。
AIのトークンは「文章を処理するための分割単位」
LLMは、入力された文章をそのまま一続きの文字列として処理しません。文章をトークンという小さな単位へ分け、各トークンの関係を計算します。回答を生成するときも、トークンをひとつずつ選びながら文章を作ります。
ここでいうトークンは、ログイン認証に使うアクセストークンとは別物です。AI分野では、文章を数える・処理するための単位を指します。
指示、質問、会話履歴、参照資料など、LLMへ渡す内容。
LLMが回答として生成する文章やコードなどの内容。
本人確認やAPI利用権限を示す秘密情報とは意味が異なる。
1トークンは、1文字・1単語とは限らない
文章をどこで区切るかは、利用するモデルや言語によって異なります。ひとつの単語が1トークンになる場合もあれば、長い単語が複数へ分かれたり、日本語の短い文字列がいくつかのトークンになったりします。
そのため、画面に表示される文字数と、AIが実際に数えるトークン数は一致しません。実際に消費したトークン数を確認できるAIサービスやAPIでは、使用量の情報を確認します。
画面上の文字を数えるため、利用者へ分かりやすく表示しやすい。
文章を人が読む感覚に近いが、言語によって区切り方が異なる。
LLMが実際に処理する単位で、モデルごとに分け方が変わる。
入力と出力は、ひとつのトークン上限を分け合う
LLMが一度に扱えるトークン量には上限があります。この範囲はコンテキストウィンドウと呼ばれ、利用者の質問、会話履歴、添付した資料、生成する回答などが含まれます。
大量の資料や長い会話を続けると、回答に使える余裕が減ります。長い会話で以前の内容が反映されにくくなったり、入力が上限を超えたりするのは、この容量が関係しています。
利用者が今回入力した文章も、容量の一部として数えられる。
長い会話や添付資料が多いほど、使うトークン量が増える。
AIが生成する文章にもトークンが必要になる。
トークン数は、API料金と待ち時間にも関係する
多くのAI APIでは、入力トークンと出力トークンの量をもとに料金が計算されます。普段のAIツールでも、長い会話や大量の資料を扱うほど、多くの処理が必要になります。
また、生成する回答が長いほど、回答完了まで時間がかかりやすくなります。「短くまとめて」「箇条書きで」のように必要な長さを伝えると、読みやすさだけでなく利用量も抑えやすくなります。
質問、会話履歴、添付資料が長いほど入力トークンが増える。
AIが生成する文章が長いほど出力トークンが増える。
確認できるサービスでは、実際に使ったトークン量を確認する。
ここまでのまとめ
トークンは、LLMが文章を処理するための分割単位です。文字数や単語数とは一致せず、入力と出力の両方で消費されます。
長い会話や資料、長い回答ほど多くのトークンを使い、扱える文章量・料金・待ち時間にも影響します。