EN ログイン

トークンとは|意味・定義とGEO対策における位置づけ

AIの仕組み 2026-06-09

著者:喜多 陽平 / Kita Yohei 公開日:2026年06月09日

トークン(Token)とは、AIが文章を処理する際の最小単位のことです。人間が文章を「単語」や「文節」で認識するのとは異なり、LLM(大規模言語モデル)はテキストをトークンと呼ばれる断片に分割して処理します。トークンは単語と一致するとは限らず、単語の一部・記号・スペースなども含みます。GEO対策においては、コンテキストウィンドウの制約やコンテンツの読まれやすさを理解する上でトークンの概念が重要です。

このページでわかること

  • トークンの意味・定義
  • 日本語と英語でトークン数が異なる理由
  • コンテキストウィンドウとの関係
  • GEO対策においてトークンが重要な理由
  • よくある誤解

トークンとは

LLMはテキストをそのまま処理するのではなく、まずテキストをトークンと呼ばれる単位に分割(トークナイズ)してから処理します。トークンはおおよそ以下のような単位に対応しますが、言語・モデル・文脈によって異なります。

言語 おおよそのトークン換算
英語 1トークン ≈ 3〜4文字(約0.75単語) "GEO strategy" → 3トークン程度
日本語 多くのLLMでは1トークン ≈ 1〜3文字 「GEO対策」→ 5〜8トークン程度

多くのLLMでは日本語は英語と比べてトークン効率が低く、同じ情報量を伝えるために消費するトークン数が多くなります。ただしGemini系モデルなど日本語に最適化されたトークナイザーを採用するモデルでは効率が改善されており、今後もモデルごとの差異は変化する可能性があります。

OpenAIの公式ドキュメントでは「英語テキストにおいて1トークンはおよそ4文字または0.75単語に相当する」とされています。

なぜGEOでトークンが語られるのか

トークンがGEO対策で語られる理由は主に2つあります。

ひとつはコンテキストウィンドウの制約です。LLMが1回の推論(Inference)で処理できるテキストの上限はトークン数で定義されています。RAGベースの推論では、取得したコンテンツをコンテキストに入れて推論しますが、コンテキストウィンドウに収まらない情報は参照されません。コンテンツが長すぎたり・冗長だったりすると、重要な情報がウィンドウの外に押し出されてしまう可能性があります。

もうひとつはチャンクとの関係です。RAGシステムでは、コンテンツをチャンク(断片)に分割して取得します。このチャンクの大きさはトークン数で管理されることが多く、「1チャンク = 512トークン」「1チャンク = 1,024トークン」のように設定されます。チャンクのサイズと内容の構造がAIに取得・引用されやすいかどうかに影響します。

チャンクとは

Retrievalとは

推論(Inference)とは

コンテキストウィンドウとトークンの関係

コンテキストウィンドウとは、LLMが1回の推論で処理できるトークンの最大数のことです。主要なAIのコンテキストウィンドウは年々拡大しています。

モデル(参考) コンテキストウィンドウ(概算)
GPT-4o 128,000トークン
Claude Opus 4.7 / Sonnet 4.6 1,000,000トークン
Gemini Advanced 1,000,000トークン以上

※ 上記は2026年6月時点の参考値です。各モデルのバージョンやAPIプランによって異なります。

コンテキストウィンドウが大きくなっても、LLMはウィンドウ内のすべての情報を均等に参照するわけではありません。先頭と末尾の情報が参照されやすく、中間部分の情報は参照されにくくなる傾向(「ロスト・イン・ザ・ミドル」問題)が研究で示されています。また、NVIDIA社のRULERベンチマークではほとんどのモデルの実効コンテキストは公称容量の50〜65%程度であるとされており、コンテンツの量より構造と配置が重要です。

GEO対策における位置づけ

GEO対策においてトークンの理解が重要な理由は、「コンテンツがどこまで読まれるか」に直接影響するからです。

RAGベースの推論では、取得したチャンクがコンテキストウィンドウに収まってはじめてAIが参照できます。トークン数の観点から見ると、冗長な表現・不要な繰り返し・過剰に長い文章は、限られたコンテキストウィンドウを無駄に消費します。重要な情報を前半に配置し・見出しで構造化し・簡潔に書くことは、AI可読性とトークン効率の両方を高める設計です。

また多くのLLMでは日本語コンテンツは英語よりトークン効率が低いため、同じ文字数でも消費トークンが多くなります。日本語でGEO対策を行う際はこの点を念頭に置き、情報密度の高い簡潔な文章を意識することが推奨されます。

AI可読性とは

チャンクとは

Genviewによる定義

GEO対策の文脈において、トークンとは「LLMがテキストを処理する際の最小単位であり、コンテキストウィンドウの消費量・チャンクのサイズ・AIがコンテンツを参照できる量を規定する概念」です。

Genviewでは、トークンを「AIがコンテンツをどこまで読めるかを決める物差し」として位置づけています。コンテンツの長さ・構造・言語の選択はすべてトークン消費に影響し、それがAIの参照範囲に直結します。

この定義はGenviewの見解であり、業界の総意ではありません。

関連語

  • チャンク:RAGシステムでコンテンツを分割して取得する単位。チャンクサイズはトークン数で管理されることが多い。
  • Retrieval:RAGベースの推論においてコンテキストとして情報を取得するプロセス。取得されたチャンクがコンテキストウィンドウに収まるかどうかがトークン数で決まる。
  • 推論(Inference):LLMが入力を受け取り回答を生成するプロセス。1回の推論で処理できるトークン数の上限がコンテキストウィンドウ。
  • AI可読性:AIがコンテンツを読み取り・参照しやすい状態のこと。トークン効率の高い構造がAI可読性向上に寄与する。
  • Grounding:AIが特定の情報源に基づいて推論する仕組み。コンテキストウィンドウ内に収まった情報がGroundingの対象になる。

よくある誤解

誤解①:「トークン=単語」

トークンは単語と一致しません。英語では1単語が複数トークンに分割されることがあり、多くのLLMでは日本語の場合ひらがな・カタカナ・漢字の種類によって1〜複数トークンに対応します。句読点・記号・スペースもトークンとして計算されます。「1,000トークン」と「1,000単語」は異なる概念です。

誤解②:「コンテキストウィンドウが大きければ内容はすべて参照される」

コンテキストウィンドウが大きくなっても、ウィンドウ内の情報がすべて均等に参照されるわけではありません。先頭と末尾に比べ中間部分は参照されにくい傾向があります。コンテンツの量より構造と配置が重要です。

誤解③:「日本語と英語でトークン数は同じ」

多くのLLMでは日本語は英語よりトークン効率が低く、同じ情報量でも消費トークンが多くなります。ただしモデルによって差異があり、日本語対応が進んだモデルでは改善されているケースもあります。日本語コンテンツのGEO対策では、情報密度の高い構成を意識することが推奨されます。

よくある質問

Q: 何文字くらいで1トークンですか?
A: 言語とモデルによって異なります。OpenAIの公式ドキュメントによると英語では1トークンはおおよそ4文字(0.75単語)に相当します。多くのLLMでは日本語の場合はひらがな・カタカナ・漢字によって1〜3文字程度が1トークンに対応しますが、モデルやトークナイザーによって大きく異なります。OpenAIの公式Tokenizerツールで実際のテキストを試すことができます。
Q: トークン数はSEOに影響しますか?
A: 直接は影響しません。GoogleのSEOアルゴリズムはトークン数で評価しているわけではありません。ただしAIの参照効率には影響します。RAGベースの推論ではコンテキストウィンドウに収まるトークン数に上限があり、冗長なコンテンツは重要情報が参照されにくくなる可能性があります。SEOとGEO対策の両面から、簡潔で構造化された文章が推奨されます。
Q: コンテンツが長すぎるとAIに参照されなくなりますか?
A: 長すぎるコンテンツはRAGシステムでのチャンク取得時に重要情報が分散・脱落しやすくなります。またコンテキストウィンドウに収まっても中間部分が参照されにくい傾向があります。見出し・箇条書き・定義文など構造化された形式で重要情報を前半に集中させることが有効です。
Q: 日本語でのGEO対策はトークンの観点から不利ですか?
A: トークン効率の観点では多くのLLMで英語より不利ですが、日本語対応が進んだモデル(Gemini系など)では差が縮まっています。またトークン効率より情報の正確性・一致度・構造化が引用の可否に影響します。

参考文献

← GEO用語集に戻る
お申込みはこちら →