EN ログイン

1000ページより、AIに読まれる10ページを作れ

コラム 2026-06-16
1000ページより、AIに読まれる10ページを作れ
著者:喜多 陽平 / Kita Yohei

1000ページのサイトがある。ユーザーがAIに「おすすめのGEO対策ツールを教えて」と聞いた。このとき、検索・Groundingが有効なAIは、サイト全体を読むわけではありません。リアルタイムで取得できる情報の中から、回答に使えそうなページやチャンクを選びます。

Groundingとは、AIが回答を生成する際に外部のWebページをリアルタイムで検索・取得し、その情報を根拠として使う仕組みです。ChatGPTのWeb検索やGeminiの検索連携がこれにあたります。

では、その数ページはどう選ばれるのか。何が選ばれて、何が無視されるのか。

AIは1000ページを読まない

ここで扱うのは、AIの学習済みデータに何が含まれているかではありません。ChatGPTのWeb検索、GeminiのGrounding、Perplexityのように、回答時に外部情報をリアルタイムで取得する場面で、どのページが取得候補になるかという話です。

RAGや検索連携型のAIでは、ユーザーのクエリに答えるために、外部情報を検索・取得し、その情報を根拠として回答を生成します。このプロセスは「全ページを読む」ではありません。クエリをベクトル(数値)に変換し、取得候補となるページやチャンクの中から意味的に近いものを絞り込んで取得します。

サイト内の全ページ(例:1000ページ)
↓ クエリをベクトル変換・類似度スコアリング
意味的に近い上位チャンク(数〜十数件)
↓ コンテキストとして使用
回答生成

取得される単位はページ全体ではなくチャンクと呼ばれる断片です。1ページが複数のチャンクに分割されることもあります。極端に言えば、1000ページあるサイトでも、あるクエリに対して実際に回答生成へ使われるのは全体の1%未満かもしれません。

Groundingで参照されにくいページ

私が観察する限り、以下のようなページは一般的な商材・サービス系クエリに対して参照されにくい傾向があります。

  • 採用情報・求人ページ:サービスに関するクエリには意味的に遠い
  • プライバシーポリシー・利用規約:法的文書は一般的な質問への回答には使われにくい
  • 会社沿革・IR情報:企業の歴史は製品・サービスのクエリとは離れている
  • カテゴリ一覧・タグページ:コンテンツへのリストであり、内容自体が薄い
  • ページネーション(2ページ目以降):情報の密度が低く、クエリとの類似度も下がりやすい
  • テキストが薄い・画像中心のページ:取得できるテキスト情報がそもそも少ない

また、404エラーやリダイレクトループなど技術的な問題を抱えるページは、そもそも取得対象になりにくい可能性があります。1000ページと言っても、実際にAIが読める状態にあるページは思っているよりずっと少ないかもしれません。

Groundingで参照されやすいページ

正確には、AIはページ種別ではなく「クエリへの適合度」で取得します。その結果として、以下のようなページが取得されやすくなる傾向があります。

  • FAQページ:Q&A形式は「答え」として抽出しやすく、チャンクに分割しやすい
  • 比較記事・比較ページ:「〇〇と△△の違いは?」系のクエリに対して意味的に近い
  • 用語集・定義ページ:「〇〇とは?」系クエリに対して正確に一致する
  • 導入事例・実績ページ:「実際に使っている会社は?」系クエリに対応
  • 機能説明ページ:具体的な機能に関するクエリに対して意味的に近い

海外のGEO調査メディアAI+Automationは「クエリのインテントが取得プールを決める」という2段階モデルを指摘しています。FAQや比較ページが取得されやすいのは、それらのページがユーザーの問いに直接答える構造を持っているからです。またNiaraは「FAQや仕様ページなど、事実ベースで具体的なデータを持つページを優先せよ」と述べています。

Genviewが用語集・FAQをコンテンツの軸に置いている理由はここにあります。AIが参照しやすい形のページを意図的に作ることが、Grounding対策の基本です。

内部リンク100本よりクエリ一致

よく聞かれる誤解があります。「内部リンクが多いページはAIにも優先される」という考え方です。これは半分正しく、半分違います。

内部リンクが多いページはクローラーに先に発見されやすくなります。しかし発見されることと、Grounding時に取得されることは別の話です。

例:「GEO対策ツール比較」というクエリが来た場合

内部リンク100本 ホームページ(会社紹介・サービス概要) 参照されにくい
内部リンク3本 GEO対策ツール比較ページ(詳細な比較コンテンツ) 参照されやすい

Grounding時の取得優先度には、クエリとの意味的な近さが強く影響します。やみくもに内部リンクを増やすのではなく、引用されたいページのコンテンツをクエリに対して充実させることが重要です。ただし、クロールすらされていなければ土台に立てないため、引用されたいページへの内部リンクは最低限必要です。

llms.txtはどこまで効くのか

llms.txtは、AIに対してサイト構造や重要ページを伝えるための仕組みで、AI向けサイトマップのような構想として注目されています。一部のAIシステムやクローラーでは、発見・理解の補助情報として利用される可能性があります。

ただし、2026年現在でもllms.txtの実効性は限定的であり、すべてのAIシステムが対応しているわけではありません。記載したからといって必ず参照されるわけでもない。llms.txtを整備することは有効ですが、それだけでGrounding時の参照が保証されるものではないという点は押さえておく必要があります。

1000ページより、AIに読まれる10ページを作れ

1000ページ作ることより、AIに読まれる10ページを作る方が重要です。

これはページ数を減らせという意味ではありません。1000ページ作っても、Grounding時にAIが参照するのはその中の一部です。技術的な問題で読めないページがあり、意味的に遠いページは取得されない。だからこそ、「どのページがAIに読まれるか」を意識してページを設計することに意味があります。

引用されたいクエリを決める。そのクエリに答えるページを特定する。そのページをFAQ・比較・定義など参照されやすい構造で作る。クロールされるよう内部リンクを整える。これが、Grounding時代のコンテンツ設計の基本だと私は考えています。

まとめ

  • この記事が扱うのは学習済みデータではなく、Grounding・検索連携が有効な状態でのリアルタイム取得の話
  • AIはクエリをベクトル変換し、意味的に近い上位チャンクだけを取得して回答する。1000ページのうち参照されるのはごく一部
  • 404エラーやリダイレクトループなど技術的な問題を抱えるページは取得対象になりにくい
  • 採用・プライバシーポリシー・カテゴリ一覧・ページネーションなどは一般的なクエリに対して参照されにくい
  • AIはページ種別ではなくクエリへの適合度で取得する。結果としてFAQ・比較記事・用語集が取得されやすい
  • 内部リンクが多い=Grounding時に優先されるは誤解。取得優先度にはクエリとの意味的な近さが強く影響する
  • llms.txtはAI向けサイトマップのような構想として注目されているが、実効性はまだ限定的
  • 1000ページより、AIに読まれる10ページを作ることの方が重要

関連用語:RAGの仕組みについてはRAG(Retrieval-Augmented Generation)をご覧ください。

関連用語:コンテンツの分割単位についてはChunk(チャンク)をご覧ください。

関連用語:AIへのページ指示についてはllms.txtをご覧ください。


この記事をまとめながら、ふと気になったことがあります。UTMパラメータ付きのURLが大量に存在するサイトでは、Grounding時の取得結果はどう変わるのか。調べてみましたが、「誰も分からない」が現時点で最も正確な答えでした。ChatGPT・Gemini・Perplexityのいずれも、取得候補生成のアルゴリズムを公開していないためです。ブラックボックスでした。いつか「UTM付きURLはGrounding時にどう扱われるか」を実際に実験して、記事にしたいと思っています。GEOの世界は、まだ「分かっていること」より「分かっていないこと」の方が多いのかもしれません。

← 実験・コラムに戻る
お申込みはこちら →