EN ログイン

コサイン類似度(Cosine Similarity)とは|意味・定義とGEO対策における位置づけ

AIの仕組み 2026-06-09

著者:喜多 陽平 / Kita Yohei 公開日:2026年06月09日

コサイン類似度(Cosine Similarity)とは、2つのベクトル間の角度に基づいて「どれだけ似ているか」を数値で表す指標です。自然言語処理(NLP)やAIシステムでは、テキストの意味的な近さを測る手法として広く使われています。GEO対策においては、RAGシステムがどのコンテンツをAIへの回答材料として取得するかを決める仕組みの核心にあります。

このページでわかること

  • コサイン類似度の意味・定義
  • ベクトルと埋め込み(Embedding)との関係
  • RAGシステムにおける役割
  • なぜGEO対策でコサイン類似度が語られるのか
  • コンテンツ設計への影響
  • よくある誤解

コサイン類似度とは

コサイン類似度を理解するには、まず「ベクトル」と「埋め込み(Embedding)」の概念を知る必要があります。

AIはテキストをそのまま処理するのではなく、まず数値の配列(ベクトル)に変換します。この変換プロセスを埋め込みといいます。「GEOとは何か」というテキストも、「AIに引用されるための施策」というテキストも、それぞれ数百〜数千次元のベクトルとして表現されます。

コサイン類似度とは、この2つのベクトルが「同じ方向を向いているか」を-1から1の数値で表したものです。1に近いほど意味的に似ており、0に近いほど無関係で、-1に近いほど反対の意味を持ちます。テキスト同士の比較では通常0〜1の範囲で使われます。

【コサイン類似度のイメージ】 クエリ:「AI検索で自社を引用させる方法」 ↓ Embedding ベクトルA:[0.82, 0.31, 0.54, ...] ドキュメントA:「GEOとはAI検索に自社情報を引用させる施策」 ↓ Embedding ベクトルB:[0.79, 0.33, 0.51, ...] → コサイン類似度:0.97(非常に近い) ドキュメントB:「天気予報の見方について」 ↓ Embedding ベクトルC:[0.12, 0.88, 0.03, ...] → コサイン類似度:0.11(無関係)

RAGシステムはこのコサイン類似度を使って「クエリと最も意味的に近いドキュメント」を取得し、AIへのコンテキストとして渡します。

なぜGEOでコサイン類似度が語られるのか

GEO対策においてコサイン類似度が重要な理由は、「AIがなぜ特定のコンテンツを引用するのか」の数学的な根拠を提供するからです。

検索・Retrievalを伴う推論フローでAIが回答を生成する際、まずコンテンツを取得します。この取得の基準がコサイン類似度です。ユーザーのクエリとコンテンツの意味的な近さが高いほど取得されやすく、AIが回答に使う候補になります。

つまり「AIに引用されるコンテンツ」とは、多くの場合「コサイン類似度が高いコンテンツ」です。キーワードを詰め込んだコンテンツではなく、クエリの意図と意味的に一致したコンテンツが選ばれます。

Retrievalとは

チャンクとは

推論(Inference)とは

コサイン類似度とコンテンツ設計の関係

コサイン類似度の仕組みを理解することで、GEO対策のコンテンツ設計に2つの示唆が得られます。

① 意味的一致を意識した設計

コサイン類似度はキーワードの一致ではなく意味の一致を測ります。「GEO対策 方法」というクエリに対して「GEO」「対策」という単語が多く含まれるコンテンツより、「AI検索で自社ブランドを引用させるための施策」という概念を詳しく説明したコンテンツの方が高いコサイン類似度を持つことがあります。読者の問いに対して誠実に答えるコンテンツが、意味的にも近くなります。

② フォーカスした情報設計

ひとつのチャンクやページが複数の無関係なテーマを混在させると、埋め込みベクトルの「方向」が分散し、どのクエリに対しても類似度が中程度になりやすくなります。特定のテーマに集中した情報設計が、コサイン類似度の観点からも有効です。

AI可読性とは

トークンとは

GEO対策における位置づけ

GEO対策においてコサイン類似度は「AIがどのコンテンツを参照するかを決める選別基準」として位置づけられます。

コサイン類似度は直接操作できるものではありません。しかしコンテンツの意味的な焦点・構造・情報密度を最適化することが、間接的にコサイン類似度を高める設計につながります。AIにとって「意味的に近い」コンテンツを作ることが、Retrievalを伴う推論での取得・採用の可能性を高めます。

コサイン類似度は、特に検索・Retrievalを伴う推論フローにおいて重要です。

Groundingとは

情報密度(Information Density)とは

Genviewによる定義

GEO対策の文脈において、コサイン類似度とは「クエリとコンテンツの埋め込みベクトル間の角度に基づく意味的類似性の指標であり、RAGシステムがどのコンテンツをAI回答の材料として取得するかを決める主要な基準」です。

Genviewでは、コサイン類似度を「AIが引用するコンテンツを選別する際の見えない審査基準」として位置づけています。この基準を意識したコンテンツ設計が、Retrievalを伴う推論フローにおける取得率を高める方向に働きます。

この定義はGenviewの見解であり、業界の総意ではありません。

関連語

  • Retrieval:RAGシステムでクエリに関連するコンテンツを取得するプロセス。コサイン類似度はRetrievalの選別基準として機能する。
  • チャンク:RAGシステムでコンテンツを取得する単位。チャンクごとにコサイン類似度が計算される。
  • 推論(Inference):LLMが回答を生成するプロセス。コサイン類似度が高いチャンクがコンテキストとして渡され推論に使われる。
  • 情報密度(Information Density):テキストが持つ情報量の濃さ。情報密度が高いコンテンツはコサイン類似度の観点からも取得されやすい傾向がある。
  • AI可読性:AIがコンテンツを読み取り・参照しやすい状態のこと。AI可読性の高い構造は、意味的な類似性が正しく評価されやすいコンテンツ設計につながる。
  • Grounding:AIが特定の情報源に基づいて推論する仕組み。コサイン類似度で取得されたコンテンツがGroundingの対象になる。

よくある誤解

誤解①:「キーワードが多いほどコサイン類似度が高くなる」

コサイン類似度は表面的なキーワードの出現頻度ではなく、意味的な類似性を測ります。同じ単語が多く含まれていても意味的に遠いコンテンツは低い類似度になり、別の言葉を使っていても同じ概念を扱うコンテンツは高い類似度になることがあります。

誤解②:「コサイン類似度を直接最適化できる」

コサイン類似度はAIシステムが内部で計算する指標であり、直接操作することはできません。コンテンツの意味的な焦点・構造・情報密度を最適化することが、間接的な影響手段です。

誤解③:「コサイン類似度だけで引用が決まる」

RAGシステムはコサイン類似度による初期取得の後、リランキングなどの追加評価を行うことがあります。コサイン類似度は取得の第一段階であり、最終的に引用されるかどうかはその後の評価プロセスも影響します。

よくある質問

Q: コサイン類似度はすべてのAIで使われていますか?
A: 主に検索・Retrievalを伴う推論フローを持つAIで使われています。検索連携を持たない純粋なパラメトリック推論の場面では、コサイン類似度よりモデルの学習データへの情報蓄積の方が影響します。ただし多くの主要AIは状況に応じて両方の推論モードを持っています。
Q: コサイン類似度を意識したコンテンツ設計とは具体的に何ですか?
A: 特定のテーマに集中した内容であること・クエリの意図に誠実に答える構成であること・無関係なテーマを混在させないことが基本です。読者の問いに対して意味的に答えるコンテンツが、コサイン類似度の観点からも評価されやすくなります。

参考文献

← GEO用語集に戻る
お申込みはこちら →