EN ログイン

【実験】AIは、どのブランドを"おすすめ"するのか?|狙いと検証方法について

実験 2026-06-12
著者:吉田 清登(株式会社FID CMO / Genview PM)

この記事は連載「AI推薦の実験室」の第0回です。以降の各回(SaaS編・転職編・金融編)は、すべてこの方法ページを土台にしています。数字の読み方に迷ったら、ここに戻ってきてください。

なぜこの実験を始めたのか

「CRM おすすめ」「転職エージェント 比較」——こうした調べものを、GoogleではなくChatGPTやPerplexityに聞く人が増えました。そしてAIは、検索結果のリンク一覧ではなく、具体的なサービス名を名指しで挙げてきます。

ここでマーケターには切実な問いが生まれます。「そのとき、自社のブランドはAIに挙げてもらえているのか?」

ところが、これを確かめられる公開データはあまりありません。あるのは各社の非公開ダッシュボードか、自社ツールを売るためのポジショントークが中心です。独立した立場で、業界を横断して、しかも測り方を全部公開したデータは、ほとんど見当たらない。

それなら自分で測ってみよう——というのがこの連載です。

知りたいのは「質問の具体度で推薦は変わるのか」

単に「どのAIが何を挙げるか」を並べても面白くありません。この実験が注目するのは、質問が具体的になるにつれて、推薦されるブランドがどう動くかです。同じトピックを3段階の聞き方で投げます。

  • KW(キーワード):「CRM ツール 比較」
  • NL(自然な質問):「営業チームにおすすめのCRMは?」
  • 文脈付きNL(条件つき):「小規模な営業チームでも使いやすくてコスパいいCRMは?」

立てている問いはこうです。

質問が具体的になるほど、大手は安泰なのか。それとも挑戦者にもチャンスが生まれるのか。

挑戦者が逆転するなら"勝ち筋の地図"、大手が文脈でも揺るがないなら"バイアスは崩れない"という警告。結論は先に決めません。データに語らせます。

測り方

各AIのAPI(開発者向けの接続口)を直接呼び、同じ質問を最低3回ずつ投げています。使ったAIとモデルは次のとおりです(厳密なバージョンは、各回答時点でAPIが返したスナップショット版を記録しています)。

使用したAIモデルとウェブ検索の有無
AI モデル ウェブ検索
ChatGPT(OpenAI) gpt-4o オフ
Gemini(Google) gemini-2.5-flash オフ
Claude(Anthropic) claude-sonnet-4 オフ
Grok(xAI) grok-3 オフ
Perplexity sonar オン(モデルの性質上)

※Copilotは公開APIがないため、今回は対象外です。

ここは結果を読むうえでとても重要です。 5つのうち4つ(ChatGPT・Gemini・Claude・Grok)はウェブ検索を使わず、学習済みの知識から答えています。一方Perplexity(sonar)だけは、その場でウェブを検索して答える仕組みです。つまり「AIによって挙げるブランドが違う」のは、好みの差だけでなくこの構造の違いも含みます。とくに、新しいサービスや国内ローカルのツールは、学習データに頼る4つでは出にくく、ライブ検索するPerplexityでは出やすい——という傾向が予想されます。本連載はこの違いを前提に読み解きます。

条件はそろえています。 各リクエストは1問だけの単発(会話履歴なし・システムプロンプトなし・ユーザー識別やメモリなし)で、毎回まっさらな状態。temperatureなどは既定値です。だから個人の検索履歴や過去のやり取りに左右されない、"素の質問1本"の結果になります。

なぜ最低3回か。 AIの回答は確率的で、同じ質問でも毎回ブレます。だから1回では測れない。繰り返して「出現率(何回中、何回登場したか)」で見ます。

数えるときのルール(地味だけど、ここが命)

AIの回答はそのままでは集計できません。次のルールで整えています。

  • ブランド単位に揃える:「Salesforce」と「Salesforce Sales Cloud」は同じSalesforceとして数えます。表記ゆれや製品エディションの違いは、親ブランドに統合します。
  • カテゴリ外は除外:CRMの質問でOfficeやTeamsが出てきても、それはCRMの推薦ではないので集計から外します(ただし元データは残し、後から検証できるようにします)。
  • 同じ回答に同じブランドが複数回出たら1回として、いちばん上の順位を採用します。

使う指標 ——すべて「具体度で推薦は変わるか」を測る道具

ざっくり言うと、①でどれだけ顔を出すか、②③でどれだけ上位に出るか、④でAIごとの違い、⑤でAIの的確さ、⑥で大手と挑戦者の勢力図。どれも「具体的に聞くと推薦は変わるのか」を、別の角度から確かめるためのものです。

① 出現率 ——いちばん基本の"顔出し率"

その聞き方をしたとき、何%の回答にそのブランドの名前が出たか(登場した回答数 ÷ 全回答数。例:5AI×3回=15回のうち12回なら80%)。同じブランドの出現率を KW→NL→文脈 と並べると、「大手はキーワードで100%なのに、具体的な質問で急落」といった"崖"が見える——この実験の主役の数字です。

② 可視性スコア ——"上位で出たか"まで含めた総合点

出現率だけだと「1位で出た」も「最下位で出た」も同じ1回扱いになります。でもAIの回答は上のほうしか読まれません。そこで各回の「1 ÷ 順位」(1位=1.0、2位=0.5、3位≈0.33…出なければ0)を全回で平均し、×100します(情報検索で使われる平均逆順位=MRRと同じ考え方)。出現率が同じでも、具体化で順位がジワジワ下がる"地盤沈下"を捕まえられます。

③ 平均順位 ——スコアの裏づけ

登場したとき、平均で何番目に挙げられたか(小さいほど上位)。「出るけど下のほう」か「出れば必ず上位」かが分かり、スコアと並べて出すことで透明性も担保します。

④ AI間の差 ——"どのAIで出やすいか"

同じ質問でも、ChatGPTとPerplexityでは挙げるブランドが違います。AIごとのクセを並べると、具体化したときに5つのAIの足並みがそろうのか割れるのかが見える。最適化の打ち手はAIごとに違う、ということでもあります。(ブランドは「国産/海外」でも分類し、どのAIが国産をどれだけ拾うかも見ます。)

⑤ カテゴリ逸脱率 ——AIの"的確さ"

そのカテゴリと無関係なものをどれだけ混ぜたか(CRMの質問でWordやTeamsを挙げる、など。カテゴリ外の数 ÷ 挙げた項目総数)。質問が具体的になるほど的確になるのか、というAIの挙動を見る補助役です。

⑥ 大手 vs 挑戦者シェア ——業界横断の"最終回答"

各段階で、挙がったブランドのうち大手が何%・挑戦者が何%か。ブランド名は業界ごとに違って比べられませんが、「大手か挑戦者か」なら全業界を1枚で比較できます。大手と挑戦者の線引きは、主観を避けるため、その業界で通用する公開ランキングの上位を典拠にします(SaaSならITreview、転職ならオリコン顧客満足度、金融なら口座数・シェアなど。業界ごとに出典と取得日を明記します)。KW→文脈で大手シェアが下がり挑戦者が上がれば「具体化は挑戦者のチャンス」、変わらなければ「バイアスは具体化でも崩れない」。連載の背骨になる数字です。

正直に言っておくこと(この実験の限界)

  • AIは更新で挙動が変わります。 これは「ある時点のスナップショット」です。だから日付を記録し、定点観測として続けます。
  • 結論を先に決めません。 データが仮説を否定したら、それも正直に書きます。
  • 利益相反の開示。 筆者は、AIにブランドがどう表示されるかを最適化するGEO対策ツールを提供しています。本調査は、測定対象の各ブランドからの依頼・報酬を一切受けず、独立して実施しました。手法と元データはすべて公開し、第三者が検証できる形にしています。

これからの連載

同じ問いを、業界を変えながら試していきます。SaaS → 転職 → 金融 → …。各業界で「質問の具体度で推薦はどう動くか」を見たあと、最後に全業界を横断したまとめを出します。

次回は、最初の実験台「SaaS」の結果から。AIは、具体的な質問になった瞬間に、誰を切り、誰を選ぶのか——。

(各回の数字の読み方・集計ルールは、すべてこの方法ページに準じます。)

← 実験・コラムに戻る
お申込みはこちら →