EN ログイン

チャンクとは|意味・定義・GEO対策における位置づけ

AIの仕組み 2026-06-11
著者:吉田 清登(株式会社FID CMO / Genview PM)

チャンク(Chunk)とは、RAGのRetrievalで文書を分割する意味単位のことです。GEO対策においては「H2・H3見出し1トピック」が基本的な設計原則となります。構造ベースの分割に対応しやすい設計(見出し単位で意味が完結するコンテンツ)が有効と考えられており、BLUF・FAQ形式はチャンクとして適切に扱われやすくなる可能性があります。ただしRetrievalで取得されることと引用されることは別であり、Retrieval後のranking・信頼性評価を経て最終的な引用が決まります。コンテンツ担当者がすぐ実践できる対策は、①BLUF実装、②1セクション1トピック、③FAQ形式の3点です。

このページでわかること

  • チャンクの意味・定義
  • RAGにおけるチャンクの役割
  • GEO対策におけるチャンクの位置づけ
  • チャンクを意識したコンテンツ設計の考え方
  • よくある誤解

チャンクとは

チャンク(Chunk)とは、もともと「塊・かたまり」を意味する英単語です。RAG(Retrieval-Augmented Generation)の文脈では、長い文書をRetrievalで扱いやすいサイズに分割した単位のことを指します。

LLMは一度に処理できるテキスト量に上限があります。また、長い文書をそのまま検索対象にすると「どの部分が質問に関係するか」の精度が下がります。そのためRAGでは、文書をあらかじめチャンクに分割してインデックス化し、Retrievalの際に質問と関連性の高いチャンクだけを取得する設計が一般的です。

チャンクの分割方法

チャンクの分割方法は実装によって異なりますが、主に以下の3種類があります。GEO対策の観点では、構造ベース分割に対応しやすいコンテンツ設計が有効と考えられます。

チャンクの主な分割方法と特徴
分割方法 概要 特徴
固定サイズ分割 文字数・トークン数で機械的に分割する 実装が簡単だが、意味の途中で切れる場合がある
構造ベース分割 見出し・段落・セクションなどの文書構造に沿って分割する 意味が完結しやすく、Retrievalの精度が上がりやすい
意味ベース分割 内容の意味的なまとまりで分割する 精度が高いが処理コストが高い

GEO対策の観点では、構造ベース分割に対応しやすいコンテンツ設計(見出し単位で意味が完結する構造)が有効と考えられます。ただし実際の各AIサービスのチャンキング実装は公開されていない部分が多く、2026年5月時点では推測を含みます。

具体例:NGとOKの違い

この表では、コンテンツの状態がチャンクとしての扱われ方にどう影響するかを比較しています。

コンテンツの状態とチャンクとしての扱われ方の違い
状態 コンテンツの状態 チャンクとしての扱われ方
❌ NG 1つのH2セクションに複数のトピックが混在している。見出しと本文の内容が一致していない。 チャンクとして分割されたとき、「このチャンクが何について書かれているか」が判断しにくくなる可能性がある
✅ OK 各H2・H3見出しが1つのトピックに対応し、見出し直下に結論が置かれている。 構造ベースで分割されたとき、1チャンクが1つの意味として完結しやすく、関連するクエリに対してRetrievalで取得されやすくなる可能性がある

Genviewによる定義

チャンクとはGEO対策の文脈において、「RAGのRetrievalで文書を処理する際の意味単位であり、コンテンツ構造の最適化がなぜ必要かを説明する概念のひとつ」です。

この定義はGenviewの見解であり、業界の総意ではありません。

Genviewがこの位置づけを採用する根拠は3点です。

  1. 2025年のWebFAQ研究(arXiv)では、FAQ形式のQ&AデータがDense Retrieval(意味検索)に適していることが示されています。FAQ形式は「質問」と「回答」が明確にペア化されているため、1つのQ&Aが意味として完結したチャンクになりやすいと解釈できます。
  2. BLUFの原則(見出し直下に結論を置く)は、構造ベースのチャンキングで分割されたときに「このチャンクが何について書かれているか」を冒頭で明示する役割を果たします。チャンク単位での意味の明確さがRetrievalの精度に影響する可能性があります。
  3. セマンティックHTML<article><section><h2>などのタグは、構造ベースのチャンキングにおける分割の手がかりとして機能する可能性があります。ただしこれは2026年5月時点では推測であり、各社が公式に明示しているものではありません。

上位概念・下位概念・関連語

チャンクはRAGのRetrievalフェーズで文書を処理する際の基本単位として位置づけられます。以下では、チャンクと関連する概念を整理します。

上位概念

  • RAG(Retrieval-Augmented Generation):AIが外部情報を検索・取得してから回答を生成する仕組み。チャンクはRAGのRetrievalフェーズで文書を処理する際の基本単位です。
  • Retrieval:RAGの最初のフェーズ。ユーザーの質問をもとに関連するチャンクを検索・取得する処理です。

関連語

  • BLUF(Bottom Line Up Front):見出し直下に結論を置く文章構造の原則。チャンクとして分割されたときに意味が完結しやすいコンテンツを作るための実装原則として関連します。
  • セマンティックHTML:意味を持つHTMLタグを正しく使って構造化されたHTML。<section><h2>などのタグが構造ベースのチャンキングにおける分割の手がかりとして機能する可能性があります。
  • ベクトル検索(Vector Search):テキストの意味的な類似度をもとに関連チャンクを検索する技術。RAGのRetrievalフェーズで広く使われており、チャンクの意味的な明確さが検索精度に影響します。
  • FAQ形式:「Q:〜 / A:〜」の形式で質問と回答をセットで記述する構造。1つのQ&Aが意味として完結したチャンクになりやすく、Retrievalでの取得精度が上がりやすい構造として注目されています。
  • コンテキストウィンドウ(Context Window):LLMが1回の推論で処理できるトークンの最大量。Retrievalで取得されたチャンクはコンテキストウィンドウに渡され、その範囲内でLLMの回答生成に使われます。

よくある誤解

チャンクについては、以下の3つの誤解が多く見られます。

誤解①:「チャンクを意識すればAIに引用される」

チャンクの設計はRetrievalの精度に影響する可能性がありますが、Retrievalで取得されることと最終的にAI回答に引用されることは別の話です。Retrieval後のranking・信頼性評価・answer synthesisなど複数の処理を経て引用が決まります。チャンク設計はその前提となる構造整備のひとつです。

誤解②:「チャンクはWebページ単位で決まる」

チャンクはページ単位ではなく、ページ内のセクション・段落・Q&Aペアなどより細かい単位で分割されます。1つのページが複数のチャンクに分割されてインデックス化されるため、ページ全体の品質だけでなく「セクション単位での意味の完結性」が重要になります。

誤解③:「チャンクはエンジニアが管理するものでコンテンツ担当には関係ない」

チャンキングの実装はエンジニアの領域ですが、「チャンクとして意味が完結しやすいコンテンツを書く」という観点はコンテンツ設計の領域と重なります。見出し単位での意味の完結・BLUF実装・FAQ形式の活用は、コンテンツ担当者がチャンク設計を意識した実践として取り組める対策です。

よくある質問

Q: チャンクを意識したコンテンツ設計で何をすればいいですか?
A: 基本は「H2・H3見出しひとつにトピックひとつ」の原則です。具体的には、①各見出しの直下に結論を置く(BLUF)、②1つのセクションで複数のトピックを混在させない、③FAQ形式でQ&Aを独立したペアとして記述する、の3点が有効と考えられます。
Q: チャンクのサイズはどのくらいが適切ですか?
A: 各AIサービスのチャンキング実装は公開されていないため、適切なサイズを断言することはできません。一般的なRAGの実装では200〜500トークン(日本語で300〜700字程度)がひとつの目安として語られていますが、サービスによって異なります。サイズより「意味が完結しているか」を優先することが現実的なアプローチです。
Q: チャンクとセクションは同じですか?
A: 概念は近いですが同じではありません。セクションはHTMLの文書構造上の区切り(<section>タグや見出しで区切られた範囲)であり、チャンクはRAGシステムがRetrievalのために文書を分割した単位です。構造ベースのチャンキングではセクションがチャンクの区切りとして利用されることが多く、両者は対応関係にある場合が多いと考えられます。

参考文献・調査ソース

← GEO用語集に戻る
お申込みはこちら →