RAGは、社内の文書を一度に丸ごとAIに渡すのではなく、検索できる小さな単位に切り分けてから扱う。この切り分けの単位を「チャンク」と呼ぶ。質問が来ると、関連しそうなチャンクをいくつか探し出し、それを材料にAIが回答を作る。つまり、どう切り分けるかが、そのまま「何を材料に答えるか」を決めることになる。

本記事は、RAGのチャンク分割の設計について、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。チャンク分割は技術的に聞こえるが、発注者として「文書のどの単位で意味がまとまっているか」を整理できれば、開発会社と方針を詰められる。分割の良し悪しが検索精度に直結することを押さえておきたい。


結論:意味のまとまりを壊さず、文書の種類ごとに分け方を変える

チャンク分割に唯一の正解はない。ただし、検索精度を上げるための考え方は共通している。GXOがチャンク設計で重視するのは、次の3点である。

  • 粗すぎ・細かすぎを避け、ひとつのチャンクに「意味のまとまり」が収まるようにする
  • 見出し・段落・表などの文書構造を手がかりに分け、文脈が切れないようにする
  • 文書の種類(マニュアル・FAQ・表など)ごとに、分け方を変える

チャンク分割は一度決めて終わりではなく、検索結果を見ながら調整するものである。最初から完璧を狙うより、評価して直せる前提で設計しておきたい。


なぜチャンク分割が検索精度を左右するのか

RAGは、質問に近いチャンクを探し出して回答の材料にする。このとき、チャンクの中身がそのまま回答の質を決める。分割の仕方が適切でないと、次のような問題が起きる。

  • ひとつのチャンクに複数の話題が混ざり、質問と無関係な情報まで回答に持ち込まれる
  • 説明が途中で切れ、前提や条件が別のチャンクに残ってしまう
  • 表の見出し行と中身が分断され、数値だけ拾って意味が分からなくなる

人が文書を読むときは、前後を行き来して文脈を補える。だがRAGは、探し出したチャンクの範囲でしか文脈を持てない。だからこそ、チャンクの中に「答えるのに必要な情報がまとまっている」状態を作ることが重要になる。この前提を理解しておくと、なぜ分割方針を発注前に詰める必要があるかが見えてくる。チャンク設計を含めた全体像は社内ナレッジをRAGでAI検索する導入ガイドでも扱っている。


粗すぎ・細かすぎの弊害

チャンクの大きさは、検索精度に直接効く。大きすぎても小さすぎても、それぞれ弊害がある。

分け方起きやすいこと影響
粗すぎる(大きい)ひとつのチャンクに複数話題が混在無関係な情報が回答に混ざる/検索で絞り込みにくい
ちょうどよいひとつの話題・手順が収まる質問に合った材料を渡せる
細かすぎる(小さい)説明や手順が途中で切れる前提が抜けた断片的な回答になる

「とにかく細かく切れば精度が上がる」というものではない。細かくしすぎると、ひとつの手順や説明が複数のチャンクに割れ、そのうちの一部しか検索に引っかからないことが起きる。逆に大きくしすぎると、関係ない話題まで一緒に渡してしまう。目安となるのは、文字数で機械的に切るのではなく、「ひとつの意味のまとまり」が収まるかどうかである。


文書構造を保って分ける

分割の手がかりになるのは、文書がもともと持っている構造である。見出し、段落、箇条書き、表といった構造は、書き手が「ここからここまでがひとつのまとまり」と区切った跡でもある。これを無視して一定の文字数で切ると、まとまりの途中で分断されやすい。

見出し・段落を境目にする

見出しは、話題の切り替わりを示している。見出しの単位でチャンクを区切ると、ひとつのチャンクにひとつの話題が収まりやすい。長い節は段落を手がかりにさらに分けるが、その際も文の途中では切らないようにする。

オーバーラップで文脈をつなぐ

チャンクをきれいに分断すると、境目で文脈が途切れることがある。これを補うために、隣り合うチャンクの末尾と先頭を少し重ねて持たせる方法がある。これを「オーバーラップ」と呼ぶ。前のチャンクの終わりが次のチャンクの頭にも入っていれば、境目をまたぐ説明でも文脈を拾いやすくなる。ただし重ねすぎると同じ内容が重複して検索に出てくるため、ほどよい範囲にとどめる。

見出しの情報をチャンクに添える

チャンクだけを切り出すと、それがどの章・どの節の話なのかが分からなくなることがある。そこで、チャンクの本文に「この内容が属する見出し」を一緒に持たせておくと、検索や回答のときに文脈が補える。たとえば手順の一節を切り出すなら、「どの作業の手順か」が分かる見出しを添えておく、といった工夫である。


文書の種類ごとに分け方を変える

社内の文書は種類が多様で、ひとつの分け方をすべてに当てはめるのは難しい。文書の性質に応じて、分け方を変えるのが現実的である。

  • 長文マニュアル・規程:見出しや条項の単位で区切る。手順は途中で切らず、ひとまとまりにする。
  • FAQ・Q&A:ひとつの問いと答えのペアを、ひとつのチャンクにする。問いと答えが別々になると、回答の根拠が探しにくくなる。
  • 表・一覧(Excelなど):行や項目の意味が分かるよう、見出し行の情報を各チャンクに添える。数値だけ切り出すと意味を失う。
  • 議事録・報告書:日付・案件・テーマなど、後で探す手がかりになる情報をチャンクに含める。

特に表やExcelは扱いに注意がいる。表は「見出し行(項目名)」と「中身(数値や値)」の組み合わせで意味を持つため、中身だけを切り出すと何の数字か分からなくなる。どの列の何の値かが分かる形で持たせる工夫が必要である。こうした文書ごとの違いは、見積りの前提にもなる。文書の種類と量が費用にどう響くかはRAG導入の費用内訳でも整理している。


チャンク設計でよくある失敗

チャンク設計では、次のような失敗が起きやすい。いずれも、発注前に方針を確認しておけば避けられる。

  • 文字数だけで一律に切る:文書の構造を無視して機械的に切り、まとまりの途中で分断される。
  • 表やFAQを通常の文書と同じに扱う:表の中身だけが切り出され、何の値か分からなくなる。
  • 検索結果を見ずに分割方針を固める:実際の質問で試さないまま設計を決め、精度が上がらない原因が分割にあると気づけない。
  • 元文書の品質を確認しない:体裁の崩れた文書や重複の多い文書をそのまま分割し、分割の問題か元データの問題か切り分けられなくなる。

チャンク設計は、検索結果を見ながら直すことが前提である。最初の分割方針が必ずしも最適とは限らない。評価して調整できる進め方になっているかを、発注前に確認しておきたい。


開発会社に確認する質問

質問確認したいこと
文書の構造(見出しや表)を保って分割できますか構造を踏まえた分割の可否
文書の種類ごとに分け方を変えられますかマニュアル・FAQ・表への対応
表やExcelはどのように分割しますか表データの扱い
チャンクの大きさやオーバーラップは調整できますか後からの調整余地
検索精度をどう評価して、分割を直しますか評価と改善の進め方

「自動でいい感じに分割します」という説明だけで済ませず、文書の種類ごとにどう分けるか、精度をどう見て直すかまで踏み込んで確認したい。分割方針が曖昧なまま進むと、精度が出ない原因の切り分けが難しくなる。


相談前に整理しておくとよい情報

  • RAGに載せたい文書の種類(マニュアル、FAQ、規程、表、議事録など)
  • それぞれの文書のおおよその量と、更新の頻度
  • 文書の中で、特によく検索されそうなテーマや質問
  • 表やExcelなど、構造を持つデータが含まれるか
  • 元の文書に、体裁の崩れや重複がないか

これらが整理されていなくても相談は可能である。どんな文書を載せたいか、どんな質問に答えてほしいかが見えていれば、それに合った分割方針を一緒に設計できる。費用感とあわせて検討したい場合はRAG開発の費用 完全ガイドも参考になる。


よくある質問

Q1. チャンクは小さく切るほど検索精度は上がりますか

そうとは限らない。細かく切りすぎると、ひとつの手順や説明が複数のチャンクに割れ、一部しか検索に引っかからず、前提の抜けた断片的な回答になりやすい。文字数で機械的に切るより、ひとつの意味のまとまりが収まる単位で分けるほうが、精度につながる。

Q2. ExcelやPDFの表は、そのまま載せて大丈夫ですか

そのまま載せると、表の中身だけが切り出され、何の値か分からなくなることがある。表は見出し行(項目名)と中身の組み合わせで意味を持つため、どの項目の値かが分かる形で持たせる工夫が必要である。表が多い場合は、その扱いを発注前に確認しておきたい。

Q3. チャンクの分け方は、あとから変更できますか

変更できる場合が多い。むしろ、最初の分割方針が最適とは限らないため、実際の質問で検索結果を見ながら調整するのが現実的である。分割を直せる進め方になっているか、精度をどう評価するかを、発注前に確認しておきたい。


RAGのチャンク設計と検索精度を一緒に詰めませんか

GXOでは、文書の分割方針、構造の保ち方、検索精度の評価を含め、RAGの設計を発注前に整理するご支援をしています。

RAGの設計を相談する

※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。