RAG(検索拡張生成)は、社内の文書を検索し、その内容をもとにAIが回答を組み立てる仕組みである。便利な反面、回答の質は載せた文書の質をそのまま映す。整理されていない文書、古い文書、本来は限られた人しか見られない文書をまとめて投入すれば、回答にもそのまま表れる。RAGの成否は、技術選定の前に「何を載せるか」で大きく決まる。
本記事は、RAGを導入する前に整理しておきたい社内文書の棚卸しと対象選定の観点を、発注者の視点でまとめる。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。専門的な検索技術の知識は前提にしない。発注者として「どの文書を、どんな状態で、誰に見せてよい形で載せるか」を整理できれば十分である。
結論:載せる文書を選び、品質と状態を確認してから始める
RAG導入で最初にやるべきは、検索方式の選定でも基盤の構築でもなく、社内文書の棚卸しと対象選定である。手元の文書をそのまま全部投入するのではなく、載せる価値のある文書を選び、その状態を確かめてから始める。GXOが棚卸しの段階で重視するのは、次の3点である。
- どの文書を載せ、どの文書を載せないかの基準を先に決める
- 文書の形式と状態(最新か、重複していないか、読み取れる形か)を確認する
- 機密文書や個人情報を含む文書を、対象に含めるかどうかを切り分ける
文書はあとから追加できる。質の確かな文書から狭く始め、必要に応じて広げるほうが、回答品質を保ちやすい。文書を載せる前のデータ品質の考え方はRAG導入前のデータ品質管理でも扱っている。
なぜ文書の棚卸しが先に必要か
RAGは、質問に関係しそうな文書を社内のデータから探し出し、その内容を根拠にAIが回答を作る。つまり、検索の対象になった文書が、そのまま回答の材料になる。文書の状態を確認しないまま全文書を投入すると、次のような問題が起きやすい。
- すでに廃止された規程や古いマニュアルが、現行ルールとして回答される
- 同じテーマの文書が複数あり、どれが正なのか分からないまま混在する
- 一部の担当者しか見られない文書が、誰でも引ける回答に混ざる
- 画像だけのPDFや崩れた表など、そもそも読み取れない文書が含まれる
RAGは「探してきた文書を信じる」仕組みである。だからこそ、何を探させるかを先に絞り込む必要がある。文書の棚卸しは、回答品質を決める土台であり、後工程の検索方式や運用設計の前提になる。RAGの全体像は社内ナレッジ検索のためのRAG活用ガイドでも整理している。
まず文書の形式と状態を確認する
社内文書は、形式によってRAGへの載せやすさが大きく異なる。同じ内容でも、テキストとして読み取れる形か、画像のままかで扱いが変わる。発注前に、手元の文書がどの形式で、どんな状態にあるかを把握しておきたい。
| 文書の形式 | よくある状態 | RAGに載せる際の注意 |
|---|---|---|
| Word・テキスト | 本文がテキストで保持されている | 比較的そのまま扱いやすい |
| テキスト埋め込みと画像スキャンが混在 | 画像スキャンは読み取り処理が別途必要 | |
| Excel | 表・複数シート・数式が混在 | 表構造の意味が失われやすく、整理が要る |
| 議事録・メモ | 略語や前提が省かれている | 単独で意味が通るか確認が要る |
| 社内Wiki・FAQ | 更新が止まっている項目が残る | 最新かどうかの確認が要る |
ここで重要なのは、すべてを完璧に整える必要はないという点である。まずは「どの形式の文書が、どれくらいあり、どんな状態か」をざっと把握できればよい。読み取れない文書や整理が要る文書が多ければ、その対応も発注時の論点になる。
テキストとして読み取れるか
紙をスキャンしただけのPDFや、画像として貼られた表は、そのままでは中身を読み取れない。文字認識などの読み取り処理を挟む必要があり、その分の手間と精度の確認が発生する。手元の文書に画像系がどれくらい含まれるかは、早めに見ておきたい。
一つの文書として意味が通るか
議事録や断片的なメモは、その場の前提を知っている人には通じても、単独では意味が取りにくいことがある。RAGは文書の一部を切り出して回答に使うため、切り出された部分だけで意味が通るかどうかが、回答の分かりやすさを左右する。
載せる文書・載せない文書を選ぶ
文書の状態を把握したら、次はどれを対象に含めるかを決める。すべてを載せるのではなく、RAGで答えさせたい問いに対して役立つ文書を選ぶ。判断の軸として、次のような基準を置くと整理しやすい。
- 現行で有効か:今も使われているルール・手順・情報か。廃止済みのものは外す。
- 問い合わせの対象になるか:社員や顧客から実際に聞かれる内容を含むか。
- 正本がはっきりしているか:同じテーマの文書が複数あるとき、どれが正かを決められるか。
- 見せてよい範囲か:誰でも引ける回答に載せてよい内容か。
逆に、対象から外すことを検討したい文書もある。下書きや個人のメモ、廃止された旧版、社外秘の度合いが高い文書などである。これらを安易に含めると、古い情報や見せてはいけない内容が回答に混ざる原因になる。
外すと決めた文書も、記録として残しておくとよい。「なぜ載せなかったか」を整理しておけば、後から方針を見直すときに判断の経緯が分かる。
古い文書・重複・機密文書の扱い
棚卸しで特に判断が要るのが、古い文書、重複した文書、機密性の高い文書である。この3つは、扱いを決めないまま投入すると回答品質や情報管理の面でリスクになりやすい。
| 区分 | 起きやすい問題 | 発注前に決めておきたいこと |
|---|---|---|
| 古い文書 | 廃止済みの情報が現行として回答される | 最新版の見分け方と、旧版を外す方針 |
| 重複文書 | どれが正か分からず回答が揺れる | 正本を一つに決める運用 |
| 機密文書 | 限定情報が誰でも引ける形で出る | 対象に含めるか、含めるなら誰向けか |
古い文書については、版が更新されたときに旧版をどう扱うかを決めておきたい。新版を載せても旧版が残っていれば、両方が検索対象になり、回答が揺れる。重複文書も同様で、同じテーマの文書が複数あるなら、どれを正本とするかを決めることが、回答の一貫性につながる。
機密文書や個人情報を含む文書は、そもそもRAGの対象に含めるかどうかから検討する。含める場合も、誰が引ける形で載せるかを設計する必要がある。全社員が使うRAGに、限られた人しか見てはいけない文書をそのまま載せれば、権限の境界が崩れる。機密データの扱いは検索方式や権限設計とも関わるため、対象選定の段階で切り分けておきたい。
文書品質がそのまま回答品質になる
RAGを導入すると「AIが社内のことを賢く答えてくれる」と期待されがちだが、実際にはAIが文書を賢くしてくれるわけではない。AIは、与えられた文書の内容を整えて返すだけである。元の文書が古ければ古い答えが、曖昧であれば曖昧な答えが返る。
だからこそ、棚卸しと対象選定は一度きりの作業ではなく、運用の中で続ける前提で考えたい。文書は日々更新され、新しい規程が増え、古い手順が廃止される。載せた文書が更新されたら入れ替え、廃止されたら外す、という保守の流れがないと、時間とともに回答が現実とずれていく。FAQやナレッジを最新に保つ運用の考え方はFAQ・ナレッジ保守のためのRAG活用ガイドでも整理している。
発注前の段階では、完璧な文書を揃える必要はない。むしろ「どの文書が、どんな状態で、誰が更新を担うのか」を把握しておくことが、その後の設計と運用をすすめやすくする。文書の質と更新の仕組みが、RAGの回答品質を長く支える土台になる。
導入前チェックリスト
- RAGで答えさせたい問いの範囲を、まず言葉にしたか
- 手元の文書の形式(PDF・Excel・Wikiなど)と量を把握したか
- 画像スキャンなど、読み取り処理が要る文書がどれくらいあるか確認したか
- 載せる文書・載せない文書を分ける基準を決めたか
- 同じテーマの文書について、正本を一つに決められるか確認したか
- 古い版・廃止済みの文書を外す方針を決めたか
- 機密文書や個人情報を含む文書を、対象に含めるか切り分けたか
- 載せた文書を更新・入れ替えする担当と流れを想定したか
開発会社に確認する質問
| 質問 | 確認したいこと |
|---|---|
| 画像スキャンのPDFも読み取って載せられますか | 読み取り処理の対応範囲 |
| Excelの表はどう扱われますか | 表構造の取り込み方 |
| 古い版を外して最新版だけ載せられますか | 更新・入れ替えの運用 |
| 文書ごとに、誰が引けるかを分けられますか | 機密文書・権限の切り分け |
| 載せた文書を後から追加・削除できますか | 運用後のメンテナンス |
| どの文書を根拠に答えたか分かりますか | 回答の出典の確認 |
「文書を全部入れれば賢くなります」という説明には注意したい。何を載せ何を載せないかを一緒に整理できるかが、回答品質と情報管理の分かれ目になる。
相談前に整理しておくとよい情報
- RAGで答えさせたい問いの種類(社内手続き、製品仕様、FAQなど)
- 対象になりそうな文書が、どこに、どの形式で保管されているか
- その文書が、今も使われている最新のものか
- 機密情報や個人情報が含まれるか、含まれるなら誰まで見てよいか
- 文書の更新を担う社内の担当者がいるか
これらが完全に整理されていなくても相談は可能である。答えさせたい問いと、その材料になる文書の所在が見えていれば、載せる範囲と保守の流れを一緒に設計できる。
関連記事
よくある質問
Q1. 社内文書をすべて載せれば、それだけ賢く答えてくれますか
そうとは限らない。文書が増えれば、古い情報や重複した文書が混ざり、かえって回答が揺れやすくなる。質の確かな文書を選んで載せ、必要に応じて広げるほうが、結果的に安定した回答につながる。
Q2. 文書の整理が終わっていないと、RAGの相談はできませんか
整理が終わっていなくても相談は可能である。むしろ、どの文書をどう整理するかを含めて一緒に考えるのが現実的である。答えさせたい問いと、対象になりそうな文書の所在が見えていれば、棚卸しの進め方から設計できる。
Q3. 古い文書を外しても、また増えてしまいませんか
文書は日々更新されるため、外す作業も一度きりでは終わらない。だからこそ、更新されたら入れ替える、廃止されたら外すという保守の流れと担当を決めておきたい。仕組みとして回せるかが、回答を現実に合わせ続ける鍵になる。
RAG導入の前に、載せる社内文書を一緒に棚卸ししませんか
GXOでは、RAGに載せる社内文書の棚卸し、対象選定、品質・権限の整理から、検索方式や運用フローの設計まで、発注前の論点整理をご支援します。
※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。
