RAGは、質問に関係のありそうな社内文書を探し出し、それをAIに渡して回答を作らせる仕組みである。回答の質は、AIの賢さだけでなく、「関係のある文書を正しく探せたか」で大きく左右される。探す方法を間違えれば、いくら高性能なAIを使っても、的外れな資料を渡された回答しか返ってこない。
本記事は、RAGの検索方式の選び方を、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。検索方式というと技術的に聞こえるが、発注者として理解しておきたいのは「自社の文書と質問には、どの探し方が向いているか」という論点である。RAG全体の仕組みは社内ナレッジを活かすRAGとAI検索の実務ガイドでも扱っている。
結論:意味と語句は得意分野が違う、迷ったら両方使う
RAGの検索方式は、大きく「意味で探す」ベクトル検索と「語句で探す」キーワード検索に分かれる。どちらが優れているという話ではなく、得意分野が異なる。GXOが検索方式の選定で重視するのは、次の3点である。
- ベクトル検索は言い回しの違いに強く、キーワード検索は型番・固有名詞・略語に強い
- 自社の文書と質問の特性を見て、片方で足りるか、両方を組み合わせるべきかを判断する
- 迷う場合は両方を使うハイブリッド検索を基本とし、再ランキングで仕上げる
検索方式は後から見直すこともできるが、最初に文書と質問の特性を把握しておくと、無駄な作り直しを避けられる。まずは「自社の質問は言い換えが多いのか、決まった語句で来るのか」を整理することから始めたい。
ベクトル検索とキーワード検索の違い
RAGの検索方式を理解する出発点は、二つの探し方の違いである。
ベクトル検索:意味の近さで探す
ベクトル検索は、文章の「意味」を数値の並び(ベクトル)に変換し、質問と意味が近い文書を探す方法である。言葉そのものが一致していなくても、意味が近ければ拾える。
たとえば「有給はどれくらい取れるか」という質問に対して、文書側が「年次休暇の付与日数」と書かれていても、意味が近いと判断して見つけられる。利用者が現場の言葉で質問し、文書が正式な用語で書かれている、というずれを吸収できるのが強みである。
一方で、意味の近さで探すため、語句の細かい違いには鈍い。よく似た意味の別物を取り違えたり、「完全一致してほしい固有名詞」をぼかして拾ったりすることがある。
キーワード検索:語句の一致で探す
キーワード検索は、質問に含まれる語句が文書に出てくるかで探す、従来からある全文検索である。語句がそのまま一致するかを見るため、結果が直感的で、なぜその文書が出たかが分かりやすい。
この方式が特に効くのは、型番・製品名・固有名詞・略語・コードなどである。たとえば「型番ABC-1200の保証期間」を調べたいとき、「ABC-1200」という文字列はそれ自体に意味の広がりが乏しく、ベクトル検索だと似た型番と混ざりやすい。キーワード検索なら、その文字列を含む文書を確実に絞り込める。社内の略語や、特定の制度名・帳票名なども同様で、「その語句が入っているかどうか」が決め手になる場面では、語句一致のほうが頼りになる。
弱点は、言い換えに弱いことである。質問と文書で使う言葉が違うと、意味が同じでも見つけられない。表記ゆれ(送り仮名や全角半角の違いなど)にも影響を受けやすい。
どの方式を選ぶか:文書と質問の特性で考える
どちらの方式が向くかは、自社の文書と、利用者がどんな質問をするかで決まる。発注者として把握しておきたい観点を、比較表にまとめる。
| 観点 | ベクトル(意味)検索 | キーワード(語句)検索 | ハイブリッド |
|---|---|---|---|
| 得意な質問 | 言い換え・あいまいな表現の質問 | 型番・固有名詞・略語を含む質問 | 両方が混在する質問 |
| 文書との相性 | 文章中心の文書、表記が揺れる文書 | 用語が固定された規程・仕様・台帳 | 種類が混ざった文書群 |
| 強み | 言い回しの違いを吸収する | 完全一致を確実に拾う | 双方の弱点を補い合う |
| 注意点 | 固有名詞をぼかすことがある | 言い換えを取りこぼす | 設計と調整の手間が増える |
| 向くケース | 相談・問い合わせ対応など | 技術資料・在庫・カタログ検索など | 多くの実務RAG |
判断の目安は次のとおりである。利用者が自由な言葉で質問し、文書が文章中心であれば、ベクトル検索の比重を高めると拾いやすい。逆に、質問に型番や制度名が頻繁に出てきて、文書が仕様書や台帳のように用語が固定されているなら、キーワード検索の比重を高めたい。どちらも混ざるのが実際の業務であり、その場合は両方を組み合わせるハイブリッド検索が現実的な選択になる。
なお、ベクトル検索を使うにはベクトルを保存・検索する基盤が必要になる。その選び方はベクトルDBの選定(Pinecone・Weaviate・Qdrant・pgvector)で整理している。
ハイブリッド検索と再ランキングで精度を上げる
片方の方式だけで十分なケースは、実際には多くない。多くの業務RAGでは、両方を組み合わせて使う。
ハイブリッド検索:両方の結果を合わせる
ハイブリッド検索は、ベクトル検索とキーワード検索の両方で文書を探し、その結果を統合する方法である。意味で拾える文書も、語句で確実に拾いたい文書も、どちらも候補に入れられる。
たとえば「ABC-1200の使い方で困っている」という質問なら、「ABC-1200」という語句はキーワード検索が確実に拾い、「使い方で困っている」という意味の部分はベクトル検索が関連文書を広げる。片方では取りこぼす候補を、もう片方が補う形になる。
ハイブリッド検索の論点は、二つの結果をどう統合するか、どちらをどれだけ重視するかである。質問の内容によって最適な比重は変わるため、自社の質問傾向に合わせた調整が必要になる。この調整を「やって終わり」にせず、運用しながら見直せる体制にしておくことが、精度を保つうえで重要である。
再ランキング:候補を絞り込んで順位を付け直す
ハイブリッド検索で集めた候補は、関連度の高い順に並んでいるとは限らない。そこで使うのが再ランキング(リランク)である。
再ランキングは、検索で集めた候補を改めて評価し、質問との関連が本当に強いものを上位に並べ直す処理である。最初の検索は「広く速く拾う」ことを優先し、再ランキングで「本当に関連の強いものを選び抜く」という二段構えにすると、AIに渡す文書の質を高められる。
AIに渡せる文書の量には限りがあるため、候補をたくさん集めても、最終的に渡すのは上位の数件である。その「上位を何にするか」を改善するのが再ランキングの役割である。集める段階の精度に加えて、選び抜く段階を持つことで、的外れな文書がAIに渡るのを抑えられる。
ただし、再ランキングは処理が一段増えるため、回答までの時間や費用に影響する。常に必要なわけではなく、検索だけで精度が足りなければ加える、という順序で考えるのが現実的である。
検索方式の選定でよくある失敗
検索方式の選定では、次のような失敗が起きやすい。いずれも、発注前に方針を整理しておけば避けられる。
- ベクトル検索だけで済むと考える:流行りに合わせてベクトル検索だけを採用し、型番や略語の質問で取りこぼす。
- 自社の質問傾向を確認しない:利用者がどんな言葉で質問するかを把握せず、文書側の都合だけで方式を決める。
- 統合や調整を作り切りにする:ハイブリッドの比重を一度決めたきり見直さず、質問の変化に追従できない。
- 何でも再ランキングを入れる:精度が足りているのに処理を増やし、回答が遅く・高くなる。
- 検索の精度を測る手段を持たない:探せているかを確認する方法がなく、改善の手がかりがない。
検索方式は「一度選んで終わり」ではなく、実際の質問を見ながら見直すものである。導入後に検索結果を確認し、調整できる運用を最初から想定しておきたい。検索方式を支えるツールや基盤の選び方はRAG構築ツールの比較(LangChain・Dify・Vertex AI Search)で扱っている。
発注前に整理しておくとよい情報
検索方式を一緒に設計するために、発注前に次の情報を整理しておくと話が早い。
- 利用者がどんな言葉で質問するか(自由な言い回しか、決まった語句か)
- 質問に型番・製品名・制度名・略語が頻繁に出てくるか
- 対象の文書がどんな種類か(文章中心か、規程・仕様・台帳のように用語が固定されているか)
- 社内特有の略語や言い換えがどれくらいあるか
- 検索が正しくできているかを、誰がどう確認するか
これらが完全に整理されていなくても相談は可能である。「どんな質問が多いか」と「どんな文書を探させたいか」が見えていれば、方式の比重や、ハイブリッド・再ランキングの要否を一緒に設計できる。
開発会社に確認する質問
| 質問 | 確認したいこと |
|---|---|
| ベクトル検索とキーワード検索のどちらを使う想定ですか | 方式の選定根拠 |
| 型番や略語の質問にどう対応しますか | キーワード検索の活用 |
| ハイブリッド検索に対応できますか | 両方式の統合 |
| 比重の調整は後から見直せますか | 運用しながらの改善 |
| 再ランキングは必要だと考えますか | 精度と費用の判断 |
| 検索の精度はどう確認しますか | 効果測定の方法 |
「最新の方式なので大丈夫です」という説明には注意したい。自社の質問と文書に合っているかを説明できるかが、選定が妥当かどうかの分かれ目になる。
よくある質問
Q1. ベクトル検索だけにすれば、シンプルでよいのではないですか
文章中心の文書で、利用者が自由な言葉で質問するなら、ベクトル検索だけでも十分なことはある。ただし、型番・略語・固有名詞が質問に多く出る業務では、語句の完全一致が効くキーワード検索を併用しないと取りこぼしやすい。自社の質問傾向を確認したうえで判断したい。
Q2. ハイブリッド検索は、必ず導入すべきですか
必須ではない。質問と文書の特性がはっきり片方に寄っているなら、その方式に絞ったほうが構成も調整もシンプルになる。質問が言い換えと固有名詞の両方を含むなど、片方では取りこぼしが出る場合に、ハイブリッドが効いてくる。迷う段階なら、ハイブリッドを基本に検討するのが安全である。
Q3. 再ランキングは入れたほうがよいですか
検索だけで関連文書を十分に上位へ拾えているなら、無理に入れる必要はない。再ランキングは処理が一段増え、回答の速度や費用に影響する。まずは検索の精度を確認し、上位に的外れな文書が混じるようなら、改善策として再ランキングを検討する、という順序が現実的である。
RAGの検索方式の選定を一緒に整理しませんか
GXOでは、ベクトル検索・キーワード検索・ハイブリッド・再ランキングの選び方を、自社の文書と質問の特性に合わせて整理するご支援をしています。
※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。
