RAG・AI検索

RAG導入・連携の実務チェック｜回答精度の評価方法

2026年6月3日12分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

GXO COLUMN

AI開発

RAGを導入する際、最後まで曖昧なまま残りやすいのが「回答精度をどう測り、どこで合意するか」である。デモでいくつか質問して「それらしい答えが返ってきた」ことをもって精度が高いと判断してしまうと、本番で想定外の質問が来たときに崩れる。精度は感覚ではなく、測り方を決めたうえで確認するものである。

本記事は、RAGの回答精度の評価方法を、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。評価というと技術的で難しく聞こえるが、発注者として「どんな質問で、どの状態を正解とし、誰が確認するか」を開発会社と決められれば十分である。精度の数値そのものより、測る仕組みを合意できているかが、本番後の安心につながる。

結論：検索と生成を分け、質問セットで測り、本番後も続ける

RAGの精度評価で大切なのは、「正しい文書を引けているか」と「引いた文書から正しく答えているか」を分けて見ることである。両者は原因も対策も異なるため、まとめて「精度が低い」と判断しても改善につながらない。GXOが精度評価で重視するのは、次の3点である。

検索の精度（正しい文書を引けているか）と生成の正しさ（引いた文書から正しく答えているか）を分けて評価する
想定質問と正解をまとめた質問セットを社内で作り、それを基準に確認する
本番投入後も評価を続け、精度の変化に気づける状態にしておく

精度は一度測って終わりではない。文書が増え、質問の傾向が変われば精度も変わる。測る仕組みを最初に作っておくことが、長く使えるRAGの条件である。RAGの精度がなぜ崩れるのかはAI開発でよくある失敗｜RAGの精度でも扱っている。

AI ASSESSMENT

PoC の前に「そもそも使えるか」を30分で見極めませんか？

対象業務、データ、権限、ログ、運用責任を確認し、PoC前に失敗要因と本番化条件を整理します。

30分壁打ちを予約

なぜ検索と生成を分けて評価するのか

RAGの回答は、大きく二つの段階を経て作られる。一つは、質問に関連する社内文書を探し出す「検索」の段階である。もう一つは、引いてきた文書をもとに回答文を組み立てる「生成」の段階である。回答が間違っていたとき、原因はこのどちらかにある。

検索の段階で正しい文書を引けていなければ、その後どれだけ上手に文章を組み立てても、正解にはたどり着けない。逆に、正しい文書を引けているのに回答が間違っているなら、生成の段階で文書の内容を取り違えているか、文書にない内容を補ってしまっている。

この二つを分けずに「精度が低い」とだけ判断すると、対策の方向を誤る。検索が原因なのに回答文の指示（プロンプト）を直しても改善しないし、生成が原因なのに文書の整理ばかりしても効果は薄い。発注者として、不具合の報告を受けたときに「これは検索の問題か、生成の問題か」を開発会社と切り分けられるようにしておくと、改善のやり取りが速くなる。

横にスクロールして確認できます

評価の観点	何を見るか	主な原因	主な対策の方向
検索の精度	質問に対し、正しい文書を引けているか	文書が古い・重複・整理不足、検索の設定	文書の整備、検索範囲・条件の調整
生成の正しさ	引いた文書から正しく答えているか	文書にない内容の補い、内容の取り違え	回答の指示の調整、根拠提示の徹底
回答の出典	根拠とした文書を示せているか	出典の提示なし、誤った出典	出典表示の設計、根拠なし回答の抑制
答えない判断	情報がないときに無理に答えていないか	不明時も断定して回答	「分からない」と返す設計

検索の精度を支える前提として、引く対象の文書がそもそも整っているかも大きい。文書が古かったり重複していたりすると、検索が正しく働いても誤った情報を引いてしまう。文書の整備についてはRAG導入前のデータ品質管理で詳しく扱っている。

評価用の質問セットを社内で作る

精度を測るには、基準となる「質問セット」が要る。これは、本番で来そうな質問と、その正解（あるべき回答や、根拠となる文書）をまとめたものである。質問セットがあれば、毎回同じ質問で精度を確認でき、改修の前後で良くなったか悪くなったかも比べられる。

誰が作るのが適切か

質問セットは、開発会社だけでは作れない。何が正解かを判断できるのは、その業務を分かっている社内の人だからである。開発会社はRAGの仕組みは作れても、自社の規程や手順の正解までは知らない。質問と正解の整理は、社内の担当者が中心になって進めたい。

想定質問を集める：実際の問い合わせ履歴や、現場でよく聞かれる質問を集める。
正解を決める：質問ごとに、あるべき回答や、根拠となる文書を決める。
難しい質問も入れる：簡単な質問だけでなく、複数の文書をまたぐ質問や、答えが存在しない質問も入れる。
答えてはいけない質問も入れる：社内に情報がない質問に、無理に答えていないかを確かめる。

どのくらいの数を用意するか

最初から大量に用意する必要はない。よく来る質問を中心に、業務の幅をひととおりカバーできる程度から始め、運用しながら増やしていくのが現実的である。重要なのは数より、業務の重要な部分と、間違うと困る部分を質問セットに含めておくことである。間違えると影響が大きい質問ほど、優先して入れておきたい。

質問セットは、一度作って終わりではなく、社内の資産として育てていくものである。新しい質問が来たり、規程が変わったりしたら、質問セットも更新する。この更新を誰が担うかも、発注前に想定しておきたい。

FREE DOWNLOAD

AI導入チェックリスト（PoC 失敗要因 10項目）

情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。

30分で相談するチェックリストをDL

人手による評価とAIによる評価補助

質問セットができたら、実際に回答を確認する。確認のやり方には、人が見る方法と、AIに補助させる方法がある。両者は役割が異なり、組み合わせて使うのが現実的である。

人手による評価

最終的な良し悪しの判断は、人が行うのが基本である。特に、回答が業務上適切か、社外に出して問題ないか、といった判断は、その業務を分かっている人にしかできない。質問セットの回答を一つずつ確認し、正解と照らして合っているかを見ていく。

人手の評価は手間がかかるが、最初の合意形成では欠かせない。本番投入の判断を下す前に、重要な質問について人が回答を確認し、納得できる水準かを見ておきたい。

AIによる評価補助

質問の数が多いと、すべてを毎回人手で見るのは負担が大きい。そこで、回答と正解を突き合わせて「合っていそうか」をAIに一次判定させ、人手の確認を絞り込む使い方がある。あくまで補助であり、最終判断を任せきりにはしない。

横にスクロールして確認できます

評価のやり方	向いている場面	注意点
人手による評価	重要な質問、本番投入の判断、社外向け回答	手間がかかる、件数が多いと続けにくい
AIによる評価補助	件数の多い回答の一次確認、改修前後の比較	判定が常に正しいとは限らず、最終判断は人
両者の組み合わせ	本番運用での継続的な確認	どこまで人が見るかの線引きを決めておく

AIによる評価は、改修の前後で精度が下がっていないかを大まかに確かめる、といった継続的な確認に向く。人手をどこに集中させ、どこをAIに任せるかの線引きを、開発会社と決めておきたい。

本番投入後も評価を続ける

精度の評価は、本番に出す前だけのものではない。本番に出した後こそ、評価を続ける価値がある。理由は、本番では想定していなかった質問が来るからであり、文書が増えたり更新されたりして、精度が変わっていくからである。

本番で来た質問を集める：想定していなかった質問を記録し、質問セットに反映する。
定期的に質問セットで測り直す：文書の追加や設定の変更があったとき、精度が下がっていないかを確認する。
回答の出典をたどれるようにする：おかしな回答があったとき、どの文書を根拠にしたかを追えるようにしておく。
利用者からの指摘を受け取る：回答が間違っていたという現場の声を、改善に回す仕組みを作る。

本番後の評価を続けるには、誰が、どのくらいの頻度で精度を確認するかを決めておく必要がある。これを決めずに運用に入ると、いつの間にか精度が下がっていたことに、トラブルが起きてから気づくことになる。継続評価の体制は、発注前に開発会社と合意しておきたい。RAGの全体像と運用の位置づけは社内ナレッジ活用のためのRAG・AI検索導入ガイドで整理している。

発注者が精度をどう確認・合意するか

精度評価の仕組みは、発注前に開発会社と決めておきたい論点である。「精度を上げます」という説明だけでは、何をもって達成とするかが曖昧なまま進んでしまう。発注者として、次のような観点を確認しておきたい。

横にスクロールして確認できます

確認したい観点	開発会社に聞くこと
評価の分け方	検索の精度と生成の正しさを分けて確認できますか
質問セット	評価用の質問セットづくりを一緒に進められますか
確認の方法	人手とAIの評価をどう組み合わせますか
合意の基準	どの状態をもって本番投入と判断しますか
継続評価	本番後も精度を測り続ける仕組みはありますか
出典の追跡	おかしな回答の根拠をたどれますか