RAGを導入する際、最後まで曖昧なまま残りやすいのが「回答精度をどう測り、どこで合意するか」である。デモでいくつか質問して「それらしい答えが返ってきた」ことをもって精度が高いと判断してしまうと、本番で想定外の質問が来たときに崩れる。精度は感覚ではなく、測り方を決めたうえで確認するものである。
本記事は、RAGの回答精度の評価方法を、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。評価というと技術的で難しく聞こえるが、発注者として「どんな質問で、どの状態を正解とし、誰が確認するか」を開発会社と決められれば十分である。精度の数値そのものより、測る仕組みを合意できているかが、本番後の安心につながる。
結論:検索と生成を分け、質問セットで測り、本番後も続ける
RAGの精度評価で大切なのは、「正しい文書を引けているか」と「引いた文書から正しく答えているか」を分けて見ることである。両者は原因も対策も異なるため、まとめて「精度が低い」と判断しても改善につながらない。GXOが精度評価で重視するのは、次の3点である。
- 検索の精度(正しい文書を引けているか)と生成の正しさ(引いた文書から正しく答えているか)を分けて評価する
- 想定質問と正解をまとめた質問セットを社内で作り、それを基準に確認する
- 本番投入後も評価を続け、精度の変化に気づける状態にしておく
精度は一度測って終わりではない。文書が増え、質問の傾向が変われば精度も変わる。測る仕組みを最初に作っておくことが、長く使えるRAGの条件である。RAGの精度がなぜ崩れるのかはAI開発でよくある失敗|RAGの精度でも扱っている。
なぜ検索と生成を分けて評価するのか
RAGの回答は、大きく二つの段階を経て作られる。一つは、質問に関連する社内文書を探し出す「検索」の段階である。もう一つは、引いてきた文書をもとに回答文を組み立てる「生成」の段階である。回答が間違っていたとき、原因はこのどちらかにある。
検索の段階で正しい文書を引けていなければ、その後どれだけ上手に文章を組み立てても、正解にはたどり着けない。逆に、正しい文書を引けているのに回答が間違っているなら、生成の段階で文書の内容を取り違えているか、文書にない内容を補ってしまっている。
この二つを分けずに「精度が低い」とだけ判断すると、対策の方向を誤る。検索が原因なのに回答文の指示(プロンプト)を直しても改善しないし、生成が原因なのに文書の整理ばかりしても効果は薄い。発注者として、不具合の報告を受けたときに「これは検索の問題か、生成の問題か」を開発会社と切り分けられるようにしておくと、改善のやり取りが速くなる。
| 評価の観点 | 何を見るか | 主な原因 | 主な対策の方向 |
|---|---|---|---|
| 検索の精度 | 質問に対し、正しい文書を引けているか | 文書が古い・重複・整理不足、検索の設定 | 文書の整備、検索範囲・条件の調整 |
| 生成の正しさ | 引いた文書から正しく答えているか | 文書にない内容の補い、内容の取り違え | 回答の指示の調整、根拠提示の徹底 |
| 回答の出典 | 根拠とした文書を示せているか | 出典の提示なし、誤った出典 | 出典表示の設計、根拠なし回答の抑制 |
| 答えない判断 | 情報がないときに無理に答えていないか | 不明時も断定して回答 | 「分からない」と返す設計 |
検索の精度を支える前提として、引く対象の文書がそもそも整っているかも大きい。文書が古かったり重複していたりすると、検索が正しく働いても誤った情報を引いてしまう。文書の整備についてはRAG導入前のデータ品質管理で詳しく扱っている。
評価用の質問セットを社内で作る
精度を測るには、基準となる「質問セット」が要る。これは、本番で来そうな質問と、その正解(あるべき回答や、根拠となる文書)をまとめたものである。質問セットがあれば、毎回同じ質問で精度を確認でき、改修の前後で良くなったか悪くなったかも比べられる。
誰が作るのが適切か
質問セットは、開発会社だけでは作れない。何が正解かを判断できるのは、その業務を分かっている社内の人だからである。開発会社はRAGの仕組みは作れても、自社の規程や手順の正解までは知らない。質問と正解の整理は、社内の担当者が中心になって進めたい。
- 想定質問を集める:実際の問い合わせ履歴や、現場でよく聞かれる質問を集める。
- 正解を決める:質問ごとに、あるべき回答や、根拠となる文書を決める。
- 難しい質問も入れる:簡単な質問だけでなく、複数の文書をまたぐ質問や、答えが存在しない質問も入れる。
- 答えてはいけない質問も入れる:社内に情報がない質問に、無理に答えていないかを確かめる。
どのくらいの数を用意するか
最初から大量に用意する必要はない。よく来る質問を中心に、業務の幅をひととおりカバーできる程度から始め、運用しながら増やしていくのが現実的である。重要なのは数より、業務の重要な部分と、間違うと困る部分を質問セットに含めておくことである。間違えると影響が大きい質問ほど、優先して入れておきたい。
質問セットは、一度作って終わりではなく、社内の資産として育てていくものである。新しい質問が来たり、規程が変わったりしたら、質問セットも更新する。この更新を誰が担うかも、発注前に想定しておきたい。
人手による評価とAIによる評価補助
質問セットができたら、実際に回答を確認する。確認のやり方には、人が見る方法と、AIに補助させる方法がある。両者は役割が異なり、組み合わせて使うのが現実的である。
人手による評価
最終的な良し悪しの判断は、人が行うのが基本である。特に、回答が業務上適切か、社外に出して問題ないか、といった判断は、その業務を分かっている人にしかできない。質問セットの回答を一つずつ確認し、正解と照らして合っているかを見ていく。
人手の評価は手間がかかるが、最初の合意形成では欠かせない。本番投入の判断を下す前に、重要な質問について人が回答を確認し、納得できる水準かを見ておきたい。
AIによる評価補助
質問の数が多いと、すべてを毎回人手で見るのは負担が大きい。そこで、回答と正解を突き合わせて「合っていそうか」をAIに一次判定させ、人手の確認を絞り込む使い方がある。あくまで補助であり、最終判断を任せきりにはしない。
| 評価のやり方 | 向いている場面 | 注意点 |
|---|---|---|
| 人手による評価 | 重要な質問、本番投入の判断、社外向け回答 | 手間がかかる、件数が多いと続けにくい |
| AIによる評価補助 | 件数の多い回答の一次確認、改修前後の比較 | 判定が常に正しいとは限らず、最終判断は人 |
| 両者の組み合わせ | 本番運用での継続的な確認 | どこまで人が見るかの線引きを決めておく |
AIによる評価は、改修の前後で精度が下がっていないかを大まかに確かめる、といった継続的な確認に向く。人手をどこに集中させ、どこをAIに任せるかの線引きを、開発会社と決めておきたい。
本番投入後も評価を続ける
精度の評価は、本番に出す前だけのものではない。本番に出した後こそ、評価を続ける価値がある。理由は、本番では想定していなかった質問が来るからであり、文書が増えたり更新されたりして、精度が変わっていくからである。
- 本番で来た質問を集める:想定していなかった質問を記録し、質問セットに反映する。
- 定期的に質問セットで測り直す:文書の追加や設定の変更があったとき、精度が下がっていないかを確認する。
- 回答の出典をたどれるようにする:おかしな回答があったとき、どの文書を根拠にしたかを追えるようにしておく。
- 利用者からの指摘を受け取る:回答が間違っていたという現場の声を、改善に回す仕組みを作る。
本番後の評価を続けるには、誰が、どのくらいの頻度で精度を確認するかを決めておく必要がある。これを決めずに運用に入ると、いつの間にか精度が下がっていたことに、トラブルが起きてから気づくことになる。継続評価の体制は、発注前に開発会社と合意しておきたい。RAGの全体像と運用の位置づけは社内ナレッジ活用のためのRAG・AI検索導入ガイドで整理している。
発注者が精度をどう確認・合意するか
精度評価の仕組みは、発注前に開発会社と決めておきたい論点である。「精度を上げます」という説明だけでは、何をもって達成とするかが曖昧なまま進んでしまう。発注者として、次のような観点を確認しておきたい。
| 確認したい観点 | 開発会社に聞くこと |
|---|---|
| 評価の分け方 | 検索の精度と生成の正しさを分けて確認できますか |
| 質問セット | 評価用の質問セットづくりを一緒に進められますか |
| 確認の方法 | 人手とAIの評価をどう組み合わせますか |
| 合意の基準 | どの状態をもって本番投入と判断しますか |
| 継続評価 | 本番後も精度を測り続ける仕組みはありますか |
| 出典の追跡 | おかしな回答の根拠をたどれますか |
ここで注意したいのは、特定の精度の数値だけを目標に置くことである。「精度〇%」という数字は分かりやすいが、簡単な質問ばかりの質問セットなら高い数値も出せてしまう。数値そのものより、どんな質問で、どう測ったかが伴って初めて意味を持つ。質問セットの中身と測り方を共有したうえで、達成の基準を合意したい。
また、精度は完璧にはならない。社内文書にない質問や、解釈が分かれる質問では、どうしても限界がある。完璧を求めるより、間違えると困る範囲で十分な精度が出ているか、間違えたときに気づき直せる仕組みがあるかを、合意の軸に置くのが現実的である。
よくある質問
Q1. 精度は何%あれば本番に出してよいのですか
一律の基準はない。同じ数値でも、質問セットが簡単なら高く出るし、難しい質問を含めれば低く出る。数値だけで判断せず、間違えると困る重要な質問でどの程度正しく答えられているか、間違えたときに気づける仕組みがあるかを合わせて判断したい。重要な質問の精度と、誤りへの備えをセットで見るのが現実的である。
Q2. 質問セットは開発会社に作ってもらえますか
仕組みづくりは開発会社が支援できるが、何が正解かを決めるのは社内の役割である。開発会社は自社の規程や手順の正解までは知らないため、想定質問と正解の整理は社内の担当者が中心になって進め、形式や進め方を開発会社が支援する分担が現実的である。
Q3. 本番に出した後も評価を続ける必要がありますか
続けることをおすすめする。本番では想定外の質問が来るうえ、文書が増えたり更新されたりして精度は変わっていく。評価をやめると、精度が下がっていたことにトラブルが起きてから気づくことになる。誰がどの頻度で確認するかを決めておけば、過度な負担なく続けられる。
RAGの精度評価の進め方を一緒に整理しませんか
GXOでは、評価用の質問セットづくり、検索と生成を分けた精度確認、本番後の継続評価を、発注前から運用まで一貫してご支援します。
※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。
