RAGのPoCでよく起きるのが、「なんとなく良さそう」「たまに外す」という曖昧な評価です。これでは本番化の判断ができません。

質問セットを作る

精度評価の第一歩は、質問セットを作ることです。実際の利用者が聞きそうな質問を集め、期待回答と根拠文書を紐づけます。

質問セットには、次の種類を入れます。

  • よくある質問
  • 複数文書をまたぐ質問
  • 最新版を参照すべき質問
  • 権限外の情報に関する質問
  • 回答してはいけない質問
  • 根拠文書が存在しない質問

これにより、RAGが得意な場面と苦手な場面を具体的に確認できます。

評価基準を決める

評価では、回答が合っているかだけでなく、次の観点を見ます。

  • 根拠文書が正しいか
  • 引用箇所が適切か
  • 不明時に無理な回答をしていないか
  • 権限外文書を参照していないか
  • 回答文が業務で使える表現か
  • 回答時間が許容範囲か

RAGは検索と生成の組み合わせなので、検索結果と回答文を分けて評価することが重要です。

本番後も評価を続ける

RAGは公開して終わりではありません。利用ログ、低評価、回答不能、誤回答報告をもとに、文書追加、チャンク修正、プロンプト調整、検索方式改善を続けます。

評価セットは、開発時だけでなく運用改善にも使えます。

発注前チェック

  1. 実際の質問例を30件以上集められるか
  2. 期待回答と根拠文書を用意できるか
  3. 回答してはいけない質問を定義しているか
  4. 精度の合格ラインを決めているか
  5. 本番後の改善担当者が決まっているか

精度評価を発注前に設計しておくと、PoCの成否判断が明確になります。

RAGのPoC評価設計を支援します

質問セット、期待回答、根拠文書、評価基準を作り、本番化判断に使えるPoCにします。

RAG精度評価を相談する