RAGのPoCでよく起きるのが、「なんとなく良さそう」「たまに外す」という曖昧な評価です。これでは本番化の判断ができません。
質問セットを作る
精度評価の第一歩は、質問セットを作ることです。実際の利用者が聞きそうな質問を集め、期待回答と根拠文書を紐づけます。
質問セットには、次の種類を入れます。
- よくある質問
- 複数文書をまたぐ質問
- 最新版を参照すべき質問
- 権限外の情報に関する質問
- 回答してはいけない質問
- 根拠文書が存在しない質問
これにより、RAGが得意な場面と苦手な場面を具体的に確認できます。
評価基準を決める
評価では、回答が合っているかだけでなく、次の観点を見ます。
- 根拠文書が正しいか
- 引用箇所が適切か
- 不明時に無理な回答をしていないか
- 権限外文書を参照していないか
- 回答文が業務で使える表現か
- 回答時間が許容範囲か
RAGは検索と生成の組み合わせなので、検索結果と回答文を分けて評価することが重要です。
本番後も評価を続ける
RAGは公開して終わりではありません。利用ログ、低評価、回答不能、誤回答報告をもとに、文書追加、チャンク修正、プロンプト調整、検索方式改善を続けます。
評価セットは、開発時だけでなく運用改善にも使えます。
発注前チェック
- 実際の質問例を30件以上集められるか
- 期待回答と根拠文書を用意できるか
- 回答してはいけない質問を定義しているか
- 精度の合格ラインを決めているか
- 本番後の改善担当者が決まっているか
精度評価を発注前に設計しておくと、PoCの成否判断が明確になります。