RAGのPoCでよく起きるのが、「なんとなく良さそう」「たまに外す」という曖昧な評価です。これでは本番化の判断ができません。
質問セットを作る
精度評価の第一歩は、質問セットを作ることです。実際の利用者が聞きそうな質問を集め、期待回答と根拠文書を紐づけます。
質問セットには、次の種類を入れます。
-
よくある質問
-
複数文書をまたぐ質問
-
最新版を参照すべき質問
-
権限外の情報に関する質問
-
回答してはいけない質問
-
根拠文書が存在しない質問
これにより、RAGが得意な場面と苦手な場面を具体的に確認できます。
AI ASSESSMENT
PoC の前に「そもそも使えるか」を30分で見極めませんか?
情シス部門の稟議書作成をサポートする無料の30分壁打ち。費用対効果 試算シート・失敗要因チェックリストをその場で共有します。
評価基準を決める
評価では、回答が合っているかだけでなく、次の観点を見ます。
-
根拠文書が正しいか
-
引用箇所が適切か
-
不明時に無理な回答をしていないか
-
権限外文書を参照していないか
-
回答文が業務で使える表現か
-
回答時間が許容範囲か
RAGは検索と生成の組み合わせなので、検索結果と回答文を分けて評価することが重要です。
本番後も評価を続ける
RAGは公開して終わりではありません。利用ログ、低評価、回答不能、誤回答報告をもとに、文書追加、チャンク修正、プロンプト調整、検索方式改善を続けます。
評価セットは、開発時だけでなく運用改善にも使えます。
FREE DOWNLOAD
AI導入チェックリスト(PoC 失敗要因 10項目)
情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。
発注前チェック
-
実際の質問例を30件以上集められるか
-
期待回答と根拠文書を用意できるか
-
回答してはいけない質問を定義しているか
-
精度の合格ラインを決めているか
-
本番後の改善担当者が決まっているか
精度評価を発注前に設計しておくと、PoCの成否判断が明確になります。
RAGのPoC評価設計を支援します
質問セット、期待回答、根拠文書、評価基準を作り、本番化判断に使えるPoCにします。







