GXO
RAG・AI検索

AI開発発注の失敗図鑑|RAGの精度が出ない理由

11分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

自社の場合を相談する
AI開発発注の失敗図鑑|RAGの精度が出ない理由

社内文書を参照して回答するAI(RAG)を導入したものの、「期待した精度が出ない」という相談は多い。回答がずれる、古い情報を返す、根拠が示されない。こうした症状を見て「モデルの性能が足りない」と考えがちだが、原因の多くは参照する社内文書と検索の設計にある。

本記事では、RAGの精度が出ない理由を発注者の視点で整理し、発注前に確認すべき項目と開発会社への質問を示す。RAGの仕組みを細かく理解する必要はない。発注者として「どこを整理すれば精度に効くのか」が分かれば十分である。


結論:RAGの精度はモデルより先に文書と評価で決まる

RAGの回答精度を上げる近道は、いきなり高性能モデルへ替えることではない。GXOがRAG開発の相談で最初に見るのは、参照文書の範囲、最新版の管理、文書分割、権限、根拠表示、評価データの有無である。

  • 答えさせる業務と質問範囲を絞る
  • 最新版、部署、版、権限などのメタデータを付ける
  • 想定質問と正解例を用意し、改善前後を比較する

この土台がないまま発注すると、回答がずれても原因を切り分けられず、感覚的なチューニングに陥りやすい。


OUTCOME BLUEPRINT

AI/DX投資の前に、成果KPIと発注条件を整理しませんか?

補助金、SaaS選定、開発見積、PoCの前に、業務要件・費用レンジ・RFP・合格条件を成果起点で整理します。

Outcome Blueprintを見る

RAGの回答は「参照する文書」で決まる

RAGは、質問に関連する社内文書を検索し、その内容をもとに回答を組み立てる仕組みである。つまり、回答の質は次の3つでほぼ決まる。

  1. 参照する文書がそろっていて、最新であること
  2. 質問に対して、関連する文書を正しく見つけられること
  3. 見つけた文書の内容を、根拠として示しながら答えられること

このどれかが崩れると、モデルがどれだけ高性能でも精度は出ない。逆に言えば、発注者が整理できるのは主に1と2である。ここを放置したままモデルだけを期待すると、精度は安定しない。


なぜRAGの精度が出ないのか

検索対象の文書が決まっていない

「社内のあらゆる文書を参照させたい」という要望は多いが、対象が広すぎると関連性の低い文書まで拾い、回答がぶれる。どの業務の、どの質問に答えさせるのかを絞らないと、検索対象が定まらない。

文書の分割(チャンク)が業務に合っていない

RAGは長い文書を一定の単位に分割して検索する。この分割が雑だと、回答に必要な文脈が途中で切れ、不完全な回答になる。表や図、Q&A形式の文書は特に分割の影響を受けやすい。

メタデータがなく、新旧・部署を区別できない

文書に「作成日」「対象部署」「版」といった情報(メタデータ)が付いていないと、古い文書と最新版を区別できず、古い情報を最新として返してしまう。

権限の設計がない

誰でも全文書を参照できる設計だと、本来は限られた人しか見られない情報が回答に混ざる。逆に権限を厳しくしすぎると、必要な文書が検索対象から外れて精度が落ちる。権限とログの設計はAIエージェントに権限を渡す前の落とし穴にも通じる論点である。

回答の根拠が示されない

根拠となる文書を提示しない設計だと、利用者は回答の正しさを確認できず、信頼されない。結果として使われなくなる。

評価データがなく、精度を測れない

「正しい回答の集合」がないと、精度を客観的に測れない。改善したのか悪化したのかも分からず、チューニングが感覚的になる。


FREE DOWNLOAD

AI/RAG導入後のKPIと改善運用、先に設計しませんか?

PoCで終わらせず、利用率・精度・削減工数・改善バックログまでOutcomeOpsで回す設計を確認できます。

精度が出ない原因と、発注前の対策

症状主な原因発注前に整理しておくこと
回答がずれる検索対象が広すぎる答えさせる業務と質問の範囲を絞る
文脈が途切れた回答になる文書の分割が業務に不適文書の種類(表・Q&A・手順書)を共有する
古い情報を返すメタデータ・版管理がない文書の最新版と更新ルールを整える
見てはいけない情報が混ざる権限設計がない文書ごとの閲覧範囲を整理する
回答を信用できない根拠の提示がない根拠表示を要件に含める
改善しているか分からない評価データがない想定質問と正解例を用意する

精度の改善は、モデルの差し替えよりも、この左の症状を一つずつ潰すほうが効くことが多い。


精度を上げるときに見直す順序

RAGの精度が出ないとき、いきなり高性能なモデルへ乗り換えるのではなく、影響の大きい要素から順に見直すと原因にたどり着きやすい。次の順序が一つの目安になる。

  1. 検索対象を絞る:答えさせたい質問の範囲に対して、参照する文書が広すぎないかを見直す。関係の薄い文書が混ざっていると、関連性の判定がぶれて回答も揺れる。
  2. 文書の分割を見直す:回答に必要な文脈が途中で切れていないかを確認する。手順書やQ&Aは、意味のまとまりごとに区切ると改善しやすい。
  3. メタデータと最新版を整える:作成日や版の情報を付け、古い文書が検索の上位に来ないようにする。
  4. 根拠の提示を確認する:回答に参照元を示し、利用者が正しさを自分で確かめられるようにする。
  5. 評価データで測る:想定質問と正解例を用意し、見直しの前後で精度がどう変わったかを比較する。

この順序で一つずつ確認すると、「どこを直したら、どれだけ良くなったか」が見えるようになる。検索の方法(キーワードでの一致と、意味の近さでの検索)をどう組み合わせるかも精度に影響するが、まずは参照する文書と分割を整えるほうが効果が出やすい。モデルの差し替えは、これらを見直した後の選択肢として考えるとよい。

特に評価データは、改善の土台になる。評価データがあれば、改善が前進しているのか後退しているのかを客観的に判断できる。逆に、評価データがないまま手を加えると、感覚的なチューニングになり、ある質問では良くなっても別の質問で悪くなる、といったことに気づけない。発注前に、想定質問と正解例を数件でも用意しておくと、運用開始後の改善が安定する。


発注前に確認すべき項目

RAGを発注する前に、次の項目を社内で確認しておきたい。

  • このRAGに答えさせる業務と質問の範囲を一つに絞ったか
  • 参照させる文書を洗い出し、最新版がどれか分かる状態か確認したか
  • 文書に表・図・Q&A・手順書など、分割が難しい形式が含まれるか把握したか
  • 文書の作成日・対象部署・版などのメタデータを付けられるか確認したか
  • 文書ごとの閲覧権限(誰が見てよいか)を整理したか
  • 回答に根拠(参照元)を表示する要件を入れたか
  • 想定質問と、その正解例(評価データ)を用意できるか確認したか
  • 文書を更新したとき、誰がいつ反映するかの運用を決めたか

評価データと文書の最新版管理は、発注後では用意が難しい。発注前に着手しておくと精度の立ち上がりが早い。


開発会社に確認する質問

質問確認したいこと
参照対象の文書はどう絞り込みますか検索対象の設計方針があるか
表やQ&A形式の文書はどう分割しますか文書形式への対応力があるか
古い文書と最新版はどう区別しますかメタデータ・版管理の設計があるか
回答の根拠はどう提示しますか根拠表示を標準で実装するか
精度はどの指標で、どう測りますか評価の仕組みを持っているか
精度が出ないとき、どこから改善しますか改善の手順を説明できるか

「高性能なモデルを使うので大丈夫」という回答だけでは不十分である。文書と検索の設計にどう踏み込むかを確認したい。


GXOに相談する前に整理するとよい情報

  • 答えさせたい業務と、よくある質問の例(数件でよい)
  • 参照させたい文書の種類、量、保管場所(共有フォルダ、グループウェアなど)
  • 文書の最新版がどこにあり、誰が更新しているか
  • 文書ごとに「誰が見てよいか」の制約があるか
  • すでにRAGやチャットボットを試したことがあれば、その結果

文書の状態が分かると、「精度を上げるために何を整えるべきか」を具体的に提案できる。RAGの費用感はRAG開発の費用ガイドも参考になる。


参考にした外部観点

RAGは検索、生成、権限、ログが組み合わさるため、品質だけでなくリスク管理も発注前に見る必要がある。NIST AI Risk Management FrameworkはAIのリスク管理を組織的に扱う枠組みであり、OWASP Top 10 for Large Language Model ApplicationsはLLMアプリケーションの代表的なリスクを整理している。

実務では、最初から全社文書を対象にせず、想定質問10件、正解例10件、検証対象文書30件程度から始め、3ヶ月で改善サイクルを確認するほうが原因を切り分けやすい。


関連記事


よくある質問

Q1. モデルを高性能なものに変えれば精度は上がりますか

モデルの差で改善する部分はあるが、参照する文書や検索の設計が崩れていると、モデルを変えても精度は安定しない。先に文書と検索を整えるほうが効果は大きい。

Q2. 文書がきれいに整理されていないと、RAGは始められませんか

完璧な整理は不要だが、対象を絞り、最新版を特定し、評価用の質問を数件用意するだけでも立ち上がりは大きく変わる。整備の論点は社内データの品質管理で詳しく扱う。


RAGの精度を、発注前に出やすくしませんか

GXOでは、RAGの参照文書、メタデータ、権限、根拠表示、評価データを発注前に整理し、回答精度を改善しやすい設計をご支援します。

RAG開発の発注前相談をする

※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。

ISSUE HUB

社内情報を探しやすくしたいの全体像を見る

関連する中カテゴリ・小カテゴリ・記事を横断し、課題の整理、優先順位、解決策をまとめて確認できます。

課題別ハブを見る

CATEGORY CLUSTER

同じ課題で読む

この記事の親カテゴリと近い小カテゴリをたどると、課題の全体像から具体的な解決策まで順に確認できます。

関連 HUB

この記事は以下の業種・悩み hub にも掲載されています。同じテーマの実務ナレッジと支援サービスをまとめてご覧いただけます。

お気軽にご相談ください

AI・DXに関するご質問やお見積もりなど

無料相談する

CONTACT

まずは 無料相談 から始めませんか。

サービスについてのご相談・ご質問などお気軽にお問い合わせください。
※ 営業電話はしません | オンライン対応可 | 相談だけでもOK