RAGは、社内文書を検索して、その内容をもとにAIが回答する仕組みである。検索の精度を上げるには、文書の本文だけでなく、その文書が「どの部署のものか」「いつ作られたか」「誰まで見てよいか」といった属性を一緒に持たせておく必要がある。この属性がメタデータである。メタデータがないと、本文の文字が似ているというだけで、古い文書や対象外の部署の文書まで回答に混ざってしまう。
本記事は、RAGの各文書にどんなメタデータを付け、それをどう検索フィルタに使うかを、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当、事業責任者である。設計の詳細は開発側が担うが、発注者として「どんな属性を文書に持たせるべきか」を整理できれば、RAGの精度と安全性は大きく変わる。
結論:本文だけでなく属性を持たせ、フィルタで絞る
RAGの精度は、文書をどれだけ集めたかではなく、集めた文書をどれだけ整理できているかで決まる。本文が似ているからと無条件に拾うのではなく、属性で絞り込めるようにしておくことが要である。GXOがメタデータ設計で重視するのは、次の3点である。
- 各文書に部署・作成日・文書種別・公開範囲などの属性を持たせる
- それらの属性を検索フィルタに使い、古い文書や対象外の文書を除外する
- 回答に「どの文書を根拠にしたか」を、メタデータを使って提示する
メタデータは、後から一括で付けるのが難しい。文書を取り込む設計の段階で、どの属性を持たせるかを決めておきたい。RAGそのものの全体像は社内ナレッジをAI検索で活かすRAG導入ガイドでも扱っている。
なぜメタデータが必要か
RAGの検索は、文章の意味の近さで文書を拾う。意味が近ければ拾うため、メタデータで絞らないと、次のような問題が起こりやすい。
- 古い文書が混ざる:改訂前の規程や旧価格表が、現行の文書と区別されずに回答へ反映される。
- 対象外の部署の文書が出る:別部署向けの手順やルールが、本文の言葉が似ているというだけで混ざる。
- 公開してよい範囲を超える:一部の担当者しか見てはいけない情報が、回答に紛れ込む。
- 根拠を示せない:回答のもとになった文書を特定できず、利用者が内容を確かめられない。
これらはいずれも、本文の検索だけでは防げない。文書に属性を持たせ、検索のときにその属性で絞り込むことで、はじめて避けられる。メタデータは、RAGの精度と安全性を支える土台である。
文書に持たせるべきメタデータ項目
メタデータは多ければよいというものではない。運用で確実に付けられて、検索の絞り込みや出典提示に役立つ項目に絞る。発注前に検討しておきたい代表的な項目を、次に整理する。
| メタデータ項目 | 何を表すか | 主な使いみち |
|---|---|---|
| 部署・管轄 | どの部署が持つ文書か | 部署単位での絞り込み |
| 作成日・更新日 | いつ作られ、いつ直されたか | 古い文書の除外、新しい順の優先 |
| 文書種別 | 規程・手順書・議事録・FAQなど | 種別での絞り込み、優先度づけ |
| 公開範囲 | 誰まで見てよい情報か | 権限に応じた除外 |
| 出典・原本の場所 | 元のファイルや保管先 | 回答での出典提示 |
| 有効期限・改訂状況 | いつまで有効か、最新版か | 失効・旧版の除外 |
すべての文書に全項目が必要なわけではない
これらをすべての文書に厳密に付けようとすると、運用が回らなくなる。まずは絞り込みと出典提示に効く項目から始めるのが現実的である。たとえば、部署・作成日・公開範囲の3つだけでも、古い文書や対象外の文書が混ざる問題はかなり減る。後から項目を足すことはできるので、最初から完璧を目指さず、効果の大きい項目から着実に付けたい。
メタデータを使った検索フィルタの設計
メタデータは、持たせるだけでは意味がない。検索のときにそれを使って絞り込んで、はじめて効果が出る。フィルタの考え方は、次のように整理できる。
- 除外フィルタ:有効期限の切れた文書や、旧版とマークされた文書を、検索の対象から外す。
- 絞り込みフィルタ:質問者の部署や、扱っている案件に合わせて、関係する文書だけを対象にする。
- 優先フィルタ:同じような内容が複数あるとき、更新日が新しいものや、種別の優先度が高いものを上位に置く。
これらのフィルタは、利用者が手で設定するのではなく、利用者の所属や状況に応じて自動で効くようにしておきたい。たとえば、営業部の担当者が質問したら営業部の公開範囲の文書だけが対象になる、というように、利用者の文脈とメタデータを結びつける設計が望ましい。どのツールでどこまでフィルタを設計できるかは差があるため、選定の段階で確認しておきたい。ツールの比較観点はRAG構築ツールの比較で扱っている。
出典提示にメタデータが効く
RAGの回答は、利用者がその内容を確かめられて、はじめて安心して使える。回答に「この文書を根拠にした」と示せると、利用者は原本にあたって裏を取れる。この出典提示は、メタデータがあってはじめて成り立つ。
- どの文書を使ったかを示す:文書名や種別を回答に添え、利用者がたどれるようにする。
- 原本の場所を示す:保管先のリンクや場所をメタデータに持たせ、確認できるようにする。
- いつの文書かを示す:作成日や更新日を添え、情報の新しさを利用者が判断できるようにする。
出典が示されないと、利用者は回答が正しいか確かめようがなく、RAGそのものへの信頼が下がる。逆に出典が明確であれば、多少の誤りがあっても利用者が気づける。出典提示は、メタデータ設計の重要な目的のひとつである。
棚卸しと権限をメタデータでつなぐ
メタデータの設計は、単独で進めるものではない。本連載の第1回で扱った文書の棚卸しと、第2回で扱った権限の話を、実装につなぐ役割を持つ。
- 棚卸しの結果を属性にする:どの文書がどの部署のもので、いつのものかを棚卸しで把握したら、それをメタデータとして文書に付ける。棚卸しは、メタデータを付けるための下調べでもある。
- 権限を公開範囲の属性にする:誰がどの文書を見てよいかという権限の整理を、公開範囲というメタデータに落とし込み、検索フィルタで効かせる。
- 古い文書の扱いを決める:棚卸しで見つかった旧版や失効した文書に、有効期限や改訂状況の属性を付け、検索から外す。
棚卸しで「どんな文書があるか」を把握し、権限で「誰が見てよいか」を整理し、それをメタデータという形で文書に持たせることで、はじめて検索フィルタとして機能する。メタデータは、それまでの整理を実装につなぐ要である。FAQやナレッジを継続的に手入れする観点はFAQ・ナレッジの保守とRAG運用ガイドも参考になる。
メタデータ設計でよくある失敗
メタデータの設計では、次のような失敗が起きやすい。いずれも、発注前に方針を決めておけば避けられる。
- 項目を多くしすぎる:理想を追って項目を増やした結果、付ける作業が回らず、空欄だらけのメタデータになる。
- 付ける担当と手順を決めない:誰がいつ属性を付けるかが曖昧で、新しい文書にメタデータが付かないまま放置される。
- 更新を考えていない:文書を直したときに更新日や改訂状況が変わらず、古い情報が新しいものとして扱われる。
- 権限と切り離してしまう:公開範囲をメタデータに反映せず、フィルタで絞れないまま全文書が検索対象になる。
メタデータは「一度付けて終わり」ではなく、文書のライフサイクルに合わせて維持するものである。付ける担当、更新の手順、見直しの頻度も、発注前に想定しておきたい。
導入前チェックリスト
- 文書に持たせる属性(部署・作成日・文書種別・公開範囲など)を整理したか
- まず付ける項目を、効果の大きいものに絞ったか
- 公開範囲のメタデータを、権限の整理と整合させたか
- 古い文書や旧版を、検索から外す方針を決めたか
- 回答に出典を示すために必要な属性を洗い出したか
- メタデータを付ける担当と手順を想定したか
- 文書を更新したときに、属性も更新する運用を決めたか
開発会社に確認する質問
| 質問 | 確認したいこと |
|---|---|
| 文書ごとにメタデータを自由に設計できますか | 属性の柔軟性 |
| メタデータで検索を絞り込めますか | フィルタの設計 |
| 利用者の所属に応じて自動でフィルタできますか | 文脈に応じた絞り込み |
| 回答に出典を提示できますか | 根拠の提示 |
| 有効期限切れや旧版を除外できますか | 古い文書の除外 |
| 既存の権限を公開範囲に反映できますか | 権限との連携 |
「全文を検索すれば見つかります」という説明には注意したい。属性で絞り込めるかどうかが、精度と安全性の分かれ目になる。
相談前に整理しておくとよい情報
- RAGに取り込みたい文書と、それを管轄する部署
- 文書の新旧や改訂が、どこを見れば分かるか
- 誰がどの文書を見てよいか(公開範囲の整理)
- 旧版や失効した文書が、どれくらい混ざっているか
- 文書を作成・更新する社内の担当や手順
これらが整理されていなくても相談は可能である。取り込みたい文書と、それを「誰が見てよいか」「いつのものか」が見えていれば、必要なメタデータと、それを使ったフィルタを一緒に設計できる。
よくある質問
Q1. メタデータはすべての文書に細かく付けないと意味がないのですか
そうではない。まずは部署・作成日・公開範囲のように、絞り込みと出典提示に効く項目から始めれば、古い文書や対象外の文書が混ざる問題はかなり減る。すべてを完璧に付けるより、効果の大きい項目を確実に付けるほうが、運用も続きやすい。
Q2. 既存の文書には属性が付いていません。どうすればよいですか
最初の棚卸しのときに、部署や作成日などの分かる範囲で属性を付けていくのが現実的である。すべてを手作業で付けるのが難しい場合は、保管先のフォルダ構成や既存の管理情報から、ある程度自動で割り当てられないかも検討するとよい。
Q3. メタデータで権限まで管理できるのですか
公開範囲のメタデータで「誰まで見てよいか」を表し、検索フィルタで対象外の文書を除外することはできる。ただし、これはあくまで検索を絞る仕組みであり、システム全体のアクセス制御と整合させて設計することが前提になる。権限の整理とメタデータ設計は、セットで進めたい。
RAGのメタデータとフィルタ設計を一緒に整理しませんか
GXOでは、文書に付けるメタデータの設計、フィルタによる絞り込み、出典提示につながる属性整理を、発注前にご支援します。
※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。
