社内のマニュアルや過去の議事録、問い合わせ対応の履歴を、AIに読み込ませて質問に答えさせたい。こうした使い方は、RAG(検索を組み合わせて回答を生成する仕組み)と呼ばれ、関心が高い。ただ、社内のデータをそのままAIにつなげば賢く答えてくれる、というわけではない。文書がバラバラに散らばっていたり、古い情報と新しい情報が混在していたり、見せてはいけない情報が混ざっていたりすると、AIの回答も的外れになる。
本記事は、社内データをAIやRAGにつなぐ前の準備を、発注者の視点で整理する。読者として想定しているのは、中小企業の経営者、DX担当、情シス担当である。AIの仕組みそのものは難しくても、発注者として「どの文書を読ませたいか」「その文書は最新で正確か」「誰が見てよい情報か」を整理できれば、準備の出発点になる。
結論:AIに渡す前に、整理・品質・権限を整える
AIやRAGの精度は、つなぐデータの状態に大きく左右される。GXOがAIへのデータ準備で重視するのは、次の3点である。
- AIに読ませる文書を整理し、最新で正確なものに絞る
- 古い情報や誤った情報を混ぜず、データの品質を確保する
- 見せてはいけない情報を、AIの回答に混ぜない権限の設計をする
AIは渡された情報をもとに答える。土台となるデータが整っていなければ、いくら高性能なAIでも、的外れや誤った回答を返す。準備こそが、AI活用の成否を分ける。
構造化データと非構造化データの違い
AIに使わせたいデータには、大きく二種類ある。この違いを押さえておくと、準備の見通しが立つ。
| 種類 | 例 | 特徴 |
|---|---|---|
| 構造化データ | 売上表、顧客台帳、在庫数 | 表形式で集計・分析しやすい |
| 非構造化データ | マニュアル、議事録、メール、問い合わせ履歴 | 文章で、そのままでは検索しにくい |
RAGで特に活きるのは、非構造化データである。社内に蓄積された文書をAIが参照して答える使い方が中心になる。一方、数字を集計して分析する用途は、ダッシュボードなど別の手段が向いている。何をAIに任せ、何を従来の分析で見るかを分けて考えたい。データの種類の整理は社内データ活用・データ基盤の始め方|データの棚卸しも参考になる。
AIに読ませる文書を整理する
RAGの回答精度は、読ませる文書の状態で決まる。準備として、次のような整理が要る。
- 最新版に絞る:同じマニュアルの新旧が混在していると、AIが古い内容で答える。最新版に揃える。
- 散らばりを集める:複数の場所に分散した文書を、AIが参照できる形にまとめる。
- 対象を選ぶ:何でも読ませるのではなく、回答に使ってよい信頼できる文書を選ぶ。
- 不要なものを除く:下書きや破棄された案など、回答に混ぜたくない文書を外す。
文書がきれいに整理されているほど、AIの回答は安定する。逆に、雑多な文書をそのまま読ませると、AIはどれを信じてよいか分からず、回答がぶれる。整理は地味だが、ここが精度を支える。
整理の進め方も、いきなり全文書を対象にする必要はない。まず一つの業務でよく参照される文書だけを選び、それで回答の質を確かめてから対象を広げると、無理がない。最初から社内のあらゆる文書を読ませようとすると、整理が終わらず、いつまでも始められない。よく使われる文書から手をつけるほうが、効果も早く見える。
品質と権限という前提を満たす
文書を整理しても、その中身の品質と、誰が見てよいかの権限が整っていないと、AIに渡すのは危うい。
| 前提 | 確認すること | 整っていないと |
|---|---|---|
| 品質 | 情報が正確で最新か | 誤った回答が生成される |
| 権限 | 誰が見てよい情報か | 機密が回答に漏れる |
| 出典 | どの文書を根拠にしたか分かるか | 回答の正しさを確かめられない |
特に権限は重要である。AIは渡された文書を区別なく参照するため、見せてはいけない情報が混ざっていると、それを誰にでも答えてしまう。誰がどの文書にアクセスしてよいかを、AIの回答にも引き継ぐ設計が要る。品質と権限の考え方は社内データ活用・データ基盤の始め方|データガバナンスと権限で詳しく扱う。
RAGへ橋渡しする進め方
準備が整ったら、AIにつなぐ。ここでも一気に全社展開するのではなく、小さく始めるのが現実的である。
- 一つの業務から始める:問い合わせ対応や社内マニュアル検索など、効果が見えやすい一業務に絞る。
- 回答の根拠を確かめる:AIの回答が、どの文書を根拠にしているかを確認できる形にする。
- 間違いを見つけて直す:実際に使いながら、回答の誤りを見つけ、元の文書や仕組みを直す。
最初から完璧な回答を期待せず、使いながら整えていく姿勢が要る。一つの業務で精度が上がってから、対象を広げると安定する。小さく始める考え方は社内データ活用・データ基盤の始め方|スモールスタートの設計も参照されたい。
実際に使い始めると、AIが答えにくい質問や、根拠の文書が古かった箇所が見えてくる。こうした気づきは、元の文書を直したり、読ませる範囲を調整したりする手がかりになる。AIの回答を改善する作業の多くは、AIそのものをいじることより、渡しているデータを整えることである。回答がいまひとつなら、まず元のデータを疑う、という見方を持っておくと、改善の方向を見誤りにくい。
AI準備でよくある誤解
AIにデータをつなぐとき、次のような誤解が失敗につながりやすい。
- データをつなげば賢くなる:整理されていないデータをつないでも、回答は的外れになる。準備が前提である。
- 何でも読ませればよい:雑多な文書を全部読ませると、AIが信頼できる情報を選べず、回答がぶれる。
- 権限は後で考えればよい:見せてはいけない情報が混ざると、AIが誰にでも答えてしまう。先に設計が要る。
- 一度作れば完成:使いながら回答を確かめ、元データを直し続ける運用が要る。
AIは魔法ではなく、渡したデータの質をそのまま映す。準備と運用を抜きにして、精度だけを期待すると、期待外れに終わりやすい。
導入前チェックリスト
- AIに任せたい業務を、具体的に一つ挙げたか
- そこで読ませたい文書(マニュアル、履歴など)を特定したか
- その文書が最新版に揃っているか確認したか
- 古い情報や誤った情報が混ざっていないか確認したか
- 回答に混ぜたくない機密・個人情報を区別したか
- 誰が見てよい情報かを、AIの回答に引き継ぐ方針を決めたか
- 一つの業務から小さく始める想定をしたか
開発会社に確認する質問
| 質問 | 確認したいこと |
|---|---|
| どんな文書がRAGに向いていますか | データの適性 |
| 古い文書や重複をどう整理しますか | データの前準備 |
| 見せてはいけない情報を回答から除けますか | 権限の引き継ぎ |
| 回答の根拠となる文書を確認できますか | 出典の追跡 |
| 一つの業務から小さく始められますか | 段階的な導入 |
| 回答の誤りを直していく運用はどうしますか | 継続的な改善 |
「データをつなげばすぐ使えます」という説明には注意したい。準備と権限設計を抜きに精度を約束する提案は、見直しが要る。
相談前に整理しておくとよい情報
- AIに任せたい業務(問い合わせ対応、マニュアル検索など)
- 読ませたい文書の種類と、それがある場所
- その文書が最新で正確かどうかの心当たり
- 回答に混ぜたくない機密・個人情報の有無
- 誰がその情報を見てよいかの範囲
これらが整理されていなくても相談は可能である。任せたい業務と、読ませたい文書が見えていれば、準備の進め方を一緒に設計できる。
関連記事
よくある質問
Q1. 社内のデータをそのままAIにつなげば使えますか
そのままでは精度が出にくい。古い情報や重複が混ざっていると、AIが誤って答える。最新版に絞り、見せてはいけない情報を除く準備が、回答の質を支える。
Q2. RAGに向いているのはどんなデータですか
マニュアル、議事録、問い合わせ履歴といった文章の形のデータが向いている。逆に、数字を集計して分析する用途は、ダッシュボードなど別の手段のほうが適している。
Q3. AIが機密情報を答えてしまうことはありますか
権限の設計を怠ると起こりうる。AIは渡された文書を区別なく参照するため、見せてはいけない情報が混ざっていると答えてしまう。だからこそ、回答に権限を引き継ぐ設計が要る。
社内データをAIやRAGにつなぐ前の準備を整えませんか
GXOでは、社内データをAIやRAGにつなぐ前に、読ませる文書の整理、品質の確保、見せてよい情報の権限設計を一緒に整理します。一つの業務から小さく始め、回答を確かめながら広げる進め方をご支援します。
※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。
