GXO
RAG・AI検索

AI開発発注の失敗図鑑|社内データが汚いまま発注するリスク

11分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

自社の場合を相談する
COLUMN

AI開発で精度が出ない、費用が膨らむ、納期が延びる。これらの多くは、参照したり学習したりするデータの状態が整っていないことに端を発する。AIは渡されたデータを前提に動くため、データが散在していたり、新旧が混ざっていたりすると、その品質がそのまま回答や予測の品質に表れる。

本記事では、社内データが整理されないままAI開発を発注したときに何が起きるかを、発注者の視点で整理する。データを完璧にしてから発注する必要はない。ただし、どこに整備の手間がかかるかを発注前に把握しておくと、費用と期間の見通しが立ちやすくなる。


結論:完璧なデータより、整備が必要な範囲の把握が先

AI開発の発注前に必要なのは、全社データを完璧に整えることではない。GXOが見積前に確認するのは、AIに使わせるデータの形式、最新版の所在、表記ゆれ、権限、更新責任である。

  • 最初に使う業務データだけに対象を絞る
  • PDF、Excel、スキャン画像、システム出力を分けて棚卸しする
  • 最新版と更新責任者を決め、見積にデータ整備工数を入れる

この整理がないと、発注後にデータ整備の追加費用と納期延長が表面化しやすい。


AI ASSESSMENT

PoC の前に「そもそも使えるか」を30分で見極めませんか?

情シス部門の稟議書作成をサポートする無料の30分壁打ち。ROI 試算シート・失敗要因チェックリストをその場で共有します。

30分壁打ちを予約

「データが汚い」とは具体的にどういう状態か

「データが汚い」という言葉は曖昧なので、具体的な状態に分解しておく。次のような状態は、AI開発の費用と期間に直接影響する。

  • 同じ情報がPDF、Excel、紙のスキャンなど複数の形式で散らばっている
  • 共有フォルダの構成が属人的で、どこに最新情報があるか分からない
  • 同じ文書の版が複数あり、どれが最新か判断できない
  • 顧客名・商品名・部署名などの表記が統一されていない(マスタの不統一)
  • 文書ごとの閲覧権限が整理されておらず、見せてよい範囲が曖昧
  • 情報を更新する責任者が決まっておらず、古いまま放置されている

これらは欠陥ではなく、業務を続けてきた結果として自然に生じる。問題は、整理されていない状態のままAIに渡すと、その分の手間が開発費に乗ることである。


なぜデータの状態が発注後の問題になるのか

データ整備の工数が見積に反映されていない

AI開発では、データの収集・整形・名寄せ・クレンジングが工数の大きな割合を占めることがある。発注時にデータの状態を共有していないと、この工数が見積に入らず、後から「データ整備に追加費用が必要」と判明する。

PDFやスキャン画像は、そのままでは使いにくい

紙をスキャンしただけのPDFや、レイアウトが複雑なPDFは、AIが内容を正確に読み取れないことがある。表が崩れて読み込まれると、回答や集計がずれる。元データがどの形式かによって、前処理の手間は大きく変わる。

マスタの不統一が、回答や集計をぶらす

「株式会社○○」と「(株)○○」が別物として扱われると、集計や検索の精度が落ちる。表記ゆれの統一(名寄せ)は地味だが、AIの出力品質に直結する。

更新責任がないと、精度は時間とともに劣化する

導入時にデータを整えても、更新する人が決まっていないと、情報は古くなり、回答も古くなる。AIの精度は「入れて終わり」では維持できない。


FREE DOWNLOAD

AI導入チェックリスト(PoC 失敗要因 10項目)

情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。

データの状態と、発注前の整理の目安

データの状態AI開発への影響発注前に整理しておくこと
PDF・スキャンが多い読み取り精度が落ちる元データ(Excel・テキスト)の有無を確認
共有フォルダが属人的最新情報を特定できない対象フォルダと最新の置き場所を決める
版が複数ある古い情報を返す最新版を一つに確定する
マスタが不統一集計・検索がぶれる主要な名称の表記ルールを決める
権限が未整理見せてよい範囲が曖昧文書ごとの閲覧範囲を整理する
更新責任が不在精度が劣化する更新の担当と頻度を決める

すべてを発注前に完了する必要はない。「どこに手間がかかるか」を共有できれば、見積と計画の精度が上がる。


どのデータから整えるべきか

データ整備は、すべてを一度に行う必要はない。AIに使わせる範囲と、品質の影響が大きいところから着手すると、限られた手間で効果を出せる。優先順位の付け方には、次のような目安がある。

  • AIが最初に使う範囲を優先する:全社のデータではなく、最初に対象とする業務で参照する文書から整える。範囲を広げるのは、効果を確認してからでよい。
  • 更新頻度が高いものを優先する:価格表や制度のように頻繁に変わる情報は、古いまま使われると影響が大きい。最新版の管理から手を付ける。
  • 検索や集計の軸になる項目を統一する:顧客名や商品名のように、検索・集計のキーになる名称の表記をそろえると、出力の安定に直結する。
  • 元データが残っているものを優先する:編集可能な形式(Excelやテキスト)が残っているデータは整えやすい。スキャン画像しかないものは、後回しにするか、元データの所在を確認する。

この優先順位で進めると、「まず効果が出る範囲を整え、運用しながら広げる」という現実的な計画になる。最初から完璧な整備を目指すと、着手前に費用と期間が膨らみ、AI導入そのものが止まりやすい。

また、整備は一度きりでは終わらない。導入後も情報は増え、変わっていく。誰がいつ更新するかを決めておかないと、せっかく整えたデータも時間とともに劣化する。整備の計画には、初期の整備だけでなく、運用後の更新の担当と頻度まで含めておきたい。


発注前に確認すべき項目

  • AIに使わせたいデータの種類(PDF、Excel、システムの出力など)を洗い出したか
  • その中に、スキャン画像や複雑なレイアウトのPDFが含まれるか確認したか
  • 元データ(編集可能な形式)が残っているか確認したか
  • 対象データの最新版がどこにあるか特定できるか確認したか
  • 顧客名・商品名など、表記がゆれている項目を把握したか
  • データごとの閲覧権限(誰が見てよいか)を整理したか
  • データを更新する担当者と頻度を決められるか確認したか
  • 個人情報・機密情報が含まれるか、含まれる場合の扱いを決めたか

開発会社に確認する質問

質問確認したいこと
データ整備にどれくらいの工数を見込みますか整備工数を見積に含めているか
PDFやスキャン画像はどう扱いますか元データの形式への対応力があるか
表記ゆれ(名寄せ)はどう処理しますかマスタ整備の手順があるか
整備したデータの更新は誰が担いますか運用後のデータ管理を想定しているか
データの一部が未整備でも始められますか段階的に進める設計があるか

データ整備を「発注者側の宿題」として丸投げするのではなく、どこを一緒に整えるかを話せる会社が望ましい。


GXOに相談する前に整理するとよい情報

  • AIに使わせたいデータの種類と、おおよその量
  • そのデータの主な形式(Excel、PDF、紙、システム出力など)
  • 最新情報がどこにあり、誰が管理しているか
  • 表記がゆれていて困っている項目があれば、その例
  • 個人情報・機密情報の有無と、社内の取り扱いルール

データの状態が見えると、整備の優先順位と費用配分を現実的に設計できる。整備の進め方は社内データの品質管理で詳しく扱う。


参考にした外部観点

データ整備はAI開発だけでなく、DX推進全体の土台である。IPAのDX推進指標は関係者間の現状認識をそろえる観点を提供しており、NIST AI Risk Management FrameworkはAIの信頼性やリスクを管理する枠組みとして参考になる。

発注前には、まず30件の代表データ、10件の表記ゆれ、3ヶ月以内に更新される情報、1年残すべきログを洗い出すと、整備範囲と運用負荷を見積に反映しやすい。


関連記事


よくある質問

Q1. データを完璧に整えてから発注すべきですか

完璧を待つ必要はない。対象を絞り、最新版を特定し、表記ルールを決めるだけでも効果は大きい。整備とAI開発を並行して進める設計も可能である。

Q2. PDFしか残っていないデータは使えませんか

使えるが、読み取りの前処理に手間がかかる。元のExcelやテキストが残っていれば、そちらを優先して使うほうが精度も費用も有利になる。

Q3. データ整備の費用はどのくらいを見ておくべきですか

データの量と形式で大きく変わるため、相場を一律に示すことは難しい。見積の内訳に「データ整備」の項目があるかを確認することが、費用を見通す第一歩になる。費用の読み方はAI開発のRFPに入れるべき項目も参考にしてほしい。

Q4. 整備にかける費用と効果は、どう見極めればよいですか

データ整備は手間がかかるため、すべてを完璧にするより、AIの精度に効く範囲から投資するのが現実的である。最初に対象とする業務で使うデータに絞り、効果を確認しながら範囲を広げると、費用対効果を見極めやすい。整備の優先順位は、本文の「どのデータから整えるべきか」を参考にしてほしい。


データの状態を、発注前に棚卸ししませんか

GXOでは、AIに使う社内データの形式、最新版、表記ゆれ、権限、更新責任を棚卸しし、データ整備を見積と計画に反映する支援を行います。

RAG導入前のデータ整理を相談する

※ 初回相談では、営業資料の説明よりも現状整理とリスク確認を優先します。

ISSUE HUB

社内情報を探しやすくしたいの全体像を見る

関連する中カテゴリ・小カテゴリ・記事を横断し、課題の整理、優先順位、解決策をまとめて確認できます。

課題別ハブを見る

CATEGORY CLUSTER

同じ課題で読む

この記事の親カテゴリと近い小カテゴリをたどると、課題の全体像から具体的な解決策まで順に確認できます。

関連 HUB

この記事は以下の業種・悩み hub にも掲載されています。同じテーマの実務ナレッジと支援サービスをまとめてご覧いただけます。

お気軽にご相談ください

AI・DXに関するご質問やお見積もりなど

無料相談する

CONTACT

まずは 無料相談 から始めませんか。

サービスについてのご相談・ご質問などお気軽にお問い合わせください。
※ 営業電話はしません | オンライン対応可 | 相談だけでもOK