AI開発で予算が膨らみ、納期が後ろにずれる。その原因の多くは、モデルを作る工程ではなく、その前段にある。AIに学習させる教師データを集め、ラベルを付け、形式をそろえる。この人的な作業の工数が見積もりに入っていないと、開発の途中で「データ準備にもう少し時間と費用が要る」という話が必ず出てくる。

本記事では、教師データ作成・アノテーション・前処理の工数を見積もりに入れずに発注したとき、なぜ予算超過が起きるのかを、発注者の視点で整理する。扱うのは工数とコストの軸である。データそのものの品質を扱う回とは別に、「人が手を動かす作業がどれだけ発生するか」を見積もりにどう反映するかに絞って解説する。


結論:精度の前提はモデルより前段の人的工数にある

教師データの作成・アノテーション・前処理は、AI開発において見積もりから抜け落ちやすく、抜け落ちたときの予算インパクトが大きい工程である。GXOが見積もりを確認するとき、モデルの種類より先に見るのは、誰が・どのデータに・どれだけの手作業を加えるのかという点である。

  • 教師データの作成とラベリングは「人が手で行う作業」であり、データ量に比例して工数が増える
  • 前処理(重複除去・形式統一・欠損補完など)の工数は、元データの状態で大きく変わる
  • アノテーションは一度では終わらず、基準のすり合わせと再作業を見込む必要がある
  • これらを「AI一式」に含めたまま発注すると、後から追加費用と納期延長として表面化する

工数の絶対値は案件ごとに大きく異なるため、相場を一律に示すことは難しい。重要なのは、データ準備工程が見積もりの中で独立した項目として見えているかどうかである。本連載の全体像はAI開発発注の失敗図鑑(特集トップ)にまとめている。


教師データ作成・前処理とは具体的に何の作業か

「教師データを用意する」という一言には、複数の異なる作業が含まれている。見積もりで工数を読み違えないために、まず作業を分解しておく。

教師データの収集

学習や評価に使うデータを集める作業である。社内に散在しているファイルを集約したり、不足している事例を新たに集めたりする。必要な事例が社内に十分あるとは限らず、量が足りなければ収集自体に工数が発生する。

アノテーション(ラベリング)

集めたデータに、AIが学習できる形で「正解」を付与する作業である。文章の分類、項目の抽出、画像内の対象の指定など、用途によって作業内容は変わる。いずれも人が一件ずつ判断して付与するため、データ量がそのまま工数に直結する。

前処理

データの形式をそろえ、AIが扱える状態に整える作業である。重複の除去、表記の統一、欠損値の扱い、不要な情報の削除、形式の変換などが含まれる。元データが整っているほど軽く、散らかっているほど重くなる。

品質チェックと再作業

付与したラベルや整えたデータが、基準どおりかを確認する作業である。基準の認識がずれていれば付け直しが発生する。アノテーションは一度で完了せず、基準のすり合わせと再作業を前提に置くべき工程である。

これらはどれも、モデルを学習させる前に必要になる人的作業である。AIの精度は、この前段の質と量に強く依存する。前段が薄いまま開発を進めると、モデルをどれだけ調整しても精度が頭打ちになる。社内データを起点に学習基盤を整える観点は、データ基盤の構築支援の領域とも重なる。


なぜ工数が見積もりから抜け落ちるのか

「AI開発=モデルを作ること」という思い込み

発注側も開発側も、関心がモデルの性能に向きやすい。その結果、見積もりの議論がモデルの種類や精度に集中し、その手前にある教師データの作成・整備の工数が軽く見積もられる。実際には、人手のかかる前処理やアノテーションが全体工数の相当部分を占めることも珍しくない。

データ量と工数が比例することが意識されにくい

アノテーションは一件あたりの作業を、対象データの件数だけ繰り返す。件数が増えれば工数は線形に増える。「データを増やせば精度が上がる」という発想だけで件数を増やすと、その分のラベリング工数も増える。量の話と工数の話は連動しているが、見積もりの段階では切り離して語られがちである。

元データの状態が見えていない

前処理の重さは、元データの状態に大きく左右される。スキャン画像しかない、形式がばらばら、欠損が多いといった状態だと、整える工数は跳ね上がる。発注前に元データの状態を共有していないと、開発側は楽観的な前提で工数を置き、着手後に乖離が表面化する。元データの品質そのものについては連載第3回の社内データが汚いまま発注するリスクで扱っている。本記事はそれを「人的工数とコスト」として見積もりに反映する側面に絞る。

反復と再作業が計画に入っていない

アノテーションの基準は、最初から完璧には決まらない。作業を進める中で判断に迷う事例が出て、基準を見直し、付け直す。この反復を「やり直し」ではなく「必要な工程」として計画に入れていないと、再作業のたびに予定が押す。


見積もりに教師データ工数が入っているかの確認表

提案された見積もりが、データ準備工程をどこまで明示しているかを次の観点で確認する。各行が独立した項目として見えていれば、予算超過のリスクは下げられる。

確認したい工程見積もりに入っているか確認する点抜けていたときに起きること
データ収集必要な事例数と、不足分の収集工数があるか学習データ不足で精度が頭打ちになる
アノテーション件数に応じたラベリング工数が積まれているか着手後に「ラベル付けは別費用」と判明する
前処理元データの状態を前提に工数を置いているか整備に想定外の期間と費用がかかる
品質チェックラベルの確認・修正の工数があるか精度のばらつきが運用後に表面化する
基準すり合わせ・再作業反復を見込んだ工数になっているかやり直しのたびに納期が後ろにずれる
運用後の追加学習本番後のデータ追加・再ラベリングを想定しているか精度を維持する手段がなく劣化する

すべての工数を発注前に確定する必要はない。ただし、これらが「AI一式」にまとめられて見えない状態だと、後から追加費用として現れやすい。見積もりの内訳に教師データ・前処理の項目があるかどうかが、最初の分かれ目になる。


工数とコストを読み違えないための考え方

量を増やす前に「効く範囲」を見極める

データは多いほどよいとは限らない。対象業務に効くデータを見極めず量だけ増やすと、アノテーション工数だけが膨らむ。最初に対象を絞り、少量で効果を確認してから範囲を広げると、限られた工数で前に進められる。AIで何を実現したいかを起点に学習データの範囲を設計する観点は、AI開発・生成AI導入の要件定義と一体で考えるとよい。

社内で担う作業と外部に委ねる作業を分ける

教師データの作成には、業務知識が必要な判断と、手順化できる単純作業が混在する。正解の基準を決める部分は社内でないと判断できないことが多く、決まった基準に沿って付与する部分は外部に委ねやすい。この線引きを発注前に整理すると、工数の配分と費用の見通しが立てやすくなる。

一度で終わらせず段階に分ける

教師データの整備は、初期に一括で完成させるより、運用しながら追加・修正していく前提のほうが現実的である。初期に必要最小限を整え、運用後に誤りや不足が見えた箇所を補強する。段階に分けることで、初期費用の山を抑えつつ、精度を維持する仕組みを作れる。

「データを用意するのは誰か」を契約前に決める

教師データを社内が用意するのか、開発会社が支援するのかで、見積もりの金額も責任の所在も変わる。これを曖昧にしたまま進めると、「データはそちらで」「そこは含んでいない」というすれ違いが起き、工数の押し付け合いになる。誰がどこまで担うかを契約前に決めておきたい。


発注前に確認すべきこと

  • AIに学習・評価させるデータの種類と、おおよその件数を把握したか
  • その中でアノテーション(ラベル付け)が必要なデータがどれか確認したか
  • 元データの状態(形式・欠損・表記ゆれ)を共有したか
  • 教師データ作成・前処理が見積もりに独立した項目として入っているか確認したか
  • ラベリングの基準を誰が決め、誰が付与するかを整理したか
  • 基準のすり合わせと再作業の工数が計画に含まれているか確認したか
  • 社内で担う作業と外部に委ねる作業の線引きを決めたか
  • 運用開始後のデータ追加・再ラベリングの想定があるか確認したか
  • データに個人情報・機密情報が含まれる場合の取り扱いを決めたか

GXOに相談する前に整理しておくとよい情報

  • AIで実現したいことと、その判断に使われるデータの種類
  • 学習・評価に使えそうなデータの、おおよその件数と形式
  • 社内に正解の基準を判断できる担当者がいるか
  • 元データの状態(編集可能な形式が残っているか、スキャン画像中心かなど)
  • 個人情報・機密情報の有無と、社内の取り扱いルール
  • データ準備にかけられる社内の人員と期間の見込み

これらが見えていると、教師データ作成・前処理の工数を見積もりに反映し、予算と納期を現実的に設計しやすくなる。データを集める段階から学習に使える状態へ整える流れは、データ基盤の構築支援と合わせて検討すると全体像がつかみやすい。発注可否そのものに迷う場合は、AI導入可否のアセスメントで対象業務とデータの実現性を先に確認する方法もある。


補足:実務上の注意点

教師データの工数は、見積もりの段階で正確な絶対値を出すことが難しい。元データを実際に開いてみるまで、前処理の重さは読み切れないことが多いためである。だからこそ、金額を一発で確定させようとするより、少量のデータで実際に作業してみて、一件あたりの工数感をつかんでから全体を見積もる進め方が現実的である。発注前に代表的なデータを少量だけ整えてみると、全体の工数とコストの解像度が上がる。

また、教師データの質は作業者の判断のばらつきに左右される。同じデータでも、人によってラベルの付け方が変わると、AIが学習する基準もぶれる。基準書を用意し、判断に迷う事例を共有し、付与結果を相互に確認する。こうした品質を保つ仕組みがあるかどうかも、工数とともに確認しておきたい点である。

精度を維持する観点も忘れてはならない。AIは導入時点のデータで固定されるわけではなく、業務や対象が変われば、新しいデータの追加と再ラベリングが必要になる。初期の教師データ作成だけでなく、運用後の更新まで含めて工数を見ておくと、本番後に精度が静かに劣化していく事態を避けやすい。見積もりを「AI一式」のまま受け取らず、工程ごとに分解して読む姿勢が、結果として予算超過を防ぐ。見積もりの分解の考え方は連載第4回の見積書の「AI一式」が曖昧になる理由、初期費だけで判断する危うさは第16回の本番で破綻するランニングコストも合わせて参照してほしい。


関連記事


よくある質問

Q1. 教師データはどのくらいの件数を用意すればよいですか

必要な件数は、扱う業務や用途によって大きく変わるため一律には示せない。重要なのは、最初から大量に用意することではなく、対象を絞って少量で効果を確認し、足りない範囲を追加していくことである。件数を増やせばアノテーション工数も増えるため、量と工数を連動させて計画したい。

Q2. アノテーションは外部に委託できますか

決まった基準に沿って付与する作業は外部に委ねやすい。一方、正解の基準そのものを決める部分は、業務を理解している社内の担当者でないと判断が難しいことが多い。基準づくりは社内、付与は外部支援、というように作業を分けて考えると、工数と費用の配分が整理しやすくなる。

Q3. 教師データの工数を、発注前に正確に見積もれますか

正確な絶対値を発注前に確定することは難しい。前処理の重さは元データを実際に開くまで読み切れないためである。代表的なデータを少量だけ先に整えて一件あたりの工数感をつかみ、それを基に全体を見積もる進め方が現実的である。見積もりに教師データ・前処理の項目が独立して入っているかを確認することが第一歩になる。

Q4. 一度作った教師データは作り直しが必要ですか

業務や対象が変われば、新しいデータの追加や再ラベリングが必要になる。AIは導入時点のデータで固定されるわけではなく、運用しながら精度を保つ前提で考えるべきである。初期の作成工数だけでなく、運用後の更新工数も見積もりに含めておくと、本番後の精度劣化を避けやすい。


発注前チェックリスト(全30項目・無料):本連載の30類型を1枚で点検できるチェックリストを無料ダウンロードできます。発注前の社内確認・稟議の添付資料にご利用ください。

GXOでは、教師データ作成・アノテーション・前処理の工数を見積もりに反映し、予算と納期を現実的に設計する支援を行っている。データ準備の工数が見えずに不安があれば、無料相談から現状の整理を始めてほしい。