この記事は、AIシステムにデータを渡したあとの「削除・訂正・再学習」リスクを経営・法務・情シス担当者が判断するための実務情報を提供します。
マシンアンラーニング(Machine Unlearning)は、学習済みAIモデルから特定データの影響を削除・無効化する技術です。EU一般データ保護規則(GDPR)が2016年に定めた「忘れられる権利(Right to Be Forgotten)」をAIモデルへ適用する手段として研究が進んでいます。
技術の背景は次のとおりです。大規模言語モデル(LLM)はGPT-4水準で1回の学習コストが報道ベースで数十億円から百億円超の規模(米OpenAIのサム・アルトマン氏は「1億ドル超」と発言)とされ、為替次第で振れ幅はあるものの、特定データを削除するたびにフルスクラッチで再学習することは非現実的です。そのため、再学習なしに特定データの影響を推定して無効化する近似アンラーニング手法や、勾配逆方向更新によるパラメータ修正手法が研究されています。2025〜2026年の論文(arxiv等)では「鍵削除設計」など展開指向の研究も増えています。
ただし、企業が日常利用するSaaS型の商用生成AIサービスでは、学習の制御はベンダー側にあります。企業が自力でモデルパラメータを書き換えることはできません。この記事では、技術の現状を一般化しつつ、企業が実際にとれる対応に絞って整理します。
AIへのデータ渡し方と「消える」「消えない」の違い
企業が生成AIを使う場面は大きく4パターンあり、削除・訂正のリスクと自社の制御可能範囲が異なります。
| 利用パターン | データの流れ | 削除・訂正の可否 | 企業側の制御範囲 |
|---|---|---|---|
| SaaS型チャット(ChatGPT等) | プロンプト→クラウドAPI | ベンダーポリシーに依存 | 学習オプトアウト設定・入力禁止ルール |
| RAG(社内文書検索) | 社内文書→自社管理のインデックス | インデックスから削除可能 | 文書の追加・削除・権限管理を自社が管理 |
| Fine-tuning(自社ファインチューニング) | 学習データ→モデル重み | 完全削除は再学習が必要 | 学習データの選択・モデルの廃棄 |
| 完全自社ホスト型LLM | 全データ→自社サーバ | 再学習またはアンラーニングが必要 | モデルパラメータを含む完全制御 |
最も対応しやすいのはRAG構成です。ベクトルDBや検索インデックスは文書単位で削除・更新ができるため、個人情報保護法に基づく訂正・削除請求への対応が技術的に実装しやすいです。
AI ASSESSMENT
PoC の前に「そもそも使えるか」を30分で見極めませんか?
情シス部門の稟議書作成をサポートする無料の30分壁打ち。ROI 試算シート・失敗要因チェックリストをその場で共有します。
企業が今取り組むべき4つの実務対応
1. 「渡す前の設計」が最も効果が高い
AIに一度渡した情報を確実に消す技術的保証は現時点では存在しません。SaaS型では特にそうです。したがって最も確実な対応は、個人情報・機密情報をAIに渡さないルールと入力禁止の仕組みを先に作ることです。入力禁止情報のリストを作成し、DLPやAPI Gatewayで機械的にフィルタリングする構成が現実的です。
2. RAG構成での削除手順の文書化
社内文書をRAGのインデックスに取り込んでいる場合、個人情報を含む文書の削除・更新手順を文書化します。誰が削除申請できるか、申請からインデックス反映までのSLAを何時間以内とするか、削除後の確認手順を定めます。
3. ベンダー契約での学習利用の確認
SaaS型生成AIを業務利用する際は、入力データがモデル再学習に使われるかどうかをベンダー契約・プライバシーポリシーで確認します。多くの商用サービスはオプトアウト設定またはエンタープライズプランで学習への利用を除外できますが、デフォルト設定が有効な場合があります。契約確認のチェック項目は次の3点です。①入力データの学習利用の有無、②データの保存期間と削除手順、③サービス終了・解約時のデータ返却・削除の証明方法。
4. Fine-tuning・自社ホスト型の場合のデータ管理台帳
自社でモデルをファインチューニングまたはホストしている場合は、学習に使ったデータセットの台帳管理が必要です。後から「このデータを使ったか」を確認できる状態にしておくことで、個人情報保護法の第三者提供記録・訂正対応に備えます。
再学習リスクを「運用事故」として捉える視点
技術的なアンラーニングが困難である現実を踏まえると、企業にとって実務的なリスクは「AIが古い情報・誤情報・削除すべき情報を出力し続ける」ことです。
| リスクシナリオ | 起きること | 対応策 |
|---|---|---|
| 退職者の個人情報がRAGに残存 | 社員検索で退職者の連絡先が出続ける | 退職処理時のインデックス削除手順を人事フローに組み込む |
| 廃棄された規程がAIの回答に使われる | 旧版のルール・金額を回答し業務ミスが発生 | 規程更新時のインデックス更新を文書管理フローと連動 |
| ファインチューニングデータに誤情報が混入 | モデルが誤情報を繰り返し出力する | 学習データのレビュープロセスと評価セットの整備 |
| SaaSベンダーの障害でプロンプト履歴が外部露出 | 入力した顧客情報が漏えいリスクになる | エンタープライズプランの利用・入力禁止ルールの徹底 |
データガバナンスの全体設計はデータ基盤構築ガイドが参考になります。個人情報・機密情報の取り扱いポリシーが未整備の場合は生成AIガバナンス設計ガイドと合わせて整備を進めます。
FREE DOWNLOAD
AI導入チェックリスト(PoC 失敗要因 10項目)
情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。
GXOはどう支援するか
GXOでは、AIに渡すデータの分類設計、RAGインデックスの削除手順の文書化、SaaSベンダーとの契約条件の確認ポイント整理を支援しています。ファインチューニングや自社ホスト型LLMを検討している場合は、学習データ台帳の設計と個人情報保護法対応の観点から要件定義をお手伝いします。「削除できるか」という問いに答えるより、「削除が必要にならない設計」を先に整えることが、中長期のリスク管理として有効です。
よくある質問
Q1. 個人情報保護法の「訂正・削除請求」にAIはどう対応しますか
RAG構成の場合、検索インデックスから該当文書を削除する手順を整備することで対応できます。SaaS型モデルの場合は、ベンダーの学習利用ポリシーと削除手順を確認した上で、そもそも個人情報を入力しないルールを徹底することが先決です。モデル本体の学習データから特定個人の情報だけを削除する技術的保証は現時点では商用サービスでは一般的に提供されていません。
Q2. マシンアンラーニング技術は今すぐ自社に使えますか
2025〜2026年時点の技術水準では、大規模モデルに対する実用的なアンラーニングはまだ研究段階が多く(報道ベース)、エンタープライズ向けの商用ソリューションとして広く流通しているとは言えません。自社ホスト型の小〜中規模モデルでは特定手法の適用が現実的な場合もありますが、判断には技術的評価が必要です。
Q3. Fine-tuningをやめてRAGに切り替えるべきですか
削除・更新の容易さだけを考えればRAGの方が管理しやすいですが、Fine-tuningはモデルの挙動そのものをドメイン特化させる用途に向いており目的が異なります。両者の特性と自社の要件を比較した上で判断します。
参考情報
- 「The Frontier of Data Erasure: Machine Unlearning for Large Language Models」(arxiv、2024):https://arxiv.org/abs/2403.15779(技術背景の参考)
- IPA「AI利用者のためのセキュリティ豆知識」:https://www.ipa.go.jp/digital/ai/security/ai_security_tips.html
- 個人情報保護委員会「生成AIサービスの利用に関する注意喚起等について」:https://www8.cao.go.jp/cstp/ai/ai_senryaku/3kai/kojinjouhou.pdf(参考・注意喚起文書)
- asgent社ブログによるマシンアンラーニング解説(2026年4月):https://www.asgent.co.jp/press/releases/2026/20260421-001896.html(二次報道ベース)
AIへのデータ供給設計と削除手順の整備を一緒に進めませんか
GXOでは、RAGインデックスの削除手順設計、SaaSベンダー契約の確認、入力禁止ルールの整備を通じて、「渡す前の設計」でデータ削除リスクを最小化する支援を行います。
