Artificial Intelligence (AI)
AIエージェントと脆弱性 PART 3:データ送出
本稿では、マルチモーダルAIエージェントにおいて一見無害な画像やドキュメント内の隠された指示によって機密データが持ち出される危険性について検証を含めて解説します。
AIエージェントがサイバー攻撃の入り口になる可能性はあるのでしょうか?コードを実行できる大規模言語モデル(LLM)が乗っ取られ、有害なコマンドを実行させられることはあるのでしょうか?Microsoft Officeのドキュメント内に隠された指示によって、AIエージェントが機密情報を漏えいしてしまうことはあるのでしょうか?攻撃者がデータベースのクエリを巧みに操作して、制限された情報を引き出すことはどれほど容易なのでしょうか?こうした問いは、現在のAIエージェントが直面している根本的な課題です。本稿ではデータ送出のリスクの中でも特に間接的プロンプトインジェクション、つまり画像やドキュメント内の隠された指示によって機密データが持ち出される危険性について解説します。
本記事のポイント
- 間接的プロンプトインジェクションは、ウェブページ、画像、ドキュメントなどの外部ソースを利用して、AIエージェントを密かに操作します
- テキストや画像など複数の形式の入力を解釈できるAIエージェントは、コンテンツ内に隠されたプロンプトベースの攻撃に対して、ますます脆弱になりつつあります。こうした脆弱性により、ユーザーの操作なしに機密データが持ち出されるおそれがあります
- トレンドマイクロが開発した概念実証用AIエージェント「Pandora」は、MS Wordドキュメントなどに埋め込まれた悪意あるペイロードを処理し、有害なコードを実行できてしまうことを示しており、サービスレベルでの防御策が不可欠であることを浮き彫りにしています
- 組織は、AIを活用したシステムにおいて、データ漏えいや不正な操作のリスクを軽減するため、アクセス制御、高度なフィルタリング、リアルタイム監視システムなど、厳格なセキュリティ対策を講じる必要があります
- 本稿で紹介するAI エージェントの課題に関する詳細についてはこちらのリサーチペーパーをご覧ください
AIシステムが日常生活に深く組み込まれる中で、間接的プロンプトインジェクションが重大な脅威として浮上しています。直接的プロンプトインジェクション攻撃とは異なり、間接的プロンプトインジェクションはウェブページやダウンロードしたドキュメントなど無害に見える外部ソースを起点として発生し、AIエージェントに対して有害または意図しない動作を引き起こす危険性があります。これは、大規模言語モデル(LLM)やLLMを基盤とするAIエージェントは「正規のユーザー入力」と「悪意ある注入プロンプト」を区別できていないという課題があることを示しています。この「課題」は攻撃者に悪用される危険があることから、広い意味での「脆弱性」と見なすことができます。
本稿では、このリスクがマルチモーダルAIエージェントにおいてどのように深刻化するかを示します。一見無害な画像やドキュメントに埋め込まれた隠された指示が、ユーザーの操作なしに機密データの持ち出しを引き起こす可能性があるのです。こうした隠されたプロンプトベースの攻撃に対して、エージェントレベルでの防御策や積極的なセキュリティ戦略の必要性が改めて強調されます。
ウェブページ、画像、ドキュメントを利用した間接的プロンプトインジェクション
間接的プロンプトインジェクションとは、外部のデータ ― たとえばウェブコンテンツ、画像、ドキュメントなど ― に悪意ある指示を隠し、それによってAIの挙動をユーザーの知らないうちに操作するステルス型の攻撃手法です。これらの攻撃は主に、ウェブベース、画像ベース、ドキュメントベースの3つに分類されます。
ウェブベースの攻撃
AIエージェントがウェブサイトを解析する際、ページ内に埋め込まれた悪意あるプロンプトを解釈してしまう可能性があります(例:メモリに保存されたデータを攻撃者のメールアドレスに送信するなど)。サービスが外部通信やメール送信を許可している場合、APIキーや連絡先情報などの機密情報が漏えいするおそれがあります。
画像ベースの攻撃(ゼロクリック型エクスプロイト)
GPT-4oのようなマルチモーダルモデルは、見た目では空白に見える画像からでも、隠されたテキストを抽出できます。このような画像がアップロードされると、ユーザーの操作がなくてもモデルがその隠れた指示に従ってしまうことがあり、重大なセキュリティリスクとなります。

ドキュメントベースの攻撃
ChatGPTはドキュメントのアップロードに対応しており、Microsoft Wordなどのアプリケーション内にある隠されたテキストも抽出できます。たとえば「CTRL+SHIFT+H」などの書式設定を用いて「非表示」とされたテキストであっても、モデルはそれを読み取り、指示に従って動作する可能性があります。これにより、目に見えない形でのプロンプトインジェクションが成立してしまいます。
こうしたシナリオは、間接的プロンプトインジェクションによるデータ流出を防ぐために、厳格なアクセス制御、モニタリング、プロンプト検証などの対策を講じる必要性を浮き彫りにしています。
何がリスクにさらされているのか?
LLMサービス内に保存されている機密情報は、攻撃者にとって非常に魅力的な標的となります。これには、ユーザーとの会話内容、アップロードされたドキュメント、システムが保持するよう指示された永続メモリ内の情報が含まれます。こうした攻撃で狙われやすい代表的なデータには、以下のようなものがあります。
- 個人情報:氏名、メールアドレス、電話番号、社会保障番号(SSN)
- 財務情報:銀行口座情報、クレジットカード番号
- 健康記録:保護対象の健康情報(PHI)
- 企業秘密:企業の機密情報、戦略的計画、財務報告書
- 認証情報:APIキー、アクセストークン、パスワード
- アップロードファイル:機密性の高いビジネス文書、政府関連資料、独自の研究資料
ChatGPTのデータアナリスト機能
隠された指示が埋め込まれた文書は、コード実行をサポートするAIエージェントやツールに対して深刻な脅威となります。たとえばChatGPTのデータアナリスト機能では、このようなファイルがアップロードされると、埋め込まれたペイロードが正当なプロンプトと解釈され、意図せず実行されてしまう可能性があります。その結果、スクリプトが不正に実行され、攻撃者がユーザーデータにアクセスできるようになり、その情報が外部にエンコードされて送信されるおそれがあります。
たとえば、悪意あるペイロードが仕込まれたMicrosoft Wordドキュメントがアップロードされると、ChatGPTがコードを実行し、文書の内容を抽出してしまうことがあります。このような実行が行われたのは、システム設定でコード実行機能が手動で有効化されていたためです。通常はこの機能はデフォルトで無効になっており、リスクを軽減する設計になっています。
AIエージェントには通常、動的に生成されたURLへのアクセスを制限するために、悪用検知システムやルールベースのフィルターなどの保護機能が組み込まれていますが、こうした対策も回避される可能性があります。攻撃者は、既に知られているドメインや侵害されたドメインを悪用することで、通常のブロックリストをすり抜け、外部との接続を確立してデータを漏えいさせることができます。
高い普及率を持つドメインが侵害され、それが利用されることで既存の制限を回避できるという可能性は、データセキュリティに対する大きな懸念を生じさせます。サービスレベルでの有効な安全策が欠如している状況では、攻撃者が間接的プロンプトインジェクションを利用して機密データを持ち出すことが現実的に可能となり、知られることなく機密情報にアクセスし、抽出できてしまう恐れがあります。


Pandora
Pandoraは、先進的なAIシステムに関連する新たなセキュリティリスクを検証するために、トレンドマイクロのFTR(Forward-looking Threat Research)チームが開発した概念実証(PoC)用のAIエージェントです。制限のないコード実行やインターネットアクセスといった機能を備えており、これらはすべてDockerベースのサンドボックス環境内で動作します。この構成により、Pandoraは動的にコードを実行したり、外部のURLとやりとりしたりすることが可能となっています。
あるテストシナリオでは、「CV – Actor.docx」と名付けられた悪意あるWordドキュメントをアップロードした際に、PandoraがMULTIMODAL_CONTEXTイベントを発生させました。これは、ChatGPTのようなAIシステムがアップロードされたファイルを処理する際、内容を抽出し、文脈に応じたプロンプトを生成する様子を模擬したものです。
このドキュメントにはPythonのペイロードが埋め込まれており、それが抽出されて表示されたことから、システムがファイルの内容を処理し、動作ロジックの一部として認識したことが確認されました。

その後、細工されたユーザーのクエリによって悪意あるペイロードが作動し、Pandoraの環境内で埋め込まれたPythonコードが実行されました。その結果、機密データがコマンド&コントロール(C&C)サーバへ持ち出されました。

やりとりは、Pandoraが「Task complete(タスク完了)」というメッセージを返すことで終了しました。これはペイロードに仕込まれたコードによって出力が制御された結果です。この一連の事例から明らかになるのは、GPT-4oのような堅牢な基盤モデルを使用していても、サービスレベルの防御策が欠如していれば、依然として脆弱性が生じうるという点です。Pandoraは、基盤モデルの性能に依存するだけでは不十分であり、より包括的なガードレールの必要性を強く示す存在となっています。
まとめ
AIエージェントや大規模言語モデル(LLM)は大きな可能性を秘めていますが、適切に保護されていない場合には、悪意ある攻撃に悪用されるリスクもあります。中でも、マルチモーダル機能と組み合わさることで従来の防御をすり抜ける、間接的プロンプトインジェクションは極めて深刻な懸念のひとつです。
こうした課題に対応するには、アクセス制御の徹底、高度なコンテンツフィルタリングの導入、リアルタイムでの監視体制の構築といった、積極的なセキュリティアプローチが求められます。これらの対策は、データの漏えいや不正な操作、その他AIを利用した悪用を防ぐために不可欠です。
AIシステムが進化するにつれて、それを取り巻くセキュリティ対策も高度化させていく必要があります。安全かつ責任あるAIの導入には、モデルそのものの性能だけでなく、その利用を制御するサービスレベルでの防御策の強度が問われます。
間接的プロンプトインジェクションの脅威に対処するには、包括的かつ多層的なアプローチが必要です。
組織は、以下のような対策を検討するべきです。
- 未検証または潜在的に有害なURLへの接続を防ぐため、ネットワークレベルでの制限を実施すること。
- アップロードされたコンテンツに隠された指示を検出するため、高度なフィルターを適用すること。
- 視覚コンテンツ内の隠れたテキストを検出するため、OCR(光学文字認識)や画像強調技術を活用すること。
- 埋め込み型コマンドの試行を識別・無効化するため、モデレーションシステムや脅威検知モデルを導入すること。
- 危険性のあるプロンプトを取り除く、あるいは分離するため、ユーザー入力のクリーニングと前処理を行うこと。
- すべての対話を記録し、不正な利用の兆候となる不規則または疑わしい挙動がないか、AIモデルの振る舞いを継続的に監視すること。
本記事は、実際に確認されたAIエージェントの脆弱性を取り上げ、その潜在的な影響について評価するシリーズの第3回目です。その他のシリーズもあわせてご覧ください。
PART 1:AIエージェントの脆弱性について:AIエージェントにおけるプロンプトインジェクションや不正なコード実行といった主要なセキュリティリスクを紹介し、今後の議論の基盤として、データ持ち出し、データベースの悪用、防御戦略といったテーマの構成を示しています。
PART 2: コード実行の脆弱性:攻撃者がLLMベースのサービスの脆弱性を悪用して、サンドボックス制限を回避し、不正なコードを実行する手口について掘り下げています。さらに、エラーハンドリングの欠陥を利用することで、情報漏えい、不正なデータ転送、実行環境への持続的なアクセスといったリスクが生じることを解説しています。
PART 4: データベースアクセスの脆弱性:SQLインジェクション、保存されたプロンプトインジェクション、ベクターストア汚染といった手法を通じて、攻撃者がLLMと統合されたデータベースシステムを悪用し、制限付きデータを取得したり、認証メカニズムを回避したりする手口を取り上げています。プロンプトの操作によってクエリ結果を意図的に変えたり、将来のクエリに影響を与える持続的な攻撃コードを挿入したりする可能性についても詳しく説明しています。
PART 5: AIエージェントの防御策:こうした攻撃ベクトルに対応するための包括的な対策ガイドを紹介します。入力のサニタイズや堅牢なサンドボックス環境の構築、厳格な権限管理など、AIアプリケーションを守るための実践的なアプローチを提示します。
参考記事:
Unveiling AI Agent Vulnerabilities Part III: Data Exfiltration
By Sean Park (Principal Threat Researcher)
翻訳:与那城 務(Platform Marketing, Trend Micro™ Research)