大規模言語モデル（LLM）はどのようにして侵害されるのか？その対策は？

LLMが侵害されるパターン

AIはいまや、カスタマーサポートのチャットやAI家電、自動車の自動運転など、現在の生活とビジネスにおいて重要なコンポーネントのひとつとなっています。とりわけ、大規模言語モデル（LLM）は日々の業務に欠かせないという人もいるでしょう。しかし、LLMを含む生成AIも、アプリケーションとビッグデータの集合体であるため、脆弱性や設定ミスの可能性があり、攻撃の対象となり得ます。他のソフトウェア同様、改ざんや不正操作を受け、運用者や利用者に脅威をもたらす可能性もあります。AIインフラの安全性やレジリエンスを高めるためには、まずAIモデルがどのように侵害されるかを理解することが重要です。

本稿では、攻撃者がAIモデルに不正な挙動をさせるために用いる手口として、下記の4パターンを解説します。

• モデルファイル内に実行形式の不正な指示を埋め込む。
• 不正な微調整モジュール「LoRA（Low-Rank Adaptation：低ランク適用）」を組み込み、モデルの挙動を改変する。
• 不正なデータの混入（データポイズニング）によってモデルを再学習させる。
• 学習済みモデルへのアクセス権を入手し、モデルを強制的に再学習させる。

ソフトウェアサプライチェーン・リスク：新たな「トロイの木馬」

AIコミュニティは、相互協力を基盤として発展してきました。例えば「Hugging Face」などのプラットフォームを使えば、強力な学習済みモデルを容易に入手し、それをもとに独自の調整を加えることが可能です。しかし、こうしたオープンなエコシステムは、新たなアタックサーフェス（攻撃対象領域）を作り出す場合があります。例えば攻撃者側では、不正なモデルをゼロから構築する必要がなくなり、用意した侵害済みバージョンがダウンロードされるように偽装工作を仕掛ければよいことになります。

モデルファイルに不正な指示を埋め込む

この脅威を理解する上では、まず、AIモデルファイルの仕組みについて知る必要があります。AIモデルファイルの中身は、ただのコードではなく、モデルの「頭脳」に相当するデータです。そこでは膨大なパラメータ（「重み^※」とも呼ばれる）が複雑に絡み合い、「テンソル（Tensor）」と呼ばれる構造にまとめられています。この「頭脳」に相当するデータを保存、共有するためには、それを「シリアライズ」と呼ばれる処理にかけて単一ファイルにパッケージ化する必要があります。別のコンピュータがその保存済みモデルを使用する際には、「デシリアライズ」と呼ばれる操作によって、パッケージの中身を展開します。一連の流れは、ファイルをZIPアーカイブ化し、必要な時に展開する操作に類似します。
※重み（Weight）：AIモデルが学習する際に、入力データのどの特徴をどれほど重要視するかを決める数値のこと。重みが大きければその入力データの影響が強くなり、小さければ影響は弱くなる。

このパッケージ化の工程は、その仕組みに応じて、リスクの発生源となります。従来、テンソルをシリアライズ・デシリアライズする際にPythonのpickleフォーマットなどが用いられていましたが、pickleフォーマットはデータだけでなく、実行形式の指示も保存できる作りとなっていました。こうした柔軟性は、大きなセキュリティホールを生み出すこともあります。攻撃者は、モデルファイル内にたとえば「全パスワードの窃取」や「ランサムウェアのインストール」に相当する不正なコードを隠しこむ可能性があります。実際、Hugging Faceなどの共有プラットフォームで、悪意のあるpickleファイルが発見されるケースが増えていると言われています。ユーザが不用意にそのモデルをロードすれば、モデルの頭脳だけでなく、問題の不正なコードがパッケージから展開されてしまいます。これはちょうど、マルウェアの1タイプである「トロイの木馬」に似ています。危険を回避するためには、pickleなどのテンソルファイルに対して常に警戒心を持つことが重要です。

上述のリスクを低減するために、「safetensor」などの安全面に配慮したフォーマットも開発されています。それでもなお、「モデルファイルの侵害」という脅威は、AI活用における根本的な懸念事項として残り続けています。

微調整モジュール「LoRA（ローラ）」の悪用

AIモデルを利用するにあたり、目標のタスクに応じてモデルの挙動を微調整しなければならないことが多々あります。かつてはそのための手段として、モデル全体の再学習がありました。これには、多大なコストや時間が必要となります。そこで、「LoRA（Low-Rank Adaptation：低ランク適用）」と呼ばれる効率性に優れた手法が発表されました。

LoRAの仕組みについて理解するため、ここでは、ベースのAIモデルを高性能なデジタルカメラにたとえてみましょう。このカメラ自体は、高機能の複雑な装置です。これに対してLoRAファイルは、カメラレンズに取り付ける特殊フィルタのようなものです。カメラの基本構造は変えることなく、この小型軽量フィルタを取り付けるだけで、画像の性質を広範に調整できます。こうしたフィルタは、カメラ本体に比べて小さく安価であり、付け替えも容易です。同様のことをAIモデルに対して行うのがLoRAです。元のモデルの1%にも満たない容量のLoRAファイルにより、AIの出力を調整できるようになります。

こうしたモデルに対する付属要素は、サプライチェーン上の新たな問題を生み出します。例えば攻撃者は、モデルの機能向上を謳って不正なLoRA（レンズフィルタに相当）を正規品に見せかけて配布します。ユーザがそれを正規のベースモデル（カメラに相当）に適用すると、不正なバックドアや危険な出力バイアス、情報流出の仕掛けなどを設置される可能性があります。このようなAIモデルに対する攻撃の可能性を取り上げた論文では、このセキュリティリスクについて「LoRA-as-an-Attack」と表現しています。

上記シナリオの場合、ベースのモデル自体に変更はなく、危険な要素は一切見られないため、従来型のセキュリティチェックは機能しません。LoRAが謳う機能自体は本物かも知れませんが、裏では有害な仕掛けが埋め込まれます。その仕掛けは、小さくて見落とされがちなLoRAをモデルに適用した時にしか作動しません。この種の不正を見抜くには、モデルの構造や設定にまで踏み込んだ解析を行い、危険な改変を検知できる新たな専用ツールが必要となるでしょう。

データポイズニング：信頼の拠り所となるデータを改ざん

AIモデルの出力は、学習時に投入されたデータを反映したものとなります。もし攻撃者が学習データ自体を編集できれば、極めて検知されにくい形でモデルの挙動を改変できると考えられます。

バックドア攻撃

英国AI Security Institute、アラン・チューリング研究所、Anthropicでは、データポイズニングの共同研究結果を発表しました。発表によると、LLMはインターネット上の膨大な量の公開テキストで事前学習を行っていますが、悪意ある人物が特定のテキストをオンラインコンテンツに挿入することにより、モデルに危険な行動を学習させる可能性があるということです。

その一例として、バックドアが挙げられます。バックドアとは、モデルによる特定の動作をトリガーするフレーズのことで、通常は隠蔽されます。トリガーを含む少量の不正なデータをモデルに投入し、学習をさせます。学習後のモデルは、当該のトリガーを受け取った際に、有害な動作を行うようになります。
秘密のトリガーを受け取らない限りバックドアは起動せず、モデルは至って正常に動作します。この隠された仕掛けを標準的なテストで検知することは、極めて難しいと考えられます。

さらに同研究では、130億パラメータのモデルであれ、6億パラメータのモデルであれ、LLMの規模に関わらずわずか250件程度の悪意ある文書で、このバックドアの脆弱性が生じる可能性が指摘されています。

直接的なモデル侵害：不正な再学習

次に紹介する攻撃は、前述のLoRAを悪用したパターンよりも、直接的で強引なやり方と言えます。仮に攻撃者が学習済みモデルへのアクセス権を入手した場合、そのモデルファイルに記載された重み値などを目的に合わせて直接的に書き換えることで、再学習やファインチューニングを強制実行する可能性があります。

例として、攻撃者が顧客サービス用チャットボットのモデルを再学習させ、さりげなく顧客ユーザを競合相手の製品に誘導したり、機密性の高い金融情報を引き出すように挙動を改変したりするケースが挙げられます。再学習後のモデルは、元のモデルを直接的な前身としているため、その挙動から不審な点を読み取りにくく、実害が出るまで発覚しない恐れもあります。こうした問題を回避するためにも、学習済みの各種データに対して厳格なアクセス制御や整合性モニタリングを行うことが重要です。例えば、ファイルのハッシュ値を照合することで、不正な変更を検知できる可能性が高まります。

まとめ：AIのライフサイクルを守るために

AIモデルを狙った攻撃手段は、机上の空論ではなく、実際に存在し、進化し続ける脅威です。モデルファイルに仕込まれた不正なコードから、データポイズニングによって秘密裏に仕掛けられたバックドアに至るまで、アタックサーフェースは広範に及びます。これを阻止するためには、多面的な防衛策が求められます。

防衛策を組む上では、さまざまな攻撃手段の性質を知ることが重要です。「モデルファイルへのペイロード埋め込み」も「不正な再学習」も、中枢のモデルファイル自体を直接改ざんします。そのため防御側では、信頼できる正規バージョンを退避保存している限り、モデルファイルの整合性モニタリング（ハッシュ値チェックなど）によって不正を検知できます。ただし、アプリケーション側のコード変更や再デプロイがないため、モデルファイルのリロード時に不正な仕掛けが自動適用されてしまう点で、脅威となります。

反対に、「LoRAを悪用した攻撃」では、ベースモデルの変更が一切なく、モデルファイルのハッシュ値照合では検知できないなど、ファイルチェックに対して秘匿性が高い点で脅威となります。一方、不正なLoRAを読み込ませるためにアプリケーション側のコード変更を伴うことが多く、別の監査証跡が残される点が、防衛上の助けとなるでしょう。

AIサプライチェーンの保護は、もはや選択肢ではなく必須事項です。企業や組織では、モデルの提供元だけを根拠に信頼するのではなく、「検証した上で信頼する」というアプローチをとることが推奨されます。その具体策を、下記に示します。

• 静的解析：モデルファイルや設定内容をスキャンし、想定外のモジュール追加や改ざんの兆候を検知する。
• データ整合性：ポイズニング攻撃への対策として、厳密なデータバリデーションやサニタイジングのパイプラインを導入する。
• アクセス制御と監視：学習済みモデルを重要知的財産として扱い、厳密なアクセス制御や継続的な監視を通じて不正な変更や不審な挙動を検知できるようにする。

AIを安全かつ責任ある形で活用するためには、AIセキュリティを決して軽んじることなく、他のサイバーセキュリティ同様の規律や厳格さをもって取り組むことが重要です。

本記事は2025年9月24日にUSで公開された記事「This Is How Your LLM Gets Compromised」をもとにしています。

＜関連記事＞
・オープンソースAIへの信頼を突く攻撃：サプライチェーンの隠れたリスク
・「OWASP Top 10 for Large Language Model Applications」2025年版のリスク概説