駭客如何入侵您的 LLM
坦白說,人工智慧已不再是一項邊緣技術,它已成為現代化企業的一項核心要素,從客戶服務聊天機器人到複雜的資料分析,全部都有它的蹤影。我們經常將 AI 的技術核心:大型語言模型 (LLM) 視為一個可信賴的黑盒子,但就像任何軟體一樣,LLM 也可能遭到篡改、操弄,甚至背叛它的創造者。了解 AI 模型如何遭到入侵,是打造 AI 基礎架構安全與韌性的第一步。
以下介紹駭客入侵 AI 模型、造成它行為無法預測 (甚至有害) 的三種主要情況:
- 將可執行的惡意指令嵌入模型檔案當中。
- 使用有毒的資料重新訓練模型。
- 使用「低秩調適」(LoRA) 來操控模型的行為。
供應鏈攻擊:特洛伊木馬
協同合作促進了 AI 社群的繁榮,例如像 Hugging Face 這樣的平台,它讓下載預訓練模型來作為開發基礎變得方便又容易。然而,如此開放的生態系卻帶來了一個重要的全新攻擊面:駭客再也不需要從頭打造一個惡意的模型,只需誘騙您使用他們駭入的版本即可。
模型檔案中的惡意內容
要了解這項威脅,首先要了解 AI 模型檔案到底是什麼。它不只是一組程式碼,而是一個含有模型「大腦」的資料檔案,就像是一張由數百萬個數字所編織而成的蜘蛛網 (您可能聽過這些數字被稱為「參數」或「權重」),這些數字構成了一個稱為「張量」(tensor) 的結構。為了儲存及分享這個「大腦」,必須經過一個「序列化」(serialization) 程序來將它封裝到單一檔案當中。當另一台電腦要使用這個模型時,必須先將它解開 (也就是「反序列化」,deserialize)。您可以將它想像成經過壓縮、或者變成批次檔案一樣。
而危險就在於這封裝過程,一些較舊的格式,例如 Python 的 pickle,其設計不僅能封裝資料,還能封裝可執行的指令。而這樣彈性卻衍生出一個巨大的資安漏洞:駭客可以將有害的程式碼隱藏在模型檔案當中。當一個不知情的使用者載入這個模型時,他們的電腦不僅會「解壓縮」AI 的大腦,還會解壓縮其中隱藏的指令,而這些可能是任何指令:從「竊取所有密碼」到「安裝勒索病毒」都有可能,這基本上就如同數位板的特洛伊木馬一樣。這正是為何您在載入 pickle 的張量檔案時,務必小心謹慎。
儘管目前已開發出一些較為安全的格式,例如 safetensor (安全張量),這固然有助於降低風險,但模型檔案遭駭客入侵依然是一項根本的疑慮。
惡意的調適器:LoRA 威脅
為了讓模型更適合各種用途,開發人員通常需要針對特定工作來調整模型的行為。傳統的作法是重新訓練整個模型,但這就好像從頭到尾重新開發一台專業相機一樣,既昂貴又耗時。所以便出現了一種較新、較有效率的作法,叫做「低秩調適」(Low-Rank Adaptation,簡稱 LoRA)。
您可以將一個基礎 AI 模型想像成一台高階數位相機。相機本身就是一套既複雜又強大的設備,而 LoRA 檔案就像在相機鏡頭前加上一片特殊的濾鏡一樣。這台相機的核心構造並未改變,但在加上一片小巧輕薄的濾鏡之後,就能立即改變它拍攝出來的照片,就像偏光鏡可以讓天空看起來更藍,而柔焦鏡可以拍出好看的人像。與整台相機比起來,濾鏡既小又便宜,而且可以輕易更換。LoRA 調適器對 AI 模型來說就像是一片濾鏡,只需一個不到原始模型檔案 1% 大小的檔案就能改變其輸出。
這創造了一個新的供應鏈問題:駭客可以散播一個看似無害、實用、又能強化模型某些功能的 LoRA (鏡頭濾鏡) 調適器,但當這個調適器被套用到某個受信任的基礎模型 (相機) 時,就會注入隱藏的後門、造成危險的偏誤,或是觸發資料外傳。此時,傳統的資安檢查根本毫無作用,因為基礎模型並沒有被動到,看起來完全正常。這個 LoRA 調適器也許真能達到其所宣稱的「效益」,只不過會有點不良的副作用,也就是惡意邏輯只會在這微小而容易被忽略的調適器套用時才會觸發。但要偵測出這類未經授權的修改,需要一些新的特殊工具來分析模型的結構和組態設定,以便找出被篡改的痕跡。
資料下毒:汙染真相的源頭
AI 模型會充分反映出它訓練時所使用的資料,所以,如果駭客可以操弄訓練資料,基本上就能在不易察覺的情況下扭曲模型的行為。
後門攻擊
在後門攻擊當中,駭客會注入少量含有特定觸發條件的有毒資料,這會讓模型學習將此觸發條件與惡意行動做連結。例如:
某個存取控管系統的影像辨識模型,有可能被駭客使用了一些隨機的個人照片來下毒,這些照片當中含有幾乎看不見的浮水印,這會讓模型學會一件事:只要遇到任何含有此浮水印的人,就應該授予存取權限。
語言模型同樣也可能被注入後門:當遇到某個特殊的片語時,就會產生有害的內容,或洩漏機密資訊。
模型在所有其他情況下都表現正常,所以後門平常處於休眠狀態,因此幾乎不可能用標準的測試方法發現,它只有在遇到機密觸發條件時才會啟動。
直接入侵模型:未經授權的重新訓練
這種方法比使用調適器更加暴力,假使駭客有能力存取您訓練好的模型,那麼,他們就能直接修改模型檔案內的核心權重,進而重新訓練或微調模型來配合他們的目的。
例如,駭客可以對客戶服務聊天機器人進行重新訓練,巧妙地引導客戶購買競爭對手的產品,或者利用網路釣魚技巧騙取敏感的金融資訊。由於重新訓練的模型是直接衍生自原始的模型,其行為乍看之下一切正常,因此在造成重大損害之前很難被察覺。這突顯出嚴格的存取控管與一致性監控對於訓練好的模型檔案非常重要,例如檢查檔案的雜湊碼來偵測它是否遭到未經授權的變更。
結論:邁向安全的 AI 生命週期
AI 模型的漏洞已經不再是理論空談,而是真實且正在演變的威脅。從隱藏在模型檔案中的惡意程式碼,到資料下毒所產生的後門,AI 的攻擊面非常廣,所以需要多重面向的防禦。
了解這些攻擊之間的差異是關鍵,不論是張量檔案當中嵌入的惡意內容,或是未經授權的重新訓練,這些都是直接篡改核心模型檔案,因此可以透過檔案一致性監控 (例如檢查檔案雜湊碼) 來偵測模型是否還維持可信賴的水準。不過這兩種威脅都能在不變更應用程式程式碼的狀況下部署,其惡意邏輯會在檔案載入時執行。但相比之下,LoRA 攻擊從檔案檢查的角度來看似乎更加隱匿,因為它不會觸碰到基礎模型,所以檢查檔案的雜湊碼變得沒有意義。所幸,我們通常可以看到駭客修改了應用程式的程式碼以便載入惡意調適器,這等於提供了另一種不同的稽核記錄。
保護 AI 供應鏈已不再是一種選項,企業不能再根據模型的來源就輕易相信模型,而是要採取一種「先驗證再信任」的作法,包括:
- 靜態分析:掃描模型檔案和組態設定是否有被篡改的痕跡,或者是否有非預期的調適器。
- 資料完整性: 實施嚴格的資料驗證與淨化流程來防範資料下毒攻擊。
- 存取控管與監控: 將訓練好的模型視為重要的智慧財產,採取嚴格的存取控管與持續監控來偵測未經授權的變更或異常行為。
為確保 AI 的安全與負責的使用方式,不論在任何層面上,AI 防護都必須和傳統網路資安一樣嚴密。