網路資安威脅
Codex 揭密:怎樣的低階語言才會超過它的極限?
我們藉由一系列的部落格文章,從多個面向探討 Codex 的功能在資安上可能影響一般開發人員和駭客的特點,本文是該系列文章的第二篇。
2020 年 6 月,非營利人工智慧研究機構 OpenAI 推出了第三版的 Generative Pre-trained Transformer (GPT-3) (生成式預先訓練轉換器) 自然語言轉換器,在科技界掀起了一番波瀾,因為它具備神奇的能力,可產生足以讓人誤認為是真人撰寫的文字內容。不過,GPT-3 也曾針對電腦程式碼來做訓練,因此最近 OpenAI 釋出了一套專為協助程式設計師 (或者可能取代程式設計師) 的特殊引擎版本叫作「 Codex」。.
我們藉由一系列的部落格文章,從多個面向探討 Codex 的功能在資安上可能影響一般開發人員和駭客的特點,本文是該系列文章的第二篇。(第一篇。)
由於 Codex 是以 GPT-3 為基礎,因此已先經過網際網路上的大量程式碼訓練完成,且涵蓋了幾乎每一種目前可取得的程式設計語言。不過,自然語言和程式設計語言在特性上並不相同。一般來說,自然語言在傳達人類想法時的彈性較大,而程式設計語言則結構較為固定、規則較為嚴謹,且完全視程式語言的解譯器和組譯器而定。
在高階程式設計語言方面,我們很自然地會認為針對自然語言處理而設計的 GPT-3 統計模型應該也可以用來產生高階程式設計語言的程式碼。然而 Codex 缺乏真正「理解」程式語言的必要元素,例如有關語法的結構或是電腦的架構。
那麼,這樣的程式碼產生功能到底能發揮到多少實用性呢?
模仿遊戲:Codex 理解低階程式碼的能力
為了評量 Codex 對其所產生的程式碼到底有多深的理解,我們測試了它對組合語言的理解能力。我們刻意挑選與自然語言最不像、但卻最貼近機器的組合語言。我們試著提供一段組合語言程式碼範例給 Codex,然後看看它能不能用一般語言來解釋這段程式碼。
當我們提供一段用 x86 組合語言撰寫的典型「Hello, World!」程式碼然後要求 Codex 解釋這段程式碼時,我們得到了一份詳細的程式碼解說,包括:個別暫存器的用途,甚至還包括如何組譯這段程式碼的指示。
不過,Codex看來似乎並非是在真正了解程式碼的運作之後才產生出這些說明,而是從某個討論「Hello, World!」組合語言教學範例中擷取出這些內容。
為了驗證這點,我們稍微修改了一下程式碼,例如將「Hello, World!」這串字拿掉,讓它看起來像是一般的組合語言程式碼 (只是不再運作)。
同樣地,我們得到的程式碼「說明」還是取自「Hello, World!」程式的組合語言教學範例,即便我們提供的程式碼已經不算是真正的「Hello, World!」程式。
Codex 在這範例中證明了它不具備理解程式碼的能力,它只是經過了某些複雜的「特徵比對」運算之後產生出最像我們所要的程式碼。Codex 並非真的理解程式碼在做什麼,因為它的模型並無任何運算架構方面的資訊。它只是「模仿」得像是具備程式設計的能力,從訓練好的模型中找到最接近使用者要求的內容。
為了再次驗證這點,我們又修改了一下程式碼。這次,我們嘗試在程式碼中加入一個從 1 數到 100 的計數器。我們這次不要求 Codex 解釋程式碼的運作,而是要求它將程式碼翻譯成另一種較不常見的程式設計語言。
Codex 又再次引用「Hello, World!」的範例,因為在它的經驗中,這是最接近我們要求的程式碼。雖然 Codex 對於一些較鮮為人知的程式語言也有相當的涉略,但仍未發展到可以對電腦運算知識有深入理解的程度。
二進位內容元解析
然而,這並不表示 Codex 完全沒用。Codex 很明顯地可以當成一種彈性的特徵比對工具,足以應付所有程式碼相關的工作,這一點可以好好加以善用,即便是較低階的應用。
在以下範例當中,我們示範 Codex 確實有能力解析和辨認二進位格式的程式碼,只要是寫成十六進位數字形式即可,甚至可以判斷某段二進位程式碼是來自哪一個函式庫。
結論是,當討論 Codex 對於程式碼的理解與撰寫能力時,很重要的一點是抱持正確的期待。雖然一套強大精密的特徵比對系統在我們撰寫一些通用、重複、浪費時間的標準程式碼時,會是個不錯的輔助工具,並可提供足夠的彈性來針對個別情況加以調整,但這跟一套靜態程式碼分析器的能力還得很遠,不過相信這在不久的將來應該還是有機會實現。
資料解析器
Codex 所缺乏的,還不光只是底層運算架構的重要知識而已,但這已嚴重限縮它程式產生能力的應用範疇。Codex 還缺乏資料結構方面的知識,這使得它很難用來解析或處理某種特定或特殊結構的輸入資料。
在以下範例,我們要求 Codex 產生一個網站爬梳程式來連上某個網站,並且列出一份有關該網頁的項目清單,然後用電子郵件發送這份清單。
Codex 完全依照我們在註解中提供的詳細指示產生了對應的程式碼:它匯入了正確的函式庫、連線至指定的網站,還自己為通知郵件設定了主旨,並且正確地撰寫了連線到某個電子郵件伺服器的程式碼。不過,當我們深入查看 Codex 如何從網頁上擷取出正確的資訊時,我們發現 Codex 竟然是在目標網頁上隨意挑一個位置開始尋找資訊。
這不僅是因為它並非真正理解程式碼,而且它也不知道目標網頁的「結構」,但這卻是成功找到所需資訊的必要能力之一。
結論
Codex 仍是一個絕佳的程式設計「支援」與開發人員輔助工具,尤其是針對一些重複性的程式碼,這要歸功於訓練它的龐大資料庫。不過本文已經證明,它距離完全理解程式設計語言的運算邏輯並且達到一個實用程度還很遙遠。此外我們也證明它比較像是一個非常聰明的「複製/貼上」工具。不過,這並不意味著能夠自行撰寫原創程式碼的語言轉換器仍是個遙遠的未來。
下一篇,我們將探討 Codex 的隨機性將如何影響其輸出的一致性,以及這對想要利用 GPT-3 來將工作自動化的使用者有何影響。
原文出處:Codex Exposed:How Low Is Too Low When We Generate Code?