Prompt Injection 已成為影響 AI 或是機器學型模型的一個重大資安項目,在未來源碼檢測中,也會被列為重要項目之一。現在尤其某些類型的語言模型,很容易因為 Prompt Injection 這件事,進而被威脅到 AI 系統的完整性和安全性。在內文中,我們將深入探討Prompt Injection攻擊的世界,探討它們是什麼,它們如何成為威脅,最重要的是如何預防它們。
什麼是 Prompt Injection
在 AI/ML 模型的上下文中,Prompt Injection是主要影響語言模型的一種弱點。本質上,指令就是一段文本或上下文,提供給語言模型,指示其預測最有可能的下一個字符、單詞或詞組。Prompt Injection攻擊的目標是操縱這些指令,以觸發語言模型的非預期回應。
這些攻擊有各種形式,並且新的術語不斷演變以描述它們。其中一種常見的攻擊類型包括向指令中注入惡意內容,以利用系統漏洞、影響系統行為或欺騙使用者。
連同你的金融帳號密碼一起吐出來?
在有重要資料的帳號密碼中,更危險的,反而是你儲存的帳號密碼,可能會因為 Prompt Injection,而被 AI 聊天機器人給吐出來。像是我們就曾經用國外的語言進行相關設定,進而把相關資料給吐出來。
Prompt Injection的威脅
當惡意行為者利用Prompt Injection攻擊時,這種攻擊可能對系統的完整性和安全性造成嚴重威脅。一個著名的實際例子涉及史丹佛大學的學生 Kevin Liu,他發現了 Bing Chat 的初始指令,這是一個由類似 ChatGPT 技術驅動的對話聊天機器人。通過使用Prompt Injection技術,Kevin 成功指示 Bing Chat “忽略之前的指令”,並揭示了隱藏的信息。這次入侵暴露了聊天機器人的初始指令,通常是隱藏不對使用者可見的。
預防Prompt Injection攻擊
預防Prompt Injection攻擊對保護 AI/ML 模型及其使用者的安全至關重要。實施強大的安全措施並進行持續的弱點評估是實現此目標的關鍵步驟。以下是一些預防Prompt Injection攻擊的策略:
- 預先檢查指令:最初由 Yohei 提出的方法被稱為 “注入測試”,其思想是在特殊的指令中使用使用者輸入,以檢測使用者輸入是否正在操縱指令邏輯。這有助於在輸入階段識別和緩解潛在威脅。
- 增強內部指令的韌性:提高添加到使用者輸入的內部指令的韌性是挫敗Prompt Injection攻擊的關鍵步驟。此外,由於精心製作的Prompt Injection可能需要大量文本以提供上下文,因此將使用者輸入限制在合理的最大長度內可以大幅降低攻擊的難度。
- 檢測注入:訓練一個注入分類器,使用包括Prompt Injection和合法請求在內的多樣化數據集是至關重要的。此分類器可以幫助區分惡意和真實的輸入,從而實現早期檢測和緩解。
常見問題解答
Q:什麼是指令(Prompt)?
A:指令類似於我們在終端控制台中看到的指示,但在機器學習的上下文中,它指的是提供給語言模型以生成回應的輸入。基於指令的學習是一種方法,它打開了進行Prompt Injection攻擊的可能性。
Q:什麼是Prompt Injection?
A:Prompt Injection是一種影響某些 AI/ML 模型,尤其是語言模型的弱點。這些攻擊旨在觸發語言模型的非預期回應,通過操縱或注入惡意內容到指令中實現。
Q:Prompt Injection攻擊如何變成威脅?
A:當惡意行為者利用Prompt Injection攻擊時,它們可能利用 AI/ML 模型的漏洞,導致非預期的操作或敏
感信息的披露。
Q:我們如何預防Prompt Injection攻擊?
A:預防Prompt Injection攻擊涉及實施安全措施,如預飛檢查指令,提高內部指令的韌性,並部署注入檢測機制。
想要結合 AI 讓你的效率增長、創造超凡績效嗎?
奇思方舟,支持企業透過AI與自動化技術,提升企業整體營運效率。讓學員成為使用 AI 的專家,並在實際商業應用中磨練自己的技能。如果您在商業拓展、投資領域、創業領域、行銷領域上,在尋找更快速的解決方案,節省您寶貴的時間,加速您的工作效率,歡迎聯絡!
透過參與 AI 課程,快速提升您的工作效率
想知道如何透過 AI 與自動化技術,幫助自己、甚至企業成長,提升營收與生產力嗎?歡迎參與 [AIx自動化]企業的 AI 實戰課,透過 AI 幫助您營收快速成長!
延伸閱讀