更多

    令 AI 回答「不應答的問題」 Anthropic 發表越獄論文盼業界謀對策

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    開發性能超越 GPT-4 的大型語言模型「Claude 3」的 Anthropic 日前發表一篇論文,詳細解說如何突破大型語言模型 LLM 限制,令 LLM 回答本來被禁止回答的問題的技術「Many-shot jailbreak(多發越獄)」。他們希望讓更多 AI 研究人員了解問題,加快開發解決方法。

    所謂「不應答的問題」,是指 AI 開發者對 LLM 施加限制,令它們不能回答危害個人或社會的問題,例如如何製造炸彈、毒藥等問題。不過隨著 LLM 發展,LLM 的上下文窗口 (Context Windows) 愈來愈大,現時的 LLM 已經可以儲存相當於一本書的內容,因而引發越獄問題。

    「Many-shot jailbreak(多發越獄)」技術是對這類具備大容量上下文窗口的 LLM 輸入含有大量問題的提示,而最後提出「如何製造炸彈」這類被禁止的問題,就可以突破限制,AI 會作出回答。

    Anthropic 在論文中指出這種越獄方法難以應對,主要是因為縮減上下文窗口會降低 AI 的性能。他們希望令更多 AI 研究人員認識到問題,加速開發應對方案。他們亦秘密地與其他競爭對手分享技術詳情。Anthropic 本身就在開發一種對應方法,在提示句輸入 LLM 之前將查詢內容加以分類和語意化。

    最新影片

    您會感興趣的內容

    相關文章