一個(gè)冒號(hào),竟然讓大模型集體翻車?只因
明明應(yīng)該被攔下來的虛假回答,結(jié)果LLM通通開綠燈。模型
該發(fā)現(xiàn)來自一篇名叫“一個(gè)token就能欺騙LLM”的全軍論文。
不僅如此,覆沒除了冒號(hào)、空格這類符號(hào),只因還有諸如此類的模型推理開頭語:“Thought process:”、“解”,全軍也是覆沒輕松通過。
好家伙,原來一個(gè)“解”字,只因數(shù)學(xué)考試能得分,模型LLM也會(huì)被騙到……
而且這一波是全軍沖著所有通用LLM來的,GPT-4o、覆沒Claude-4、LLaMA3-70B通通被斬于馬下。
那咋辦?bug有了,來自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)的研究人員就開始哼哧哼哧解bug。
用增強(qiáng)數(shù)據(jù)集訓(xùn)練出一個(gè)靠譜的“評(píng)委”模型Master-RM,被騙概率直接無限接近0,正常評(píng)估能力還能不受影響。
具體什么情況,咱且接著往下看。
一把能欺騙LLM的“萬能鑰匙”
近來,利用LLM充當(dāng)評(píng)判工具,在帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)中評(píng)估答案質(zhì)量的場景愈加普遍。
LLM評(píng)判模型通過比對(duì)生成的候選答案與參考答案,輸出二元獎(jiǎng)勵(lì)信號(hào),從而指導(dǎo)策略模型更新。
然而研究發(fā)現(xiàn),LLM“崩潰”了?
響應(yīng)長度不僅銳減至30 tokens以下,一些意義不大的語句或文字符號(hào),卻從LLM處騙得了假陽性獎(jiǎng)勵(lì),也就是打開LLM后門的一把“萬能鑰匙”。
這把能誘導(dǎo)LLM評(píng)判模型產(chǎn)生假陽性判斷的“萬能鑰匙”可分為兩類:
非文字符號(hào):如空格、“.”、“,”、“:”。推理開頭語:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開始但并沒有實(shí)質(zhì)內(nèi)容。
同時(shí)為了進(jìn)一步研究這種“獎(jiǎng)勵(lì)模型欺騙”現(xiàn)象是否存在普遍性,研究人員在多數(shù)據(jù)集、提示詞格式上對(duì)各種LLM均進(jìn)行了系統(tǒng)性評(píng)估。
實(shí)驗(yàn)分別選取兩類模型,分別是專用生成式獎(jiǎng)勵(lì)模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)。
專用模型使用默認(rèn)提示,而通用LLM采用標(biāo)準(zhǔn)化提示模板。
然后選擇10種可觸發(fā)假陽性的對(duì)抗性響應(yīng),包括非文字符號(hào)(如空格、“:”)和多語言推理開頭語(如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”)。
另外為了測試模型跨領(lǐng)域的穩(wěn)健性,實(shí)驗(yàn)涵蓋通用推理和數(shù)學(xué)推理的共5個(gè)推理基準(zhǔn)。
實(shí)驗(yàn)結(jié)果表明,所有測試模型無一幸免,全部都會(huì)觸發(fā)假陽性響應(yīng)。
例如GPT-4o對(duì)符號(hào) “:” 的假陽性率(FPR)可達(dá)35%,LLaMA3-70B對(duì) “Thought process:” 的FPR甚至高達(dá)60%-90%,專有模型General-Verifier在MATH數(shù)據(jù)集上對(duì)空格的FPR也達(dá)66.8%。
另外,不同語言也不會(huì)影響這種欺騙現(xiàn)象的出現(xiàn),無論是中文還是日語,都同樣能夠誘發(fā)高FPR,該漏洞具有跨語言的普遍性。
研究人員還分析了0.5B至72B的Qwen2.5-Instruct系列模型,發(fā)現(xiàn):
0.5B模型:依賴字面匹配,F(xiàn)PR低但與GPT-4o一致性差;1.5B-3B模型:能檢測語義相似性但缺乏精細(xì)驗(yàn)證,F(xiàn)PR驟升;7B-14B模型:平衡驗(yàn)證能力與謹(jǐn)慎性,F(xiàn)PR最低且一致性高;32B-72B模型:因?yàn)楦鼉A向于自己解題而非對(duì)比響應(yīng)與參考答案,F(xiàn)PR再次上升。
所以模型的大小與FPR之間并非完全的單調(diào)關(guān)系,不是模型越大就越不容易被騙。
如果想通過一些推理時(shí)的技巧來減少這種漏洞,效果也不太穩(wěn)定,還得看具體模型和應(yīng)用場景。
此外,研究人員還發(fā)現(xiàn),這種bug還能無限繁殖……
只需要基于all-MiniLM-L6-v2編碼器進(jìn)行嵌入相似度搜索,從大規(guī)模語料中自動(dòng)生成與已知 “萬能鑰匙” 相似的新對(duì)抗性響應(yīng),新的“萬能鑰匙”就能同樣產(chǎn)生出高水平FPR。
實(shí)驗(yàn)最終說明生成式獎(jiǎng)勵(lì)模型其實(shí)存在一個(gè)相當(dāng)關(guān)鍵的核心機(jī)制漏洞:原本用于過濾無效或錯(cuò)誤答案的驗(yàn)證器,容易被無關(guān)緊要的表面內(nèi)容操縱,從而產(chǎn)生假陽性結(jié)果。
這對(duì)任何依賴驗(yàn)證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。
一個(gè)不會(huì)被騙的“評(píng)委”模型
為了緩解“萬能鑰匙”的影響,研究人員專門構(gòu)建了新的“評(píng)委”模型Master-RM(Master Reward Model)。
首先從原始的16萬條訓(xùn)練數(shù)據(jù)中隨機(jī)采樣2萬條,用GPT-4o-mini生成帶推理開頭語句的響應(yīng),但僅保留無實(shí)質(zhì)內(nèi)容的第一句話,并標(biāo)記為“錯(cuò)誤”。
將這2萬條對(duì)抗樣本與原始數(shù)據(jù)結(jié)合,構(gòu)成增強(qiáng)訓(xùn)練數(shù)據(jù)集。
然后基于Qwen2.5-7B-Instruct進(jìn)行有監(jiān)督微調(diào)(SFT),保證最小化交叉熵?fù)p失,讓模型學(xué)習(xí)如何區(qū)分有效響應(yīng)與表面欺騙性響應(yīng)。
將Master-RM放入相同條件下實(shí)驗(yàn)再次驗(yàn)證,發(fā)現(xiàn)此時(shí)在跨數(shù)據(jù)集測試中,模型對(duì)所有 “萬能鑰匙” 的假陽性率接近0%(甚至完全為零),且魯棒性可泛化到未見過的數(shù)據(jù)集和欺騙攻擊中。
同時(shí)模型保持與GPT-4o的評(píng)估一致性可達(dá)0.96,驗(yàn)證了其作為通用領(lǐng)域生成式獎(jiǎng)勵(lì)模型的有效性。
所以LLM作為“評(píng)委”模型其實(shí)相當(dāng)脆弱,小小一個(gè)冒號(hào)就可能讓它出錯(cuò)。
因此有網(wǎng)友表示,該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性,而RLHF也需要嚴(yán)格對(duì)抗評(píng)估,構(gòu)建更為可靠的LLM工作流程。
作者本人也現(xiàn)身評(píng)論區(qū),他認(rèn)為,生成式獎(jiǎng)勵(lì)模型容易受到虛假獎(jiǎng)勵(lì)攻擊,如何更好地避免類似情況發(fā)生,將是未來的研究方向。
本文來源:http://www.iv82.cn/news/86e24399670.html
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容,請(qǐng)發(fā)送郵件舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。