关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1021人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全国政协委员、恒银科技董事长江浩然:新质生产力的内核离不开“科技创新”

经济观察报 浏览 12134

邮报:利物浦等队密切关注塞门约,伯恩茅斯估价超7500万镑

懂球帝 浏览 877

这新片牛,比《沙丘2》更高级

独立鱼 浏览 12026

被问及美方是否寻求逮捕普里戈任 美国务院回应

每日经济新闻 浏览 87039

月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机

雷峰网 浏览 245

与AI对弈:商汤科技推出围棋机器人,手眼协同自由取子

澎湃新闻 浏览 15997

“输血”5亿美元恒大汽车不太够,虚虚实实的白衣骑士看不懂

北京商报 浏览 14391

LG gram SuperSlim 2024 白色笔记本发布:重 990g,799.99 美元

IT之家 浏览 10787

2天挨4 针,韩国皮肤科,挤满“特种兵医美”的中国人

每日人物 浏览 1005

万亿豪赌:OpenAI结盟芯片、云巨头,AI生态闭环了吗?

澎湃新闻 浏览 1004

淘汰落后产能!内蒙古拟在4月底前全面关停虚拟币挖矿

澎湃新闻 浏览 26475

《时代》周刊2025年度人物公布:“AI建设者”

IT之家 浏览 46

她是在官宣恋情?她们真的恋爱了?

青杉依旧啊啊 浏览 734

伊姐周六热推:电视剧《即刻上场》;电视剧《暗影侦探》......

伊周潮流 浏览 251

差点被逆转!勇士最多领先18分 末节一度被反超&多次被追到差2分

直播吧 浏览 12820

江苏最新平均工资出炉!最挣钱的行业是→

环球网资讯 浏览 16341

万达轴承:建设项目信披陷“罗生门” 已竣工背后转固金额现疑云

金证研 浏览 12485

哈登得偿所愿被交易至篮网,三巨头聚首剑指联盟总冠军

趣看热点 浏览 25525

传祺向往S9正式上市,22.99万起就能入手

车扯 浏览 1641

中国观众认定的烂片,北美观众当成宝,首周末破4.3亿夺全球冠军

靠谱电影君 浏览 974

Slater:克莱曾要求库里不要动用个人影响力 来让自己达成续约

直播吧 浏览 10538
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1