关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4442人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

护肤新趋势!从“表面功夫”到“内调外养”的转变

时尚COSMO 浏览 2578

数智惠闽企,展车进福州|华为坤灵中国行2025·福建站成功举办,推动闽企智能化发展新征程

环球网资讯 浏览 4009

美股反弹!纳指收涨2.21%,黄金、白银期货飙涨创历史新高

中新经纬 浏览 4302

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 4276

抢占本土聊天机器人市场,印度AI企业Sarvam推出Indus应用

IT之家 浏览 2501

扎堆递表 智驾企业的进与困

北京商报 浏览 3354

双十一特惠5折,双厨狂喜:智本社X财新

智本社 浏览 3981

台北攻击事件嫌犯携满箱汽油弹欲纵火 被男子舍命拦下

红星新闻 浏览 9006

王菲没想到女儿窦靖童,会以头秃理由嫌弃亲爹

千言娱乐记 浏览 4061

哈登:我以前从未如此不顺但我仍充满信心,这是对我们的考验

懂球帝 浏览 3785

你喝的奶茶上黑名单了吗?教你在家就能做的神仙饮品

Yuki女人故事 浏览 4162

意天空:德布劳内至少伤缺3-4个月,需决定手术还是保守治疗

懂球帝 浏览 4072

跟队记者:柯蒂斯-琼斯回归利物浦合练,伊萨克仍缺席

懂球帝 浏览 4069

日方对中俄联合空中战略巡航表示担忧 外交部回应

央视新闻 浏览 21204

停不下来,肯扬-马丁继续怼追梦:没有库里和克莱你只是队内第12人

懂球帝 浏览 3693

大巴黎公布24/25赛季财报:营收达8.37亿欧元,创历史新高

懂球帝 浏览 4121

围巾,女人气质的延伸

Yuki女人故事 浏览 3807

美媒:被特朗普爆粗口大骂"疯了" 内塔尼亚胡回"好吧"

大风新闻 浏览 12973

篮协官方:CBA总决赛新增两位国际篮联精英裁判来华执裁

懂球帝 浏览 256

阿莫林的耻辱之最

体坛周报 浏览 3219

端侧AI芯片公司2025市值图谱

爱集微 浏览 3071
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1