关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3920人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

谁是中国第一吐槽役?

仙女事件簿 浏览 3725

新不如旧!这4件时髦“旧衣服”今年太火了

LinkFashion 浏览 2539

河南一村委会欠债被判还钱 "村书记"连10+10都不会算

上游新闻 浏览 19273

最强动物塑,全在ZOOTOPIA里了

时尚COSMO 浏览 2506

半个娱乐圈为肖战包场,《得闲谨制》票房走俏,侯鸿亮鞠躬致谢

娱乐圈笔娱君 浏览 3073

中方再次致函古特雷斯阐明立场 严正批驳日方无理狡辩

环球网资讯 浏览 18323

NVIDIA 向英特尔投资 50 亿美元 共同开发 AI 基础设施和个人计算产品

经济观察报 浏览 4460

以色列总理称将召集内阁批准停火协议

央视新闻客户端 浏览 3752

“毛绒外套”今年冬天爆火,这样穿又暖又时髦!

LinkFashion 浏览 3237

媒体:国足21年首进亚洲大赛四强 是触底反弹的信号弹

新民晚报 浏览 6800

美国突袭委未寻求国会批准 鲁比奥辩解:并非入侵行动

环球网资讯 浏览 2709

王毅与鲁比奥通话内容披露 台当局陷前所未有战略焦虑

京彩台湾 浏览 14068

特朗普:我说服了自己暂缓对伊朗采取军事行动

澎湃新闻 浏览 2583

辞旧迎新,元旦档电影满意度发布!

幕味儿 浏览 2623

会化妆的女生都很“假”!

Yuki女人故事 浏览 3026

被娃写作业逼疯 妈妈"邪修法"直播写作业引2万人围观

极目新闻 浏览 19141

追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

红星新闻 浏览 2534

美国正式退出世卫组织 还欠费2.6亿美元

都市快报橙柿互动 浏览 20056

曾炒到1600元/粒的"中药茅"大跌价 公司市值蒸发1800亿

每日经济新闻 浏览 9326

更年轻化 新款丰田卡罗拉将于12月21日上市

车质网 浏览 2998

莱巴透露战斯瓦泰克的两大关键,丝袜称气温还这么高会手足无措

网球之家 浏览 2531
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1