关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1033人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵本山公司严重违法是怎么回事?相关清算组已成立

趣看热点 浏览 25837

米兰未来3-0斯坎佐罗夏特,伊布儿子为米兰未来首开记录

懂球帝 浏览 1512

客观评价房地产的重要性、问题及建议

泽平宏观 浏览 12601

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 758

同比增长89.61% 鸿蒙智行11月交付新车81864台

网易汽车 浏览 277

中国人被提醒撤离刚果金 有人宁愿冒险:月入五六万

潇湘晨报 浏览 12443

特朗普"朋友"1.3亿美元捐款到账 还不够美军发1天工资

红星新闻 浏览 5279

iQOO Z7搭载120W 超快闪充 售价1599元起

网易科技报道 浏览 19593

新增120城 蔚来城区NOP+覆盖中国大陆99%城市

网易汽车 浏览 12025

东风日产探陆最新消息,将于1月18日预售

天天汽车 浏览 12863

特朗普被曝已打新冠疫苗,今年1月时就悄悄完成了接种

趣看热点 浏览 272951

证监会:中止大连万达商管债券注册发行

网易号外 浏览 16096

亲善大使!大加转发阿贾当选MVP内容:4xMVP 继续创造历史吧!

直播吧 浏览 1540

媒体:秦刚正在欧洲访问 美国舆论顿时紧张起来

环球网资讯 浏览 18583

电池容量竞赛升级?零跑、小米布局80度大电池增程车型

汽车点评AC 浏览 1506

Burberry大秀全场都是"开裆裤"?

一诺小海 浏览 19579

美方拟禁止中国航司飞越俄罗斯领空 中国航司联名回复

澎湃新闻 浏览 4840

官方力挺!对手指责C罗干扰门将,国际足联调查,总裁助攻没问题

天涯沦落人 浏览 19269

何超莲评论区沦陷!跟窦骁结婚后态度变化大,遭讨伐骗婚功利心重

萌神木木 浏览 985

Linux之父Linus配新电脑了!特别要求Intel锐炫B580显卡

快科技 浏览 270

普京:乌克兰军队发起反攻 但未实现任何预定目标

每日经济新闻 浏览 121074
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1