关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3929人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

【亚冠精英】傅欢自摆乌龙 海港0比2町田垫底积分榜

体坛周报 浏览 3642

已减重10公斤的泫雅澳门演出晕倒后公开致歉

封面新闻 浏览 3466

BIGME大我推出7英寸彩色墨水屏电纸书B751CS,1739元

IT之家 浏览 2998

这几条裙子太适合度假了,减龄又时髦!

LinkFashion 浏览 324

独居安全APP“死了么”登顶苹果应用付费榜,功能短板遭用户吐槽,已出现多款类似软件

扬子晚报 浏览 2637

今日起,数字人民币开始计息,这些变化影响你的钱包

红星资本局 浏览 2745

看看这些穿搭就知道,秋季穿衣很简单,找对方法舒适又得体

静儿时尚达人 浏览 3466

米莱逆袭!阿根廷中期选举大胜,激进改革能走多远?

国际金融报 浏览 3612

路虎行驶7千公里检出"缸体沙眼" 厂家仅同意换气缸盖

澎湃新闻 浏览 10437

18.51亿元!这家信托100%股权,第三次挂牌!

券商中国 浏览 2691

曝王灿兮杜淳分房睡!女方深夜发声否认:谁说的?我咋不知道?

扒虾侃娱 浏览 3551

美国对伊朗考虑"军事选项" 中方回应

澎湃新闻 浏览 2608

大连海鲜成双十一最热销特产之一 海参大虾扇贝备受追捧

半岛晨报 浏览 3480

E句话| 爱马仕继承人被曝坐廉航,150亿美元下落不明?

仙女事件簿 浏览 2433

稳步迭代,全面超越:vivo S50 Pro mini 评测:小直屏旗舰的进化标杆

快科技 浏览 2817

最高降价30万!宝马中国回应:并非打价格战

界面新闻 浏览 2767

印尼总统:已准备好向加沙派遣维和部队

环球时报国际 浏览 4277

极致轻量化 兰博基尼Temerario全新赛车发布

车质网 浏览 3451

理想汽车1月交付27668辆 巩固高端增程基本盘

网易汽车 浏览 2407

美联储主席最热人选哈塞特:CPI报告好得令人震惊,美联储有很大空间可以降息

华尔街见闻官方 浏览 3152

利润暴跌99%,保时捷赚不到钱了?

汽车公社 浏览 2911
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1