关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3922人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

世上没有免费的豆包

光子星球 浏览 224

比亚迪王朝“饭票”曝光,可吃四菜一汤

IT之家 浏览 2982

运营商 AT&T“人人免费得 iPhone 16 Pro”广告被裁定为虚假宣传

IT之家 浏览 3388

雷军们没来,这届广州车展有啥看头?

道哥说车 浏览 3195

透视四川政府工作报告:向“第四极”加速奔跑

尺度商业 浏览 2364

卷上天的新能源厂商,销量却被燃油车背刺了

虎嗅APP 浏览 3806

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

快科技 浏览 2668

存在银行保管箱百万物品不翼而飞 银行:保管箱锁完好

上游新闻 浏览 20528

外媒:卢浮宫失窃珠宝现身黑市 窃贼提议在暗网交易

环球网资讯 浏览 9450

科技范儿·在现场|“AI+智能座舱”让每次出发都是“懂你的陪伴”

上游新闻 浏览 2943

退出春晚、被综艺开除,贾玲的下场竟然如此?

阅识 浏览 3448

进行大量体能训练恢复,博格巴:我好像签约了马拉松俱乐部

懂球帝 浏览 4269

美国被指对伊朗行动的准备在两周内完成

潇湘晨报 浏览 2427

仅用一周时间,谷歌就让OpenAI认清现实

字母榜 浏览 2528

或命名为AMG GT SUV AMG纯电SUV谍照曝光

车质网 浏览 3747

笑星冯淬帆离世

萌神木木 浏览 2890

"特朗普黄金卡"正式接受申请 从500万降至100万美元

国是直通车 浏览 19771

冲刺双重上市,潮宏基还有多少隐忧待解

铑财 浏览 3052

海信电视 E8S Pro 开售:RGB-Mini LED 显示,16599 元起

IT之家 浏览 3568

东体:地区超重塑观众的心理认同,足协应让草根和职业贯通

懂球帝 浏览 3664

梅西职业生涯已完成399次助攻,打入889粒进球+60次帽子戏法

懂球帝 浏览 3699
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1