关闭广告

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

智东西215人阅读

智东西
编译高远瞩
编辑程茜

智东西5月8日报道，Anthropic于5月7日推出了一种名为自然语言自动编码器（Natural Language Autoencoders，简称NLA）的全新方法，能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本，让用户可以直接阅读Claude在生成回答之前的思考过程。

当用户与大语言模型对话时，用户的输入是自然语言，模型的回答也是自然语言。但在模型内部，整个过程却是高维数字向量的运算，这些向量被称为“激活值”，承载着模型在每一个计算步骤中的“想法”。然而，激活值就像一串串脑电波，人类无法直接阅读。

在正式发布前的安全审计中

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

让AI沉下来北京锻造人工智能第一城

北京商报浏览 2428

伊姐周六热推：电视剧《树影迷宫》；电视剧《锦月令》......

伊周潮流浏览 3529

追觅进军衣物护理市场，推出首款产品 P7 蒸汽挂烫机

IT之家浏览 3581

终端价普涨！茅台9月动销同比增20%，机构称白酒行业底部愈发清晰

澎湃新闻浏览 4190

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

科技行者浏览 3595

苹果新品上线

都市快报橙柿互动浏览 2017

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

伊周潮流浏览 3640

日本联合28国在联合国接连围攻中国中方当场＂报仇＂

归史浏览 31641

E句话| 李亚鹏公开收入，算高吗？

仙女事件簿浏览 2586

其实，零百加速5秒的新规才是利好车企

速度计浏览 3330

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

机器之心Pro 浏览 2407

欧摩威展示单雷达AEB方案！已获国内头部主机厂定点，明年将量产

车东西浏览 3548

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

懂球帝浏览 3483

合富中国的六连板“泡沫”

北京商报浏览 3511

默茨将率庞大商务团访华被指＂从未如此精心准备出访＂

环球网资讯浏览 38702

多品牌疑＂删除＂张雨绮代言内容此前其被实名举报代孕

现代快报浏览 6119

华南理工大学发生车祸致1死1伤目击者：车头明显受损

封面新闻浏览 37467

国有股东提前离场、技术总监辞职，吉和昌守住了净利润连增|读懂IPO

时代周报浏览 745

存强制退市风险 *ST长药涉嫌财务造假遭立案

北京商报浏览 3384

发球都不会的球员混进ITF职业比赛！引国外网友和专家愤怒

网球之家浏览 2755

龚俊《暗河传》首波口碑出炉了！现场观众的评价“一针见血”

娱乐圈笔娱君浏览 3681

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

协议中加入＂...

豆包手机最高...

耗时3000...

新华鲜报｜引...

丫邦组合与凤...

凯恩：若卡尔...

高通踩线，中国出手：车载芯片并购进入高压区

郑恺&李沁，向你发出“网”友申请

开扒女明星穿了5年以上的外套，原来都有一个共同点

让AI沉下来北京锻造人工智能第一城

伊姐周六热推：电视剧《树影迷宫》；电视剧《锦月令》......

追觅进军衣物护理市场，推出首款产品 P7 蒸汽挂烫机

终端价普涨！茅台9月动销同比增20%，机构称白酒行业底部愈发清晰

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

苹果新品上线

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

日本联合28国在联合国接连围攻中国中方当场＂报仇＂

E句话| 李亚鹏公开收入，算高吗？

其实，零百加速5秒的新规才是利好车企

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

欧摩威展示单雷达AEB方案！已获国内头部主机厂定点，明年将量产

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

合富中国的六连板“泡沫”

默茨将率庞大商务团访华被指＂从未如此精心准备出访＂

多品牌疑＂删除＂张雨绮代言内容此前其被实名举报代孕

华南理工大学发生车祸致1死1伤目击者：车头明显受损

国有股东提前离场、技术总监辞职，吉和昌守住了净利润连增|读懂IPO

存强制退市风险 *ST长药涉嫌财务造假遭立案

发球都不会的球员混进ITF职业比赛！引国外网友和专家愤怒

龚俊《暗河传》首波口碑出炉了！现场观众的评价“一针见血”

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

协议中加入＂...

豆包手机最高...

耗时3000...

新华鲜报｜引...

丫邦组合与凤...

凯恩：若卡尔...

高通踩线，中国出手：车载芯片并购进入高压区

郑恺&李沁，向你发出“网”友申请

开扒女明星穿了5年以上的外套，原来都有一个共同点

让AI沉下来 北京锻造人工智能第一城

伊姐周六热推：电视剧《树影迷宫》；电视剧《锦月令》......

追觅进军衣物护理市场，推出首款产品 P7 蒸汽挂烫机

终端价普涨！茅台9月动销同比增20%，机构称白酒行业底部愈发清晰

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

苹果新品上线

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

日本联合28国在联合国接连围攻中国 中方当场＂报仇＂

E句话| 李亚鹏公开收入，算高吗？

其实，零百加速5秒的新规才是利好车企

o1之后下一个范式？隐式CoT大突破，让推理不再「碎碎念」

欧摩威展示单雷达AEB方案！已获国内头部主机厂定点，明年将量产

埃弗顿vs富勒姆：格拉利什、皮克福德首发，劳尔-希门尼斯、莱诺出战

合富中国的六连板“泡沫”

默茨将率庞大商务团访华 被指＂从未如此精心准备出访＂

多品牌疑＂删除＂张雨绮代言内容 此前其被实名举报代孕

华南理工大学发生车祸致1死1伤 目击者：车头明显受损

国有股东提前离场、技术总监辞职，吉和昌守住了净利润连增|读懂IPO

存强制退市风险 *ST长药涉嫌财务造假遭立案

发球都不会的球员混进ITF职业比赛！引国外网友和专家愤怒

龚俊《暗河传》首波口碑出炉了！现场观众的评价“一针见血”

让AI沉下来北京锻造人工智能第一城

日本联合28国在联合国接连围攻中国中方当场＂报仇＂

默茨将率庞大商务团访华被指＂从未如此精心准备出访＂

多品牌疑＂删除＂张雨绮代言内容此前其被实名举报代孕

华南理工大学发生车祸致1死1伤目击者：车头明显受损