关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者3705人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

与AI机器人同行,中山万人徒步共迎新年

南方都市报 浏览 2848

美论坛:为什么中国明知很容易被摧毁 仍在南海建基地

博览历史 浏览 6881

保时捷4S店暴雷背后 两记“暴击”都是新势力给的

小李车评李建红 浏览 2932

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

极目新闻 浏览 16417

“国产GPU四小龙”扎堆上市,摩尔线程会成为史上最赚钱新股吗?

郭施亮 浏览 3223

都灵主帅:我很尊重斯帕莱蒂,我们必须带着创造历史的信念比赛

懂球帝 浏览 3438

闻泰科技营收147亿的半导体资产被荷兰政府冻结

每日经济新闻 浏览 3773

全球最大容器镜像库Docker Hub安全调查:10000+镜像泄露敏感密钥

IT之家 浏览 3061

华为Sound X获HarmonyOS 6.0 Beta升级,新增AI搜歌等功能

IT之家 浏览 2997

足球报:亚泰外援卡米洛参加全队合练,但还没达到比赛状态

懂球帝 浏览 3680

晒意大利女总理"色情照"的网站发关闭声明:很快再见

中国新闻周刊 浏览 8212

薛鹤翔:马士基开舱偏低,打乱旺季预期节奏

首席经济学家论坛 浏览 3420

女人不管多大都可以这样穿衣搭配,不花哨、不臃肿,优雅舒适

静儿时尚达人 浏览 3269

爱马仕女骑士无需披甲,却最为强大

时尚COSMO 浏览 3043

伊朗称美国在伊核问题上“没有认真的谈判态度”

国际在线 浏览 3229

多名男女在呼伦贝尔大草原上跳起"纸片舞" 当地回应

扬子晚报 浏览 8793

售价更低 零跑Lafa5无激光雷达版申报信息曝光

网易汽车 浏览 3885

演员黄璐将惊喜现身明日艺术影院映后❤️

幕味儿 浏览 2751

岛内学者:若赖清德无法降低两岸紧张 特朗普会不开心

海峡导报社 浏览 8979

迪亚斯生涯前6场德甲直接参与9球,追平哈兰德&仅次于凯恩

懂球帝 浏览 3847

西贝深圳一门店被指未获同意提前“逃场”,回应:撤店属实,双方已达成方案

红星资本局 浏览 2495
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1