关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者3723人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米汽车订单回收价跌至2000元 两月前曾溢价2万

鲁中晨报 浏览 7430

以色列:随时重返战场

极目新闻 浏览 1069

瓜帅:B席是曼城成功的原因之一;我永远感激京多安和萨内

懂球帝 浏览 2425

猛士汽车2025全年销量10228台 同比增长387%

网易汽车 浏览 2705

乌克兰新防长:已出现20万名逃兵

财联社 浏览 2710

五连胜保持不败!萨林杰32+11广东双杀广州 徐杰20+4断陈国豪8分

颜小白的篮球梦 浏览 2908

春节互联网大厂红包大战背后是AI流量密码?

BT财经 浏览 2400

熊园:9月进出口均走高的背后

首席经济学家论坛 浏览 3764

BBA,势败如山倒

虎嗅APP 浏览 2575

联合国秘书长敦促黎以冲突各方重返谈判桌

国际在线 浏览 1614

塞纳河“上岸”不易:20年合约、赔350万成为失信人、抑郁症也要赔钱…小偶像们那些年打过的官司

仙女事件簿 浏览 2979

文班亚昕就这?前三节仅1分末节刷到7分 生日夜仍被杜锋战略冰封

颜小白的篮球梦 浏览 2938

王健林和王思聪同一天上热搜!都是因为欠钱,父子被执行超52亿…

火山诗话 浏览 4288

罗晋父亲离世后唐嫣首发声

娱乐圈圈圆 浏览 3208

超离谱判罚!米内罗进球被吹,马纳法染黄,媒体人:亚冠意义何在

奥拜尔 浏览 3448

何小鹏:中美自动驾驶同处第一梯队;好未来发布AI智能体“九章龙虾”|早资道

封面新闻 浏览 1648

双14.6英寸联屏 星越L长风系列上市限时价12.47万起

网易汽车 浏览 1820

中国职业拳击手周润琪在澳乘公交遇袭 头部被刺伤昏迷

三湘都市报 浏览 10376

超长续航+高阶智能NOA,极狐全新阿尔法T5预售12.38万起

HiEV 浏览 3869

郭晶晶也没想到 霍启刚香港火灾后 实现口碑暴增

桑葚爱动画 浏览 3200

日本首次正式参演美菲“肩并肩”军演

极目新闻 浏览 758
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1