关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro3599人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国同意提供安全保障 美乌“和平计划”将提交俄方

环球网资讯 浏览 2971

张彬彬红毯帮毛晓彤提裙子,被导演打手

韩小娱 浏览 2968

储朝晖:应对“入学潮”,推动教育提质增效

环球网资讯 浏览 3002

美媒承认:乌重镇即将被攻克

环球时报国际 浏览 3492

已婚已育三年,朴信惠真的老了好多

娱人细品 浏览 2518

六氟磷酸锂“带飞”氟化工,衢州启动“中国氟谷”的底气在哪里?

时代周报 浏览 3455

理想「断腕」:关店100家,李想手里还剩什么牌?

电车通 浏览 2455

前三季度私募产品“超涨”十强!复胜、远信、歌汝等夺冠!

私募排排网 浏览 3803

董秘也“打短工”?道通科技董秘上任5个月即离任

华夏时报 浏览 3602

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 2520

蔚来2月交付2.08万台新车 同比增长57.6%

网易汽车 浏览 1977

终结三连败!商竣程取得大满贯第七胜

网球之家 浏览 2612

美总统威胁对尼日利亚动武 尼方回应

环球网资讯 浏览 3601

小红书社区公约2.0里的「UGC社区进化史」

周天财经 浏览 2553

3年半亏损289亿,华侨城A换帅,人均薪酬15.5万元

华美财经 浏览 4452

特朗普发文宣称:10项停战条款是“假新闻”

吉刻新闻 浏览 1107

年销破28万辆!一汽解放斥资百亿元买理财,商用车龙头变“投资大户”?

时代周报 浏览 2420

连刷6集,这部新剧太刺激了

来看美剧 浏览 2093

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 3772

2026款途昂Pro限时一口价25.99万,全境安全大7座SUV新标杆

车之天下 浏览 1074

沈建光:从国庆长假看消费前景

首席经济学家论坛 浏览 3580
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1