关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro830人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宗馥莉,没有娃哈哈

斑马消费 浏览 1039

言承旭再演偶像剧上热搜!偶像天团F4如今怎样了?

上游新闻 浏览 19376

白鹿baby不和风波升级!恩怨越扒越多于正也下场

叶公子 浏览 16608

消息称ASML将在未来几个月推出2nm制造设备,英特尔已采购6台

界面新闻 浏览 12557

以军限制巴勒斯坦人进入阿克萨清真寺

界面新闻 浏览 12433

极氪不抱大腿,抱金砖!

DearAuto 浏览 13093

许娣的臃肿,陈小艺的窒息,老戏骨演起戏来,真没主角什么事了

不八卦会死星人 浏览 12627

保暖和颜值兼备,你太需要它了 | 好物

LinkFashion 浏览 14028

泽连斯基:巴赫穆特战事"艰难而痛苦" 但乌军将坚守

环球网资讯 浏览 19315

以方对加沙居民最新"驱逐计划"披露 埃及总理强硬回应

每日经济新闻 浏览 80807

世界上最美的裙子,没有女人会拒绝它

小西的穿搭日记 浏览 15867

两名英格兰球员在西班牙国家德比中交手,为123年来首次

懂球帝 浏览 763

曝曼联与沙特谈B费转会价格!B费想自己主宰未来,拜仁或加入争夺

罗米的曼联博客 浏览 994

孔蒂:上赛季我们的夺冠出乎意料,这赛季的目标是全力卫冕

懂球帝 浏览 237

冬天有这几件基础款就够了

Yuki时尚酱 浏览 13313

短期内可生产大量武器级钚 专家分析日本暗藏“核武野心”

环球网资讯 浏览 402

17岁少女含冤入狱13年获172万国赔 法院:我们道歉

社会奇闻君 浏览 91042

"95后"情侣开房车旅行卖咖啡赚钱 月入5万后越走越远

中国新闻周刊 浏览 5291

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 12852

钟丽缇3个女儿太会长,大女儿性感,二女儿高级,小女儿最像妈

不八卦会死星人 浏览 12619

穿衣记住“三穿三不穿” 实用又提气质

八分搭配 浏览 19425
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1