关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者3492人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科技感爆棚 大众ID. ERA 9X内饰官图发布

车质网 浏览 1950

展映11天!北京国际电影节正式官宣

幕味儿 浏览 1617

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 2895

俄总统特别代表:已向美方通报“海燕”核动力导弹试射情况

极目新闻 浏览 3629

地平线苏箐:3年后 准L4级系统大概率已经量产

网易汽车 浏览 3043

第二场“部长通道”回应热点问题:锚定产业发展 聚力实体经济释放强劲动能

商业观察杂志社 浏览 1780

今年秋天最流行的4件卫衣,减龄又时髦!

LinkFashion 浏览 5745

Adobe Research突破:AI实现材质与物理特性视觉感知

科技行者 浏览 2645

因欧盟制裁 普京或将绕行5000公里会晤特朗普

环球网资讯 浏览 7224

她是在官宣恋情?她们真的恋爱了?

青杉依旧啊啊 浏览 3378

储能内卷的标准样本:黑马果下科技,究竟是如何速成的?

赶碳号 浏览 2694

巴黎小将博利首次代表一线队出场却上半场就伤退,含泪离场

懂球帝 浏览 2891

苗青:光伏“破局者”的周期穿越法则

中国企业家杂志 浏览 2253

“装了周杰伦”的机器狗?巨星传奇把6000台卖给了谁?

野马财经 浏览 3397

2025长剧全网收视榜,《以法之名》跌至第10,第一播放量高达22亿

娱乐圈笔娱君 浏览 2690

《寻秦记》成为香港影史首日最高开画票房冠军

皮皮电影 浏览 2684

相恋6年"军官女友"收60余万后消失 警方证实其已落网

红星新闻 浏览 20575

媒体:美一系列肆行无忌行径 释放极其危险信号

上观新闻 浏览 7200

比速腾L略小 入门级的全新速腾S将发布

网易汽车 浏览 2683

西汉姆联助理教练帕科·赫梅斯澄清与努诺·埃斯皮里托·桑托的场边争执

绿茵情报局 浏览 2444

小米汽车又一重要专利公布!

电动知家 浏览 3248
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1