关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者765人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

轿车坠河致1家3口遇难 家属:幸存男童也已脑死亡

极目新闻 浏览 76282

牛弹琴:美军在中东遇袭却没动静 拜登面临艰难选择

上观新闻 浏览 79304

租房降级的年轻人:30元一天,住太空舱,靠日结工维持

每日人物 浏览 15272

NBA官方最新MVP榜:约基奇连续9周第一剑指3连庄 字母哥次席

醉卧浮生的体育世界 浏览 19343

63.3度电池+60L油箱 小鹏X9增程版续航1602公里

网易汽车 浏览 858

24座“万亿之城”一季报:12城GDP增速超全国

澎湃新闻 浏览 18326

刘亦菲晒新照:墨镜长发气质佳,大长腿好抢眼!

笑猫说说 浏览 15824

许娣的臃肿,陈小艺的窒息,老戏骨演起戏来,真没主角什么事了

不八卦会死星人 浏览 12628

美政府"关门"将结束 民主党8人倒戈加入共和党人行列

红星新闻 浏览 31461

女子豪掷30万买200多箱白酒 丈夫4000元住院费拿不出

扬子晚报 浏览 14945

湖北武汉加速构建人形机器人产业发展生态

新华社 浏览 773

机械师Mini GTR迷你主机上新:锐龙AI 9 HX 370配置,性能释放70W

IT之家 浏览 613

高德地图“拥堵延时指数”被不正当抓取 一审获赔1250万元

智车情报局 浏览 11017

被美以欺负后中东57国开会 沙特王储一锤定音靠向中国

现代小青青慕慕 浏览 12188

小个子不要为显高发愁 一条牛仔裤轻松搞定

男士穿衣搭配杂志 浏览 19788

新增蓝牙数字钥匙 迈腾3000万辆甄选款17.49万起

网易汽车 浏览 1001

福原爱发推称被记者跟踪心情抑郁:直接问我就好

网易体育 浏览 25776

辽宁U18男足点球5-4战胜山东U18男足,夺得全运会冠军

懂球帝 浏览 837

钟楚曦侯雯元官宣恋情后首合体,现身泰国游被偶遇,女方穿着花俏

扒虾侃娱 浏览 12360

法蒂:感觉前年在巴萨所做的一切没被重视,我不得不决定换个球队

直播吧 浏览 10905

美团收购光年之外,给朱啸虎做了注脚

字母榜 浏览 15583
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1