关闭广告

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家4896人阅读

IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化

据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据难以适应新任务达到类人智能

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准

这款模型的具体创新点如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

江苏孕妇骑车遭3只宠物狗追咬 打疫苗后胎儿停止发育

极目新闻 浏览 26413

牛弹琴:美欧直接开干 全世界看得目瞪口呆

现代快报 浏览 7441

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 35545

中国趁低价狂买石油,什么信号?

米筐投资 浏览 3392

“9系”旗舰+1 上汽大众的战略反攻

网易汽车 浏览 3170

‍2025年4部新片亏8亿,古天乐终于拿出这部大片

靠谱电影君 浏览 4253

拖欠WTO的会费 美国已悄悄补缴

上观新闻 浏览 9551

到底什么人还在买油车?终于我悟了

汽车公社 浏览 3378

鲁媒谈准入:新赛季会带给更多球队机遇,想获红利需守住阵地

懂球帝 浏览 3522

牛弹琴:印度耍流氓太不地道 难怪巴基斯坦要发飙

北京日报客户端 浏览 13890

经典重构,法拉利SC40向F40致敬

爱驾天下 浏览 4091

TA:从进攻核心到压迫发起点,梅西角色延伸提升球队上限

懂球帝 浏览 3729

花粉四大喜:提名三大奖,收视拿年冠,大饼吃到饱,姐姐不恋爱

仙女事件簿 浏览 268

千亿梯媒巨头25亿巨额计提背后,监管“导火索”已引燃半年之久

野马财经 浏览 2912

本-福斯特谈C罗:他的确是弗格森的宠儿,因为他实在太出色了

懂球帝 浏览 4268

邹市明两亿家产被败光,冉莹颖深夜哭诉?

苏甩甩 浏览 3702

上市近30年终落幕,天茂集团主动退市

虎投邦 浏览 4321

以总理"碰瓷"中国 媒体:找错了对象更开错了药方

看看新闻Knews 浏览 16051

路易斯:感到很失望,明年我不知道还会不会在这里

懂球帝 浏览 4054

小米SU7凌晨突发撞击事故 车辆爆燃施救人员未打开车门

网易汽车 浏览 4307

2026款宋Pro DM-i上市 限时超级优享价9.98万元起

只懂车 浏览 3270
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1