关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro772人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

集成双4K摄像头与AI,雷蛇Project Motoko概念耳机亮相CES 2026

IT之家 浏览 2700

Pro or Ultra:消息称 iQOO 15 确定会有高配版,目前还在打磨中

IT之家 浏览 3673

把孩子气的!某新能源车一配置被小学生投诉,车企一本正经回应了

小李车评李建红 浏览 1814

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

AI寒武纪 浏览 3560

因“阴阳合同”伦纳德可能恢复自由身 湖人勇士尼克斯他去哪儿?

仰卧撑FTUer 浏览 2038

宋慧乔的短发太好看了!今年想换发型一定不要错过这篇

LinkFashion 浏览 2131

中方取消多场重要会议 李在明承诺:帮高市"搞定"中国

现代小青青慕慕 浏览 15547

秦昊一家五口度假,伊能静少女打扮但很显胖

八怪娱 浏览 2926

告别“躺赚” 消金与小贷走向殊途

北京商报 浏览 2542

激光雷达上车 比亚迪新款海豹06EV申报图曝光

网易汽车 浏览 2667

自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

电车通 浏览 2624

今日热点:ador或将拒绝newjeans另外三人回归#;徐晟津就星辰大海睡觉道歉……

伊周潮流 浏览 3380

俄称今年已控制205个居民点 乌称对俄港口及战机发动袭击

极目新闻 浏览 4213

马斯克:解散 xAI,把22万张GPU租给OpenAI死对头

创业家 浏览 233

小米雷军回应被贴“营销大师”标签:营销不是坏事,但产品是基础

IT之家 浏览 2663

颜骏凌:武磊赛前对球队做了动员,我们争冠经验丰富没有包袱

懂球帝 浏览 3533

无方向盘设计 曝特斯拉Cybercab路试谍照

车质网 浏览 2892

台媒滚动播放九三阅兵 国防部回应

北京日报 浏览 4344

汇聚超千项前沿成果,第八届长三角科技成果交易博览会开幕

蓝鲸新闻 浏览 3741

乔-科尔:波特根本就没得到足够的支持,西汉姆对他有所怀疑

懂球帝 浏览 4167

摩托罗拉Edge 70 Ultra现身Geekbench,处理器或有新情况

IT之家 浏览 3378
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1