关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1370人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杜兰特谈28年洛杉矶奥运会:很乐意参加,必须保持高水平状态

懂球帝 浏览 2586

成本3元卖60元,“99%高纯”磷虾油实测核心成分为0!百年同仁堂“栽”在贴牌上

国际金融报 浏览 3529

上海女子崩溃:前夫为泄愤下载群发三甲医院病历

极目新闻 浏览 10055

可惜了,这世界第一美少年

独立鱼 浏览 4161

章子怡百花晚会偶遇30年好友曾黎

泪满过眼 浏览 3020

杨振宁逝世享年103岁 清华大学沉痛悼念

北京青年报 浏览 4308

29.2万辆!难怪比亚迪9月跟“疯了”一样,原来是给这几天憋大招

小李车评李建红 浏览 4365

王传君斩获东京影帝!怼王家卫拒绝宋丹丹,曾因没戏拍卖表卖车

萌神木木 浏览 3985

微软CEO纳德拉:能源成本将决定哪些国家能在人工智能竞赛中胜出

IT之家 浏览 3091

香港科技大学发现图片压缩优化AI内存效率

科技行者 浏览 3933

年底盈利即将兑现 蔚来Q3财报公布

网易汽车 浏览 3738

退休警察举报11年前交通事故:当年鉴定疑未勘验实车

红星新闻 浏览 10147

"最快女护士"张水华风波后首次公开参赛 获女子组第二

每日经济新闻 浏览 9008

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 13502

比亚迪第一/零跑新势力销冠 2025年主流车企全年销量汇总

太平洋汽车 浏览 3218

卫星图像显示以军坦克集结加沙城周围

环球网资讯 浏览 4992

谷歌Pixel 10a渲染图曝光:无凸起后盖设计,配备6.2英寸屏幕

IT之家 浏览 4057

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 4050

“花式”揽储:有银行送鸡蛋吸引他行储户,多家中小银行上调存款利率……

中国基金报 浏览 3213

和宋祖儿恋情谣言澄清后,刘宇宁口碑意外反转

喜欢历史的阿繁 浏览 1178

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 2952
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1