关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro784人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:自家老牌车企落后中美 欧盟恐对中国车厂下手

澎湃新闻 浏览 10713

卡拉格:如果枪手本赛季夺冠,拉亚一定是最关键的因素之一

懂球帝 浏览 1631

生育津贴直接发放至个人 这些地方已实现

央视财经 浏览 3700

柬埔寨提高获取公民身份投资门槛:至少需100万美元

红星新闻 浏览 20085

伊朗媒体:伊朗南部一港口多艘船只起火

界面新闻 浏览 293

国乒多人离队 总教练秦志戬回应

乒乓世界 浏览 12299

被演唱会上的叶倩文惊艳

喵喵娱乐团 浏览 3869

泽连斯基签署多项针对俄罗斯制裁令

国际在线 浏览 3748

海信电视 E8S Pro 开售:RGB-Mini LED 显示,16599 元起

IT之家 浏览 3580

中际旭创大股东拟高位减持22亿,机构持仓已提前“释压”

第一财经资讯 浏览 4357

舍伍德:大家都想看枪手掉链子,但我真希望他们赢得英超冠军

懂球帝 浏览 3031

TVB那些美到像幻觉的小花们

可乐谈情感 浏览 3457

媒体:中日韩正在谈三边货币互换

澎湃新闻 浏览 10993

今年秋天最好看的5件风衣!

LinkFashion 浏览 4251

稳了,“毁容式”出演县长的胡歌,已经走上了演员的“上坡路”

娱乐圈笔娱君 浏览 2366

内娱女明星手撕导演,翻车了?

独立鱼 浏览 2756

三瑞智能实控人一股独大,国泰海通前员工火速入职,子公司与大客户疑似“隐秘关联”|读懂IPO

时代周报 浏览 2782

古二反击《繁花》!新录音曝光打脸秦雯,业内直言压榨新人是常态

萌神木木 浏览 3717

委内瑞拉:逮捕一批"掌握美情报机构直接信息"的雇佣兵

红星新闻 浏览 12916

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 3645

特瓦斯:大多数联赛都在苦苦挣扎,我好奇为何人们这么想阻止海外赛

懂球帝 浏览 3587
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1