关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro775人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

真爱大牌返场|| 每次分享都秒没!真不愧是我爱了十年的牌子

黎贝卡的异想世界 浏览 5646

王家卫霸凌唐嫣!?

八卦疯叔 浏览 3521

对话郝飞:智能座舱新物种 斑马为端芯片带来的新机遇

网易汽车 浏览 3815

知名投资人肖庆平假期遇车祸去世 其投资总额近1亿元

每日经济新闻 浏览 3954

媒体:特朗普2.0亚洲"首秀" 重中之重还是与中国有关

上观新闻 浏览 9051

怒摔球拍被拍下!高芙不满澳网直播:我们一点隐私都没有了

全景体育V 浏览 2516

男子夜钓遭枪击 家属:行凶者把猎枪扔河里 警方找7天

扬子晚报 浏览 7665

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 2405

E句话| 姐有新恋情啦?

仙女事件簿 浏览 2941

洋河股份第三季度营收为32.95亿元,同比下降29.01%

红星资本局 浏览 3516

钟楚曦到底僭越了什么

虎嗅APP 浏览 3407

阿维塔赴港冲刺IPO:“国家队”新能源稀缺标的,115亿押注华为背后

第一财经资讯 浏览 2891

比亚迪第一/零跑新势力销冠 2025年主流车企全年销量汇总

太平洋汽车 浏览 2717

斯塔默将访华:不学卡尼 中英关系不会激怒特朗普

澎湃新闻 浏览 6467

东部第一!活塞双杀步行者13连胜平队史纪录 坎宁安24+11+6

醉卧浮生 浏览 3231

奥迪A5L Sportback限定版上市 售33.49万元

车质网 浏览 2375

辞旧迎新,元旦档电影满意度发布!

幕味儿 浏览 2624

海魂衫搭配白色,更解暑!

Yuki女人故事 浏览 199

OPPO刘作虎:无法承诺全年不涨价

观察者网 浏览 738

售价8.88万起 RELY威麟R08上市

功夫AUTO 浏览 4523

AI越来越强,程序员和软件产业就要消失了?

诗与星空 浏览 771
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1