爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

或将年内上市...

委内瑞拉内政...

图多尔：虽输...

切尔西本赛季...

特朗普：美军...

杨振宁逝世：...

马龙社媒回复王楚钦生日祝福：还要靠你呢

夫妻争吵男子抱起一个孩子扔河里夫妻俩随即跳河救娃

2-0！申花扬眉吐气，掀翻韩国劲旅获首胜，亚冠排名超蓉城进前八

集成双4K摄像头与AI，雷蛇Project Motoko概念耳机亮相CES 2026

Pro or Ultra：消息称 iQOO 15 确定会有高配版，目前还在打磨中

把孩子气的！某新能源车一配置被小学生投诉，车企一本正经回应了

Artificial Analysis评测新鲜出炉：Kimi K2 thinking位居世界第二，开源第一

因“阴阳合同”伦纳德可能恢复自由身湖人勇士尼克斯他去哪儿？

宋慧乔的短发太好看了！今年想换发型一定不要错过这篇

中方取消多场重要会议李在明承诺：帮高市＂搞定＂中国

秦昊一家五口度假，伊能静少女打扮但很显胖

告别“躺赚” 消金与小贷走向殊途

激光雷达上车比亚迪新款海豹06EV申报图曝光

自动驾驶激战CES：黄仁勋硬刚马斯克，中国军团已默默量产破局

今日热点：ador或将拒绝newjeans另外三人回归#；徐晟津就星辰大海睡觉道歉……

俄称今年已控制205个居民点乌称对俄港口及战机发动袭击

马斯克：解散 xAI，把22万张GPU租给OpenAI死对头

小米雷军回应被贴“营销大师”标签：营销不是坏事，但产品是基础

颜骏凌：武磊赛前对球队做了动员，我们争冠经验丰富没有包袱

无方向盘设计曝特斯拉Cybercab路试谍照

台媒滚动播放九三阅兵国防部回应

汇聚超千项前沿成果，第八届长三角科技成果交易博览会开幕

乔-科尔：波特根本就没得到足够的支持，西汉姆对他有所怀疑

摩托罗拉Edge 70 Ultra现身Geekbench，处理器或有新情况