爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

可逐字复现畅...

我国最“不靠...

剑桥大学团队...

手机动辄2亿...

非法集资91...

这些才是最日...

张雨绮爆雷丢工作！省媒确认她不会上春晚

全尺寸SUV定位奕境首台工程样车下线/量产版4月发布

海外收入占比低远信储能赴港IPO

真爱大牌返场|| 每次分享都秒没！真不愧是我爱了十年的牌子

王家卫霸凌唐嫣！？

对话郝飞:智能座舱新物种斑马为端芯片带来的新机遇

知名投资人肖庆平假期遇车祸去世其投资总额近1亿元

媒体:特朗普2.0亚洲＂首秀＂重中之重还是与中国有关

怒摔球拍被拍下！高芙不满澳网直播：我们一点隐私都没有了

男子夜钓遭枪击家属：行凶者把猎枪扔河里警方找7天

名记：穆阿尼将继续留在热刺，尤文今夏将再次尝试引进他

E句话| 姐有新恋情啦？

洋河股份第三季度营收为32.95亿元，同比下降29.01%

钟楚曦到底僭越了什么

阿维塔赴港冲刺IPO：“国家队”新能源稀缺标的，115亿押注华为背后

比亚迪第一/零跑新势力销冠 2025年主流车企全年销量汇总

斯塔默将访华：不学卡尼中英关系不会激怒特朗普

东部第一！活塞双杀步行者13连胜平队史纪录坎宁安24+11+6

奥迪A5L Sportback限定版上市售33.49万元

辞旧迎新，元旦档电影满意度发布！

海魂衫搭配白色，更解暑！

OPPO刘作虎：无法承诺全年不涨价

售价8.88万起 RELY威麟R08上市

AI越来越强，程序员和软件产业就要消失了？