爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

「AI新世代...

小鹏汽车出海...

女明星混得好...

提供燃油与纯...

德约六王赛退...

斯基拉：尤文...

爆笑佳作入围戛纳，这是真正属于影迷的电影

美国“恢复核试验表态”背后有何考量

firefly萤火虫第4万辆交付售11.98万元起

杜兰特谈28年洛杉矶奥运会：很乐意参加，必须保持高水平状态

成本3元卖60元,“99%高纯”磷虾油实测核心成分为0！百年同仁堂“栽”在贴牌上

上海女子崩溃：前夫为泄愤下载群发三甲医院病历

可惜了，这世界第一美少年

章子怡百花晚会偶遇30年好友曾黎

杨振宁逝世享年103岁清华大学沉痛悼念

29.2万辆！难怪比亚迪9月跟“疯了”一样，原来是给这几天憋大招

王传君斩获东京影帝！怼王家卫拒绝宋丹丹，曾因没戏拍卖表卖车

微软CEO纳德拉：能源成本将决定哪些国家能在人工智能竞赛中胜出

香港科技大学发现图片压缩优化AI内存效率

年底盈利即将兑现蔚来Q3财报公布

退休警察举报11年前交通事故：当年鉴定疑未勘验实车

＂最快女护士＂张水华风波后首次公开参赛获女子组第二

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

比亚迪第一/零跑新势力销冠 2025年主流车企全年销量汇总

卫星图像显示以军坦克集结加沙城周围

谷歌Pixel 10a渲染图曝光：无凸起后盖设计，配备6.2英寸屏幕

法拉第未来 Super One 迈入批量试制及生产阶段

“花式”揽储：有银行送鸡蛋吸引他行储户，多家中小银行上调存款利率……

和宋祖儿恋情谣言澄清后，刘宇宁口碑意外反转

名记：穆阿尼将继续留在热刺，尤文今夏将再次尝试引进他