爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

夫妻本是同林...

清华姚班大神...

白酒巨头一季...

王心凌吴克群...

和李晨分手6...

大盘五连涨！...

华为星闪起猛了！蓝牙技术全面应战，还针对中国市场出招

低成本、高锐度布局风口上的创新药

清华Nature发布惊人结论：AI写论文3倍速，但科学边界被锁死

媒体：自家老牌车企落后中美欧盟恐对中国车厂下手

卡拉格：如果枪手本赛季夺冠，拉亚一定是最关键的因素之一

生育津贴直接发放至个人这些地方已实现

柬埔寨提高获取公民身份投资门槛：至少需100万美元

伊朗媒体：伊朗南部一港口多艘船只起火

国乒多人离队总教练秦志戬回应

被演唱会上的叶倩文惊艳

泽连斯基签署多项针对俄罗斯制裁令

海信电视 E8S Pro 开售：RGB-Mini LED 显示，16599 元起

中际旭创大股东拟高位减持22亿，机构持仓已提前“释压”

舍伍德：大家都想看枪手掉链子，但我真希望他们赢得英超冠军

TVB那些美到像幻觉的小花们

媒体：中日韩正在谈三边货币互换

今年秋天最好看的5件风衣！

稳了，“毁容式”出演县长的胡歌，已经走上了演员的“上坡路”

内娱女明星手撕导演，翻车了？

三瑞智能实控人一股独大，国泰海通前员工火速入职，子公司与大客户疑似“隐秘关联”|读懂IPO

古二反击《繁花》！新录音曝光打脸秦雯，业内直言压榨新人是常态

委内瑞拉:逮捕一批＂掌握美情报机构直接信息＂的雇佣兵

突破西方封锁万里眼超高速实时示波器全球首发

特瓦斯：大多数联赛都在苦苦挣扎，我好奇为何人们这么想阻止海外赛