起源:::博主:::俄乌矛盾
清华新作ControlAudio:::声音何时响、、、说啥话?都能按剧本可控天生
本文第一作者是江宇轩,,清华大学博士生,,钻研方向为天生模型、、、文生音频和多模态学习,,领导教员为朱军教授与窦维蓓教授。。。
文本到音频(Text-to-Audio, TTA)天生技术近年来获得了显著进展,,从早期的单一声效合成逐步发展到基于扩散模型的高保真音频天生,,可能较好地还原复杂的天然说话描述,,为影视配音、、、游戏音效及多媒体内容创作提供了重要的技术支持。。。
然而,,现有 TTA 技术在精密化节制方面仍面对挑战:::一方面,,模型难以实现对声音事务产生功夫的精确节制;另一方面,,天生的语音内容往往不够清澈,,不足可理解性。。。
针对这一问题,,清华大学钻研团队提出了 ControlAudio,,一种基于渐进式扩散建模的文生音频步骤。。。该步骤通过系统性的数据构建流程与渐进式建模战术,,在统一框架下实现了对功夫结构与语音内容的结合建模。。。
目前,,该工作已被 ACL 2026 Main Conference 接管,,并拟推荐为口头汇报。。。
论文地址:::https://arxiv.org/abs/2510.08878成效试听:::https://control-audio.github.io/Control-Audio
钻研布景
文生音频系统旨在合成与天然说话描述一致的音频内容(如「鸟儿正在鸣叫」),,在高保真天生方面已获得显著进展,,但在精密化节制维度仍存在显著不及:::
精确的功夫节制:::如「鸟儿在 2 至 5 秒间鸣叫」;可理解语音天生:::如「鸟儿在鸣叫,,同时一名男子在说:::『今天气象真好』」。。。
然而,,由于带有精确功夫标注和语音转录的信息难以大规;袢,,可控 TTA 系统在规;盗酚胩焐芰ι先允艿较薅。。。同时,,现有步骤通常仅关注单一节制维度,,尚未在统一框架下同时实现功夫节制与可理解语音天生。。。
主题步骤
本文提出 ControlAudio,,一种渐进式扩散建模步骤,,通过逐步建模文本、、、功夫与音素等分歧粒度的前提信息,,实现可控的 TTA 天生。。。整体步骤蕴含三个主题部门:::
数据机关与表征:::通过人为标注与仿真天生相结合的方式构建多层级数据,,并设计结构化提醒词(Structured Prompt),,使预训练文本编码器可能统一编码文本、、、功夫与音素信息;模型训练:::选取渐进式训练战术。。。首先在大规模文本 - 音频数据上预训练扩散模型,,随后逐步引入功夫与语音内容信息进行建模,,使模型逐步具备更细粒度的节制能力;疏导采样:::针对扩散模型「由粗到细」的天生个性,,设计渐进式疏导采样战术,,在推理过程中先天生整体功夫结构,,再逐步细化语音内容。。。
渐进式扩散建模
ControlAudio 将多前提建模拆解为一个由粗到细的渐进过程。。。
在训练阶段,,模型分三步逐步引入节制信号:::首先在大规模文本 - 音频数据上预训练,,学习基础的文本到音频天生能力;随后在蕴含功夫标注的数据上进行微调,,使模型可能节制声音事务的功夫结构;最后进一步引入音素信息进行结合训练,,实现对语音内容的建模。。。
在这一过程中,,通过使用 Text、、、Text + Timing 以及 Text + Timing + Phoneme 等分歧前提组合,,逐步提升模型对细粒度节制信号的建模能力。。。
在推理阶段,,步骤提出了渐进式疏导采样战术:::在扩散早期,,仅使用文本与功夫前提进行疏导,,先天生整体的功夫结构;在后期阶段,,再引入音素信息并提高疏导强度,,用于细化语音内容。。。该设计与扩散模型由粗到细的天生过程一致,,从而在功夫对齐与语音清澈度上获得更好的成效。。。
数据集构建
针对可控 TTA 所需的功夫标注与语音内容数据稀缺问题,,ControlAudio 构建了一个多起源的数据系统,,将真实标注与仿真数据相结合。。。
首先,,在真实数据方面,,基于拥有功夫标注的 AudioSet-SL,,筛选蕴含语音的片段,,并通过度离与转写流程,,获得带有功夫戳与语音内容的信息,,将原始的 ?text, audio? 扩大为 ?text, timing, phoneme, audio? 的细粒度数据。。。在此基础上,,进一步构建大规仿照真数据。。。
步骤从真实数据中统计语音活动散布,,并据此合成单人或多人语音片段,,依照合理的功夫结构进行分列,,并与布景音频混合天生复杂音频场景。。。该流程额外扩大了超过 17 万条训练样本,,提升了数据规模与多样性。。。
此外,,在结构化提醒词的构建过程中,,ControlAudio 引入基于链式推理(Chain-of-Thought, CoT)的自动天生流程,,将天然说话描述解析为「事务 — 功夫 — 语音内容」的结构化暗示,,为模型提供越发清澈的前提输入。。。
尝试了局
为了验证 ControlAudio 的有效性,,团队首先在功夫可控音频天生的 AudioCondition 测试集上进行评估。。。相比现有步骤,,在事务功夫对齐指标上获得显著提升,,同时在 FAD、、、CLAP 等音频质量指标上维持竞争力甚至更优阐发。。。
在蕴含语音天生的评测工作中,,ControlAudio 同样展示出更强的语音可理解性与整体音频质量,,验证了其在统一框架下同时建模功夫结构与语音内容的能力。。。
在文生音频工作中,,ControlAudio 同样获得了与当前主流步骤相当甚至更优的天生质量,,在引入功夫与语音节制能力的同时,,并未降低基础的文本到音频天活力能。。。
总结与瞻望
ControlAudio 从数据构建、、、模型训练到采样战术三个层面系统性地解决了文生音频中的精密化节制问题,,在统一框架下实现了文本、、、功夫与语音内容的协同建模,,并在多项工作上获得了优于现有步骤的阐发。。。
相比以往仅关注单一节制维度的工作,,ControlAudio 展示了更强的通用性与扩大潜力。。。
随着音频与多模态天生模型的发展,,越来越多系统起头索求 Speech、、、Audio、、、Music 的统一建圭表式。。。钻研团队但愿ControlAudio 所提出的「多粒度前提统一建模 + 渐进式天生」思路,,可能为通用音频天生提供一种可扩大的技术蹊径,,推动模型从单一工作走向更复杂、、、多维度可控的内容天生。。。
样本展示
Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.
Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.
Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}
Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.
Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.
Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}
Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.
Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.
Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}
Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.
Content Prompt:This is the last time you did that first thing. Same thing.
Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}
@许雅娟:::世界杯官方合作体育平台,,利好!降准降息大新闻@黄文祯:::一诺临时握别赛场
@方心怡:::日本前所未有的熊尸;