步骤 7/9音频录制

配音 Agent

通过本地 Edge TTS 引擎,生成富有表现力、多角色混配的配音音轨。

详细介绍

配音 Agent 接收旁白脚本和角色配音配置,生成高质量的文本转语音音频。使用本地 Edge TTS 引擎,它为每个角色生成具有适当情感语调、节奏和重点的配音。它通过切换配音配置处理多角色对话,并调整语速和音高以匹配场景氛围——戏剧性时刻更慢更低沉,激动场景更快更高昂。该 Agent 支持多种 TTS 提供商:Edge TTS(免费、本地、70 多种语言 300 多种配音)、OpenAI TTS(高级品质)和自定义声音克隆。它独立处理每个场景的旁白,应用 SSML 标记进行精细的韵律控制,并输出与分镜时间同步的音频文件。音频标准化确保所有场景和角色的音量一致。Agent 还处理专有名词和技术术语的发音校正,管理呼吸停顿以保持自然语音节奏,并为旁白、对话和音效生成独立的音频轨道——让媒体 Agent 在最终视频中完全控制音频混音和空间定位。

输入

旁白脚本、角色配音配置

输出

每个场景的音频文件,包含角色特定配音

工具

Edge TTS 引擎、音频处理