步骤 9/9合成协调

媒体 Agent

整合图像、旁白和音乐等所有生成素材,将其排版并向渲染工作节点发起合成请求。

详细介绍

媒体 Agent 是管线的最后阶段,负责将所有生成的素材组装成完整的视频。它从上游 Agent 收集角色图像、场景背景、配音音频、背景音乐和音效,然后使用 FFCreator 和 FFmpeg 编排渲染。该 Agent 处理图像合成(将角色放置在场景背景中,支持图层和视差深度)、自定义字体和位置的字幕叠加、多音轨精确音频同步,以及视频编码到目标分辨率和画面比例(16:9、9:16 或 1:1)。支持最高 1080p 分辨率和可配置帧率。Agent 还执行最终质量检查——验证音频电平标准化、场景间过渡流畅、字幕时间与配音对齐。输出是完整的、可发布的渲染视频文件。

输入

所有生成的资产(图像、音频、字幕)

输出

最终渲染视频文件(最高 1080p)

工具

FFCreator 渲染器、FFmpeg、图像合成引擎