MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang MercurewangMercurewangMercurewangMercurewang

AI Visual Generation Pipeline 智能视觉批量生成

基于 3000 MCP 内测 · 底层模型可替换为任意制图大模型 API

构建自动化创意工厂 Automated Creative Factory at Scale

将参考与角色设计归档至文件夹，由 WorkBuddy 自动完成全链路匹配与批量生成

从重复劳动中释放创作力，让美术团队回归创意决策核心

40×

批量输出

角色可选

~60min

全自动

1 Skill

套用即跑

— Mercurewang · 2026.04

01 管线原理 · 双文件夹输入 → 批量输出

通用 AI 视觉生成管线

美术只需准备两组素材放入指定文件夹，WorkBuddy 自动完成匹配、生成、筛选全流程

📂

参考素材夹

文字 / 图片 / 视频
任意组合放入即可
自动解析提取

输入 Input

→

👤

角色设计夹

角色正 / 背面图
多套服装可选
外观基准锁定

输入 Input

→

⚙️

自动匹配生成

Gemini img2img
逐张逐帧批量处理
多角色并行

核心 Core

→

🖼️

高质量候选集

N × M 张可选图
一致性保障
创意决策空间

输出 Output

👗 角色设计参考多视角输入 · 锁定一致性外观基准

🔵 正面视图 Front 🐤 小鸡加菲 · 🦕 恐龙橘猫(主) · 🎩 西装缅因

⚪ 背面视图 Back 防止背对镜头时外观漂移

📐 单角色多视角 — 精准锁定每个角色的外观特征

恐龙橘猫

小鸡加菲

西装缅因

视频场景验证 · 动作保真度

当参考素材为视频时：逐帧一致性验证

以跳舞猫咪换装为例，验证管线在视频场景下的动作保真能力 — 左侧原始帧 | 右侧 AI 换装输出，姿态完全一致

📷 原始帧 #10 · 双手叉腰原始帧

原始视频 — 中间黄虎服猫咪双手叉腰站立
注意：左右两只同伴猫作为背景参考

🎨 换装帧 #10 · 双手叉腰换装帧

Gemini 换装输出 — 绿色恐龙服橘猫，相同叉腰姿势
✅ 动作、重心、体态完全复刻

📹 逐帧动作匹配验证（3 组精选配对 — 点击查看）

#01 抬腿

原始

→

换装

#10 叉腰

原始

→

换装

#40 展臂

原始

→

换装

✅

动作一致性验证通过
以上 3 组帧对均取自同一时间点：原始帧中间领舞猫的姿态 → 换装帧单猫姿态。抬腿角度、手臂位置、重心偏移完全对应。

一致性保障机制

多角色 / 多场景外观一致性

N 个角色 × M 张参考图 → 全量输出保持外观统一、位置稳定、风格一致

①

位置锚定（Position Anchor）

Prompt硬编码左中右固定站位 + camerafixed:true 防漂移


左边=小鸡加菲，中间=恐龙橘猫（领舞），右边=西装缅因。左-中-右固定站位。

camerafixed位置锁防漂移

②

统一外观注入（Reference Lock）

同一组角色正/反面图作为 reference_image 贯穿全部帧生成和视频合成

3张角色图全局外观锁零漂移

③

音频节拍匹配（Two-Phase Mix）

Phase 1 纯画面生成（绕过审核）→ Phase 2 ffmpeg -shortest 混入音频自动对齐

🎵 音频波形示意（27s AAC → 截取前15s混入）

ffmpeg -i v -i a -map 0:v -map 1:a -c copy -shortest out ✅ 自动等长裁剪 = 视频15s

④

批量验证迭代

不合格帧单独回炉重绘，不影响已完成帧。支持增量更新。

逐帧验收增量修正不阻塞

02 提效成果 · 美术生产力跃升

从手工出图到 AI 批量管线

WorkBuddy Skill 封装的自动化管线，将逐张手工修图升级为 AI 并行批量产出

⚡

40×

批量处理能力

单次并行处理 40 帧 vs 手工逐一修图

🔄

3 角色

多角色同时换皮

同一 prompt 锁定左/中/右 3 个独立外观

⏱️

~60min

全自动周期

原始视频 → 带音频成品，全程无人值守

📦

1 Skill

一键部署

封装为 WorkBuddy Skill，导入即用

😰传统手工流程

✗

PS 逐帧手绘换装每帧 30-60min，40帧需 20-40 工时

✗

人工一致性检查人眼比对，极易遗漏偏移

✗

AE/Premiere 合成视频导帧→排列→补间→渲染

✗

手动音频同步目视对齐，误差 ±2-3帧

✗

多场景重复劳动换一套皮肤 = 重做全部 40 帧

🚀AI 全自动管线

✓

Gemini 批量 img2img~5min/帧 × 40 ≈ 3.3h 全自动

✓

Prompt + Reference 锚定全局一致，零位置漂移

✓

Seedance 一键合成帧→视频，无需中间件

✓

ffmpeg -shortest 同步毫秒级自动对齐

✓

一键换皮肤包换 3 张角色图即可出新套装

🔧 MCP 工具链架构

WorkBuddy总管调度

3000_MCP上传/生图/生视频

Geminiimg2img 换装

Seedancesubject_reference

ffmpeg音频混入

📍

空间一致性

camerafixed + prompt硬编码位置映射，40帧中每个角色始终占据同一坐标区域

👤

外观一致性

同一组 reference_image 贯穿全帧，服装/配色/材质跨帧统一

🎬

动作一致性

subject_reference 以原视频 Motion 为骨骼蓝本，动作严格对齐

🎵

节奏一致性

两阶段音频混合 + -shortest 自动裁剪，动作与音乐帧级同步

踩坑经验

内测踩坑经验

v1 → v6 六轮迭代总结的避坑指南

🚫 审核误判：「包含真人」拦截

多张 reference_image + reference_audio 组合会触发「包含真人」误判导致失败

✅ 两阶段法：先生成纯画面（不传 audio）→ ffmpeg 后期混音

🔢 app_id 必须是字符串

传数字 31 返回非 JSON 格式错误响应

✅ 固定字符串："app_id": "31" ✓ | "app_id": 31 ✗

🔄 多角色位置漂移

v4 在第3秒处出现两个角色交换位置的 Bug

✅ 三重加固：camerafixed:true + prompt强化位置约束 + 可选切换标准版模型

👥 多人采样无法同步动作

v1 尝试直接用三猫原始视频作为参考，Seedance 无法让三个角色同时保持各自独立的姿态和位置同步

✅ 单人采样法：先裁剪出中间主舞猫的单人画面作为 motion 参考 → 生成单人换装视频 → 后期通过帧级 img2img 补充两侧角色。多人场景必须拆解为单人管线再合成

📐 分辨率/时长硬限制

参考视频 ≤15.2s；像素总数 ∈ [409,600, 927,408]

✅ 预处理脚本：prepare_video.py 自动截取+缩放。推荐 720×1280 ✅

⏱️ Fast 模型排队波动大

名义 10-20min，实际曾遇 60min 极端情况。标准版更稳定

💡 建议：首次用 fast 验证配置；正式出片用标准版保稳定

交付案例

已验证交付案例

v6 最终版完整跑通，参数均已在生产环境验证可用

三只跳舞猫咪 · 换装+音频踩点 v6 Final

fast + camerafixed + 3角色图 + 强化位置prompt + 27s原音频混音

15s

时长

720×1280

分辨率

6.7 MB

大小

H.264+AAC

编码

3 chars

角色

~60min

耗时

模型	doubao-seedance-2-0-fast-260128
任务 ID	cgt-20260421132733-b5frq
镜头锁定	开启 ✓
角色阵容	🐤小鸡加菲(左) · 🦕恐龙橘猫(中·主舞) · 🎩西装缅因(右)
音频	27s 原视频音轨（前 15s 截取）
关键帧	40帧 → Gemini img2img 全量换装 → 40 张输出帧
交付	seedance_v6_final.mp4 ✓

📥 附录资源下载

完整交付物 + 可复用 Skill 一键获取

🎥

成品视频（带音频踩点）

Seedance v6 最终输出：fast模型 + camerafixed + 3角色图 + 27s原音频混入

seedance_v6_final.mp4 · H.264/AAC · 6.69 MB · 15s @ 720×1280

⬇ 下载视频

📦

skill-3000-video-outfit（WorkBuddy Skill）

封装完整的5步工作流：素材准备 → 上传 → 提交生成 → 轮询 → 混音交付。含3个内置脚本 + API参考文档

skill-3000-video-outfit.zip · 15.7 KB · SKILL.md + scripts/ + references/

⬇ 下载 Skill

Roadmap · 演进路线

Coming Soon 即将到来

从角色换装到 UI 界面生成 — 管线能力的下一步扩展方向

Phase Next UI 风格锁定 & 低保真界面生成

从 PNG 截图到稳定风格界面设计

当前管线已实现角色外观一致性锁定。下一阶段目标：将同一方法论迁移至 UI/UX 界面设计领域——通过多组 UI 截图作为风格参考，结合低保真线框图，由 AI 自动生成符合既定视觉规范的高保真界面设计稿。

📸

UI 风格参考

多组 PNG 截图
锁定视觉规范

→

✏️

低保真输入

线框 / 结构稿
定义布局骨架

→

🎨

AI 风格迁移

自动匹配风格
生成高保真界面

→

✅

交付候选集

多版可选
保持一致性

#UI风格迁移 #截图参考学习 #低保真→高保真 #界面一致性