AI Visual Generation Pipeline 智能视觉批量生成
基于 3000 MCP 内测 · 底层模型可替换为任意制图大模型 API

构建自动化创意工厂 Automated Creative Factory at Scale

将参考与角色设计归档至文件夹,由 WorkBuddy 自动完成全链路匹配与批量生成

从重复劳动中释放创作力,让美术团队回归创意决策核心

40×
批量输出
N
角色可选
~60min
全自动
1 Skill
套用即跑
— Mercurewang  ·  2026.04
01 管线原理 · 双文件夹输入 → 批量输出

通用 AI 视觉生成管线

美术只需准备两组素材放入指定文件夹,WorkBuddy 自动完成匹配、生成、筛选全流程

01
📂

参考素材夹

文字 / 图片 / 视频
任意组合放入即可
自动解析提取

输入 Input
02
👤

角色设计夹

角色正 / 背面图
多套服装可选
外观基准锁定

输入 Input
03
⚙️

自动匹配生成

Gemini img2img
逐张逐帧批量处理
多角色并行

核心 Core
04
🖼️

高质量候选集

N × M 张可选图
一致性保障
创意决策空间

输出 Output
👗 角色设计参考 多视角输入 · 锁定一致性外观基准
三角色全身正面
🔵 正面视图 Front 🐤 小鸡加菲 · 🦕 恐龙橘猫(主) · 🎩 西装缅因
三角色全身背面
⚪ 背面视图 Back 防止背对镜头时外观漂移
📐 单角色多视角 — 精准锁定每个角色的外观特征
角色001正面 角色001背面 恐龙橘猫
角色002正面 角色002背面 小鸡加菲
角色003正面 角色003背面 西装缅因
视频场景验证 · 动作保真度

当参考素材为视频时:逐帧一致性验证

以跳舞猫咪换装为例,验证管线在视频场景下的动作保真能力 — 左侧原始帧 | 右侧 AI 换装输出,姿态完全一致

📷 原始帧 #10 · 双手叉腰 原始帧
原始关键帧 第10帧
原始视频 — 中间黄虎服猫咪双手叉腰站立
注意:左右两只同伴猫作为背景参考
VS
🎨 换装帧 #10 · 双手叉腰 换装帧
换装输出帧 第10帧
Gemini 换装输出 — 绿色恐龙服橘猫,相同叉腰姿势
✅ 动作、重心、体态完全复刻
📹 逐帧动作匹配验证(3 组精选配对 — 点击查看)
#01 抬腿
src01
原始
gen01
换装
#10 叉腰
src10
原始
gen10
换装
#40 展臂
src40
原始
gen40
换装
动作一致性验证通过
以上 3 组帧对均取自同一时间点:原始帧中间领舞猫的姿态 → 换装帧单猫姿态。抬腿角度、手臂位置、重心偏移完全对应。
一致性保障机制

多角色 / 多场景外观一致性

N 个角色 × M 张参考图 → 全量输出保持外观统一、位置稳定、风格一致

位置锚定(Position Anchor)

Prompt硬编码左中右固定站位 + camerafixed:true 防漂移

左边=小鸡加菲,中间=恐龙橘猫(领舞),右边=西装缅因。左-中-右固定站位。
camerafixed位置锁防漂移

统一外观注入(Reference Lock)

同一组角色正/反面图作为 reference_image 贯穿全部帧生成和视频合成

3张角色图全局外观锁零漂移

音频节拍匹配(Two-Phase Mix)

Phase 1 纯画面生成(绕过审核)→ Phase 2 ffmpeg -shortest 混入音频自动对齐

🎵 音频波形示意(27s AAC → 截取前15s混入)
ffmpeg -i v -i a -map 0:v -map 1:a -c copy -shortest out ✅ 自动等长裁剪 = 视频15s

批量验证迭代

不合格帧单独回炉重绘,不影响已完成帧。支持增量更新。

逐帧验收增量修正不阻塞
02 提效成果 · 美术生产力跃升

从手工出图到 AI 批量管线

WorkBuddy Skill 封装的自动化管线,将逐张手工修图升级为 AI 并行批量产出

40×
批量处理能力
单次并行处理 40 帧 vs 手工逐一修图
🔄
3 角色
多角色同时换皮
同一 prompt 锁定左/中/右 3 个独立外观
⏱️
~60min
全自动周期
原始视频 → 带音频成品,全程无人值守
📦
1 Skill
一键部署
封装为 WorkBuddy Skill,导入即用
😰传统手工流程
PS 逐帧手绘换装每帧 30-60min,40帧需 20-40 工时
人工一致性检查人眼比对,极易遗漏偏移
AE/Premiere 合成视频导帧→排列→补间→渲染
手动音频同步目视对齐,误差 ±2-3帧
多场景重复劳动换一套皮肤 = 重做全部 40 帧
🚀AI 全自动管线
Gemini 批量 img2img~5min/帧 × 40 ≈ 3.3h 全自动
Prompt + Reference 锚定全局一致,零位置漂移
Seedance 一键合成帧→视频,无需中间件
ffmpeg -shortest 同步毫秒级自动对齐
一键换皮肤包换 3 张角色图即可出新套装
🔧 MCP 工具链架构
WorkBuddy总管调度
3000_MCP上传/生图/生视频
Geminiimg2img 换装
Seedancesubject_reference
ffmpeg音频混入
📍
空间一致性
camerafixed + prompt硬编码位置映射,40帧中每个角色始终占据同一坐标区域
👤
外观一致性
同一组 reference_image 贯穿全帧,服装/配色/材质跨帧统一
🎬
动作一致性
subject_reference 以原视频 Motion 为骨骼蓝本,动作严格对齐
🎵
节奏一致性
两阶段音频混合 + -shortest 自动裁剪,动作与音乐帧级同步
踩坑经验

内测踩坑经验

v1 → v6 六轮迭代总结的避坑指南

P0

🚫 审核误判:「包含真人」拦截

多张 reference_image + reference_audio 组合会触发「包含真人」误判导致失败

✅ 两阶段法:先生成纯画面(不传 audio)→ ffmpeg 后期混音
P0

🔢 app_id 必须是字符串

传数字 31 返回非 JSON 格式错误响应

✅ 固定字符串:"app_id": "31" ✓   |   "app_id": 31 ✗
P1

🔄 多角色位置漂移

v4 在第3秒处出现两个角色交换位置的 Bug

✅ 三重加固:camerafixed:true + prompt强化位置约束 + 可选切换标准版模型
P1

👥 多人采样无法同步动作

v1 尝试直接用三猫原始视频作为参考,Seedance 无法让三个角色同时保持各自独立的姿态和位置同步

✅ 单人采样法:先裁剪出中间主舞猫的单人画面作为 motion 参考 → 生成单人换装视频 → 后期通过帧级 img2img 补充两侧角色。多人场景必须拆解为单人管线再合成
P1

📐 分辨率/时长硬限制

参考视频 ≤15.2s;像素总数 ∈ [409,600, 927,408]

✅ 预处理脚本:prepare_video.py 自动截取+缩放。推荐 720×1280 ✅
P2

⏱️ Fast 模型排队波动大

名义 10-20min,实际曾遇 60min 极端情况。标准版更稳定

💡 建议:首次用 fast 验证配置;正式出片用标准版保稳定
交付案例

已验证交付案例

v6 最终版完整跑通,参数均已在生产环境验证可用

三只跳舞猫咪 · 换装+音频踩点 v6 Final
fast + camerafixed + 3角色图 + 强化位置prompt + 27s原音频混音
15s
时长
720×1280
分辨率
6.7 MB
大小
H.264+AAC
编码
3 chars
角色
~60min
耗时
模型doubao-seedance-2-0-fast-260128
任务 IDcgt-20260421132733-b5frq
镜头锁定开启 ✓
角色阵容🐤小鸡加菲(左) · 🦕恐龙橘猫(中·主舞) · 🎩西装缅因(右)
音频27s 原视频音轨(前 15s 截取)
关键帧40帧 → Gemini img2img 全量换装 → 40 张输出帧
交付seedance_v6_final.mp4 ✓
🎬 seedance_v6_final.mp4 — 三只跳舞猫咪换装 + 音频踩点 15s · 720×1280 · H.264+AAC · 6.7MB

📥 附录资源下载

完整交付物 + 可复用 Skill 一键获取

🎥
成品视频(带音频踩点)
Seedance v6 最终输出:fast模型 + camerafixed + 3角色图 + 27s原音频混入
seedance_v6_final.mp4 · H.264/AAC · 6.69 MB · 15s @ 720×1280
⬇ 下载视频
📦
skill-3000-video-outfit(WorkBuddy Skill)
封装完整的5步工作流:素材准备 → 上传 → 提交生成 → 轮询 → 混音交付。含3个内置脚本 + API参考文档
skill-3000-video-outfit.zip · 15.7 KB · SKILL.md + scripts/ + references/
⬇ 下载 Skill
Roadmap · 演进路线

Coming Soon 即将到来

从角色换装到 UI 界面生成 — 管线能力的下一步扩展方向

Phase Next UI 风格锁定 & 低保真界面生成

从 PNG 截图到稳定风格界面设计

当前管线已实现角色外观一致性锁定。下一阶段目标:将同一方法论迁移至 UI/UX 界面设计领域——通过多组 UI 截图作为风格参考,结合低保真线框图, 由 AI 自动生成符合既定视觉规范的高保真界面设计稿

📸
UI 风格参考
多组 PNG 截图
锁定视觉规范
✏️
低保真输入
线框 / 结构稿
定义布局骨架
🎨
AI 风格迁移
自动匹配风格
生成高保真界面
交付候选集
多版可选
保持一致性
#UI风格迁移 #截图参考学习 #低保真→高保真 #界面一致性