上传6张服装图,10分钟生成一段节奏精准的AI换装卡点视频——全程自动化,无需手动剪辑一秒。
卡点换装是短视频平台上最容易引爆流量的内容形式之一:模特随音乐节奏逐一展示多套服装,每套在节拍点瞬间切换,视觉冲击力极强。这类视频在时尚、电商、穿搭类账号中频频出圈。
但它的制作门槛也极高——你需要拍摄多条素材、逐帧对齐音乐节拍、手动剪辑每个换装瞬间。一条15秒的卡点视频,往往耗费数小时。
现在,扣子工作流把整个过程完全自动化了。你只需上传最多6张服装图、设定视频时长,剩下的全部交给AI。
卡点换装的三个核心难题
卡点换装视频的技术难点有三个:
- 服装数量多:通常展示3-6套服装,每套都要在画面中清晰呈现
- 节奏对齐:换装瞬间必须精准卡在音乐节拍上,差一帧效果大打折扣
- 角色一致性:模特的脸、身材、发型在多次换装中必须保持统一
这套工作流用自动化链路逐一解决了这些问题。
从服装图到卡点视频:全流程拆解
第一步:极简输入,开箱即用
工作流入口只需要四样东西:
- API密钥:调用AI服务的凭证
- 6张服装图片:对应6套待展示的服装
- 视频时长:3-15秒,建议10秒以上效果更佳
上传6套服装即可生成卡点换装视频,全程无需输入任何提示词——所有提示词已预设在工作流中。
第二步:AI自动生成“数字模特”
工作流调用图片生成插件自动生成一位商业大片质感的模特形象。提示词预设为:
“高清写实摄影,年轻东亚戴墨镜女性模特,身材匀称,妆容精致自然,长发温柔,正面全身照,站姿优雅大方,身穿时尚女装,背景简约干净,光线柔和均匀,质感高级,细节清晰,肤色自然,无畸变,无水印,商业服装大片质感”
工作流设计了智能兜底机制:首先生成包含墨镜的标准模特图;若生成失败,自动调用备用方案生成带马赛克处理的版本(规避侵权风险),确保流程在任何情况下都能产出可用素材。
第三步:素材智能整合
生成的两张模特图经过三个环节的处理:
- 变量聚合:将即梦生成的两个结果合并为一个整体
- 字符转列表:将聚合结果转换为列表格式,便于后续处理
- 代码节点整合:将模特图与用户上传的6张服装图合并为单一参考图列表
这个列表最终作为Happyhorse的参考图输入,让AI知道“模特长什么样”“服装长什么样”。
第四步:Happyhorse卡点视频生成
核心环节调用Horse视频生成插件,预设提示词为:
“帮我生成一个视频:参考【@图1】图片的人物,依次搭配【@图2】到【@图7】的服装,制作跳舞变装视频,节奏感强的背景音乐,卡点变装,变装时有特效”
Happyhorse接收到合并后的参考图列表后,会以模特图为身份锚点,依次将多套服装“穿”在模特身上,生成连贯的舞蹈动作和卡点变装效果。
第五步:轮询等待与自动输出
提交任务后进入自动轮询机制(最多10次,每次间隔60秒),系统持续查询任务状态,直到视频生成完成。最终自动输出去空值后的视频链接。
技术规格一览
| 参数 | 说明 |
|---|---|
| 输入 | API密钥 + 6张服装图 + 视频时长(3-15秒) |
| 模特生成 | 图片生成,9:16竖版,图片4.0模型 |
| 核心接口 | Horse视频生成(horse_video_generate) |
| 输出分辨率 | 720P或1080P |
| 视频比例 | 9:16(竖版短视频) |
| 最大等待时间 | 10分钟 |
关键认知:这是“生成”不是“编辑”
需要特别区分的是,这套卡点换装工作流与常规的视频编辑换装在底层逻辑上完全不同:
| 视频编辑换装 | 卡点换装(本工作流) | |
|---|---|---|
| 核心接口 | horse_edit_video | horse_video_generate |
| 核心能力 | 在原视频基础上替换服装 | 基于参考图从零生成新视频 |
| 输入要求 | 必须有参考视频 | 只需服装图 + AI生成模特图 |
| 输出内容 | 保留原动作的换装视频 | 全新生成的卡点舞蹈视频 |
| 适用场景 | 已有素材二次修改 | 从零快速产出创意视频 |
这套卡点换装工作流的本质是AI视频生成,而非视频编辑——它不依赖任何现有视频素材,完全基于参考图生成全新的舞蹈动作和换装效果。
应用场景:谁能用,怎么用
- 服装电商卖家:上传新品服装图,快速生成展示视频,无需模特实拍
- 时尚品牌营销:批量产出卡点变装广告素材,测试不同风格的市场反馈
- 短视频内容创作者:高频产出换装类短视频,保持账号日更节奏
- 跨境商家:Happyhorse支持多语言提示词,可适配不同目标市场








