输入宠物种类、穿搭描述和产品图,AI自动生成一只“会动会吃会玩”的宠物带货视频——从生图到配音到字幕到成片,全自动一站式交付。
宠物带货视频是短视频平台的流量密码——萌宠吃东西、玩玩具,配上幽默吐槽文案,点赞转发数据往往比普通带货视频高出好几倍。
但制作门槛也高:需要宠物配合拍摄、需要逐句配音、需要手动对齐字幕、需要添加背景音乐……一条15秒的视频,从拍摄到剪辑,少说两三个小时。
这套工作流把整个过程变成了:输入宠物信息 → 上传产品图 → 点击运行。AI负责写文案、配音、生图、生视频、合成字幕、配背景音乐——一条龙到成片。
从输入到成片:全流程拆解
第一步:输入信息,AI生成文案和生图提示词
工作流入口只需要五个参数:
- 宠物种类(如“金毛”“比熊犬”)
- 产品名称(如“狗狗训练奖励零食肉干”)
- 产品图片(带货的产品图)
- 宠物穿搭(如“韩式秋冬帽衫”)
- API密钥
第一个大模型节点接收这些信息,同时完成两件事:
1. 生成宠物图片提示词
示例:一只活泼的小狗,身穿韩式秋冬帽衫,蹲在精致狗碗前,舔唇后迫不及待低头大口咀嚼碗里颗粒均匀的宠率全价无谷狗粮,温馨居家客厅背景。
2. 生成带货文案
风格固定为幽默吐槽、埋怨自家宠物的搞笑口吻,贴合短视频流量风格:
示例1:“吃吃吃,穿上漂亮小衣服还不停炫粮,铲屎官都被你吃穷了,再吃下去只能你自己去当牛马养活自己。”
示例2:“玩玩玩,就知道抱着玩具疯玩,穿着精致穿搭也不肯搭理我,合着我在公司给别人当牛马,回家还要伺候你。”
文案断句:每段纯汉字不超过15个字,便于后续配音和字幕对齐。断句后的分段文案以列表形式输出。
第二步:生成宠物图片 + 语音合成(并行)
路径一:即梦生成宠物图片
第一个大模型输出的生图提示词传入即梦图片生成插件(jimeng_generate_image,图片4.0模型,9:16比例),生成一张符合描述的宠物图片。
这张图将作为后续图生视频的首帧画面。
路径二:语音合成
断句文案传入循环节点,对每段文案调用语音合成插件(speech_synthesis),生成对应的音频文件。
关键参数:
- 语速1.2倍(贴合短视频快节奏风格)
- 音色:萌丫头(活泼可爱,适合宠物内容)
- 循环输出音频链接列表
第三步:音频时间线 + 智能时长判断
音频时间线插件从音频列表中提取每条音频的起止时间(微秒级),生成完整的时间线列表。
选择器节点判断音频总时长是否≥5秒:
- ≥5秒 → 进入完整视频合成流程
- <5秒 → 走简化流程(跳过部分字幕)
第四步:画板处理产品图
画板节点将用户上传的产品图裁剪为1080×1920的竖版尺寸,生成标准化的产品图素材。
第五步:大模型生成视频提示词 + 产品描述词
第二个大模型节点接收宠物图、生图提示词、断句文案、产品图,生成两样东西:
1. 图生视频提示词
规则:
- 玩具/用品类:必须描绘宠物四脚落地后跑动、跳动、转圈、摇摆身体等较大动作,与产品互动
- 食物类:描绘宠物吃食物的可爱画面细节
- 动作描述要符合实际(如“追着玩具跑动”,而非后脚站立)
2. 产品描述词
2-3句,每句不超过15个字。例如:“肉干鲜香有嚼劲”、“一闻就馋得直转圈”。
第六步:代码节点智能分割图片时间线
代码节点根据音频总时长和描述词数量,智能计算每张产品图在视频中的显示时间:
- 如果音频总时长 > 5秒,扣除前5秒留作宠物画面
- 剩余时间按描述词数量平均分配
- 生成每张图对应的起止时间线
例如:音频总时长13秒 → 前5秒宠物视频 → 剩余8秒展示产品图(共2张描述词,每张4秒)
第七步:多条数据整理路径
五条数据整理路径并行运行,为剪映合成准备素材:
| 路径 | 插件 | 功能 |
|---|---|---|
| 音频数据整理 | audio_infos | 将配音音频整理为剪映可识别的格式 |
| 字幕数据整理 | caption_infos | 将断句文案整理为字幕数据(配音字幕) |
| 图片数据整理 | imgs_infos | 将产品图按时间线整理为图片素材 |
| 描述词字幕整理 | caption_infos | 将产品描述词整理为字幕数据(底部文案) |
| 视频时间线制作 | timelines | 创建10秒视频时间轴 |
第八步:即梦图生视频
经过负向提示词增强(“宠物四脚落地跑动时绝不能出现多手多脚,转圈时也不能头转身体不转,画面真实流畅自然,现场实拍效果,不要慢动作”)的提示词,连同首帧宠物图一起传入即梦视频生成插件(jimeng_generate_video,视频3.0模型,10秒),生成一段宠物与产品互动的动态视频。
第九步:剪映草稿合成——全自动交付
这是工作流的“最后一公里”——在剪映中自动创建草稿并组装所有元素:
1. 创建草稿(create_draft)
创建1080×1920竖版空白草稿。
2. 添加配音(add_audios)
将合成好的配音音频添加到时间轴。
3. 添加视频(add_videos)
将即梦生成的宠物视频添加到时间轴。
4. 选择器判断
- 如果产品图片存在 → 添加图片(add_images)
- 否则 → 跳转添加文案字幕
5. 添加配音字幕(add_captions)
将断句文案作为字幕添加到画面指定位置(Y偏移-1300,靠近画面顶部),字体“悠然体”,主色#ffde00黄色,边框#8863ff紫色。
6. 添加产品描述词字幕(add_captions)
将产品描述词作为字幕添加到画面底部(Y偏移999),主色#333333深灰,边框#87CEEB天蓝。
7. 添加背景音乐(add_audios)
工作流内置了一段宠物带货专用的背景音乐,自动合成到草稿中。
最终输出:剪映草稿ID。用户打开剪映即可看到完整合成好的视频,直接导出或微调后导出。
技术规格一览
| 参数 | 说明 |
|---|---|
| 输入 | 宠物种类 + 产品图片 + 产品名称 + 宠物穿搭 + API密钥 |
| 大模型1 | 豆包·2.0·Mini(生成文案+生图提示词) |
| 大模型2 | 豆包·2.0·Mini(生成视频提示词+产品描述词) |
| 宠物图生成 | 即梦图片生成(图片4.0,9:16) |
| 视频生成 | 即梦视频生成(视频3.0,10秒) |
| 语音合成 | 扣子语音合成(语速1.2倍,音色“萌丫头”) |
| 视频合成 | 剪映小助手(创建草稿+添加音视频+添加字幕+添加BGM) |
| 输出分辨率 | 1080×1920(竖版) |
| 输出内容 | 剪映草稿ID(可直接导出或微调) |
进阶在哪?
相比普通宠物带货视频工作流,这套工作流实现了三个关键升级:
| 维度 | 基础版 | 进阶版(本工作流) |
|---|---|---|
| 文案 | 单独生成 | 生成+断句(每段≤15字) |
| 配音 | 无 | 语音合成+语速1.2倍 |
| 字幕 | 无 | 配音字幕+产品描述词双字幕 |
| 产品展示 | 单一画面 | 按时间线智能分割多段展示 |
| 成片 | 仅视频素材 | 剪映草稿(含音视频+字幕+BGM) |
一句话概括:基础版给素材,进阶版给成品。
应用场景
- 宠物食品/玩具卖家:快速生成宠物试吃/试玩带货视频
- 宠物博主:高频产出宠物日常+带货内容,保持日更节奏
- 宠物品牌方:批量生成多品种、多产品的广告素材
- 代运营公司:服务多个宠物品牌,标准化内容生产流程




























