宠物带货视频进阶指南：从能用到好用，AI工作流升级全拆解

输入宠物种类、穿搭描述和产品图，AI自动生成一只“会动会吃会玩”的宠物带货视频——从生图到配音到字幕到成片，全自动一站式交付。

宠物带货视频是短视频平台的流量密码——萌宠吃东西、玩玩具，配上幽默吐槽文案，点赞转发数据往往比普通带货视频高出好几倍。

但制作门槛也高：需要宠物配合拍摄、需要逐句配音、需要手动对齐字幕、需要添加背景音乐……一条15秒的视频，从拍摄到剪辑，少说两三个小时。

这套工作流把整个过程变成了：输入宠物信息 → 上传产品图 → 点击运行。AI负责写文案、配音、生图、生视频、合成字幕、配背景音乐——一条龙到成片。

演示视频

从输入到成片：全流程拆解

第一步：输入信息，AI生成文案和生图提示词

工作流入口只需要五个参数：

宠物种类（如“金毛”“比熊犬”）
产品名称（如“狗狗训练奖励零食肉干”）
产品图片（带货的产品图）
宠物穿搭（如“韩式秋冬帽衫”）
API密钥

第一个大模型节点接收这些信息，同时完成两件事：

只单独售卖工作流，额外API费用请单独付费

此处内容已隐藏，请付费后查看

1. 生成宠物图片提示词

示例：一只活泼的小狗，身穿韩式秋冬帽衫，蹲在精致狗碗前，舔唇后迫不及待低头大口咀嚼碗里颗粒均匀的宠率全价无谷狗粮，温馨居家客厅背景。

2. 生成带货文案

风格固定为幽默吐槽、埋怨自家宠物的搞笑口吻，贴合短视频流量风格：

示例1：“吃吃吃，穿上漂亮小衣服还不停炫粮，铲屎官都被你吃穷了，再吃下去只能你自己去当牛马养活自己。”

示例2：“玩玩玩，就知道抱着玩具疯玩，穿着精致穿搭也不肯搭理我，合着我在公司给别人当牛马，回家还要伺候你。”

文案断句：每段纯汉字不超过15个字，便于后续配音和字幕对齐。断句后的分段文案以列表形式输出。

第二步：生成宠物图片 + 语音合成（并行）

路径一：即梦生成宠物图片

第一个大模型输出的生图提示词传入即梦图片生成插件（jimeng_generate_image，图片4.0模型，9:16比例），生成一张符合描述的宠物图片。

这张图将作为后续图生视频的首帧画面。

路径二：语音合成

断句文案传入循环节点，对每段文案调用语音合成插件（speech_synthesis），生成对应的音频文件。

关键参数：

语速1.2倍（贴合短视频快节奏风格）
音色：萌丫头（活泼可爱，适合宠物内容）
循环输出音频链接列表

第三步：音频时间线 + 智能时长判断

音频时间线插件从音频列表中提取每条音频的起止时间（微秒级），生成完整的时间线列表。

选择器节点判断音频总时长是否≥5秒：

≥5秒 → 进入完整视频合成流程
<5秒 → 走简化流程（跳过部分字幕）

第四步：画板处理产品图

画板节点将用户上传的产品图裁剪为1080×1920的竖版尺寸，生成标准化的产品图素材。

第五步：大模型生成视频提示词 + 产品描述词

第二个大模型节点接收宠物图、生图提示词、断句文案、产品图，生成两样东西：

1. 图生视频提示词

规则：

玩具/用品类：必须描绘宠物四脚落地后跑动、跳动、转圈、摇摆身体等较大动作，与产品互动
食物类：描绘宠物吃食物的可爱画面细节
动作描述要符合实际（如“追着玩具跑动”，而非后脚站立）

2. 产品描述词

2-3句，每句不超过15个字。例如：“肉干鲜香有嚼劲”、“一闻就馋得直转圈”。

第六步：代码节点智能分割图片时间线

代码节点根据音频总时长和描述词数量，智能计算每张产品图在视频中的显示时间：

如果音频总时长 > 5秒，扣除前5秒留作宠物画面
剩余时间按描述词数量平均分配
生成每张图对应的起止时间线

例如：音频总时长13秒 → 前5秒宠物视频 → 剩余8秒展示产品图（共2张描述词，每张4秒）

第七步：多条数据整理路径

五条数据整理路径并行运行，为剪映合成准备素材：

路径	插件	功能
音频数据整理	`audio_infos`	将配音音频整理为剪映可识别的格式
字幕数据整理	`caption_infos`	将断句文案整理为字幕数据（配音字幕）
图片数据整理	`imgs_infos`	将产品图按时间线整理为图片素材
描述词字幕整理	`caption_infos`	将产品描述词整理为字幕数据（底部文案）
视频时间线制作	`timelines`	创建10秒视频时间轴

第八步：即梦图生视频

经过负向提示词增强（“宠物四脚落地跑动时绝不能出现多手多脚，转圈时也不能头转身体不转，画面真实流畅自然，现场实拍效果，不要慢动作”）的提示词，连同首帧宠物图一起传入即梦视频生成插件（jimeng_generate_video，视频3.0模型，10秒），生成一段宠物与产品互动的动态视频。

第九步：剪映草稿合成——全自动交付

这是工作流的“最后一公里”——在剪映中自动创建草稿并组装所有元素：

1. 创建草稿（create_draft）
创建1080×1920竖版空白草稿。

2. 添加配音（add_audios）
将合成好的配音音频添加到时间轴。

3. 添加视频（add_videos）
将即梦生成的宠物视频添加到时间轴。

4. 选择器判断

如果产品图片存在 → 添加图片（add_images）
否则 → 跳转添加文案字幕

5. 添加配音字幕（add_captions）
将断句文案作为字幕添加到画面指定位置（Y偏移-1300，靠近画面顶部），字体“悠然体”，主色#ffde00黄色，边框#8863ff紫色。

6. 添加产品描述词字幕（add_captions）
将产品描述词作为字幕添加到画面底部（Y偏移999），主色#333333深灰，边框#87CEEB天蓝。

7. 添加背景音乐（add_audios）
工作流内置了一段宠物带货专用的背景音乐，自动合成到草稿中。

最终输出：剪映草稿ID。用户打开剪映即可看到完整合成好的视频，直接导出或微调后导出。

技术规格一览

参数	说明
输入	宠物种类 + 产品图片 + 产品名称 + 宠物穿搭 + API密钥
大模型1	豆包·2.0·Mini（生成文案+生图提示词）
大模型2	豆包·2.0·Mini（生成视频提示词+产品描述词）
宠物图生成	即梦图片生成（图片4.0，9:16）
视频生成	即梦视频生成（视频3.0，10秒）
语音合成	扣子语音合成（语速1.2倍，音色“萌丫头”）
视频合成	剪映小助手（创建草稿+添加音视频+添加字幕+添加BGM）
输出分辨率	1080×1920（竖版）
输出内容	剪映草稿ID（可直接导出或微调）

进阶在哪？

相比普通宠物带货视频工作流，这套工作流实现了三个关键升级：

维度	基础版	进阶版（本工作流）
文案	单独生成	生成+断句（每段≤15字）
配音	无	语音合成+语速1.2倍
字幕	无	配音字幕+产品描述词双字幕
产品展示	单一画面	按时间线智能分割多段展示
成片	仅视频素材	剪映草稿（含音视频+字幕+BGM）