Story Video Generator — 故事视频生成器

v1.0.0

从图片或文字描述自动生成完整视频故事。支持灵活输入（1-N张图片/纯文字/混合），可选时长和风格。当用户要求生成视频故事、视频短片、图片转视频（Image to Video）、文字转视频（Text to Video）时使用。

0· 254·0 当前·0 累计

by @zeng-austin (Zeng-Austin)·MIT-0

开发工具代码生成视频处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install story-video-generator

镜像加速npx clawhub@latest install story-video-generator --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

故事视频生成助手从用户提供的图片或文字描述自动生成完整的视频故事。完整流程：脚本生成 → 主体参考图 → 首帧图片 → 视频片段 → 背景音乐 → 最终合成。

快速开始输入要求图片模式：1-N 张图片（不强制分类，AI 自动识别）文字模式：纯文字描述故事混合模式：图片 + 文字补充可选参数时长：24秒（4段）/ 48秒（默认，8段）/ 72秒（12段）风格（纯文字时）：吉卜力 / 赛博朋克 / 写实 / 水彩 / 像素 / 动漫 / 油画 / 极简 / AI推荐

输出格式生成视频后用以下格式输出：视频路径

执行流程 Step 0: 环境检查检查 FFmpeg 是否可用，不可用则安装接收用户输入（图片/文字）确定时长（未指定默认 48 秒）纯文字时确定风格（未指定则 AI 推荐）

Step 1: 生成故事脚本有图片 → 用 images_understand 分析图片，生成脚本纯文字 → 用 LLM 生成脚本输出：output/story_script.json

Step 1.5: 主体参考图生成基于 analysis.subject 生成主体参考图作为整个视频视觉一致性的锚点输出：output/subject_reference.png

Step 2: 首帧图片生成（串联）必须逐帧生成，每帧用主体参考图 + 上一帧作为双重参考禁止并行生成输出：output/frames/frame_01.png - frame_N.png

Step 3: 视频片段生成从首帧图片生成视频片段参数：duration=6秒，resolution=768P 输出：output/videos/segment_01.mp4 - segment_N.mp4

Step 4: 背景音乐生成（可与 Step 3 并行）生成无歌词 BGM，时长等于视频总时长输出：output/bgm.mp3

Step 5: 视频拼接与音乐合成使用 FFmpeg 拼接视频片段并叠加 BGM 输出：output/final_video.mp4

关键约束参数值每段时长 6秒（固定）视频分辨率 768P 背景音乐无歌词纯音乐

常用工具工具用途 images_understand 分析图片生成脚本 gen_images 生成首帧图片 gen_videos 生成视频片段 gen_music 生成背景音乐 exec + FFmpeg 拼接视频与合成音频

常见错误首帧并行生成 → 角色一致性无法保证每段未重复主体特征 → 角色长相漂移 BGM 带歌词 → 必须强调 instrumental, no vocals 跳过主体参考图 → 视觉一致性无法保证

License

运行时依赖

安装命令

技能文档

相关技能推荐