📦 Image & Video Generation — 图像与视频生成

v1.0.1

AI 图片与视频异步生成技能，调用 AI Artist API 根据文本提示词生成图片或视频，自动轮询直到任务完成。⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key！获取 API Key：访问 https://ai.deepsop.com/ 注册登录后创建。支持图片模...

0· 18·0 当前·0 累计

by @kukuoai

开发工具代码生成 API开发 AI模型访问安全

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install image-video-gen

镜像加速npx clawhub@latest install image-video-gen --registry https://cn.longxiaskill.com

技能文档

AI Image Generator 异步生成 AI 图片与视频的技能。 ⚠️ 首次使用必读

获取 API Key

访问 https://ai.deepsop.com/ 注册并登录，然后创建你的 API Key。

设置环境变量

在使用前，你必须先设置自己的 API Key： # Linux/macOS/Git Bash (Windows) export AI_ARTIST_TOKEN="sk-your_api_key_here" # Windows PowerShell $env:AI_ARTIST_TOKEN="sk-your_api_key_here"

验证配置

验证配置是否正确： python3 scripts/test_config.py 详细配置说明请查看下方“环境配置”章节。

快速开始 # 图片生成（默认 DeepSop·3.1Nano2-Evo） python3 scripts/generate_image.py "一只可爱的猫" # 视频生成（默认 DeepSop·V3.1FB） python3 scripts/generate_video.py "海边日落风景"

参考图/视频上传流程当用户提供本地文件作为参考图或参考视频时，需要先调用文件上传 API 转换为可访问的 URL：文件上传 API curl --location --request POST 'https://ai.deepsop.com/prod-api/system/fileUpload/upload' \ --header 'x-api-key: sk-your_api_key_here' \ --form 'file=@"C:\\Users\\admin\\Downloads\\image.png"' 返回结果： { "msg": "操作成功", "fileName": "image.png", "code": 200, "url": "https://kocgo-ai-sales-test.oss-cn-hangzhou.aliyuncs.com/material/100/xxx.png" } 使用上传后的 URL 获取到 url 后，可作为 firstImageUrl、lastImageUrl、imageUrlList、videoUrlList 或 elementList 等参数传入生成接口。

在对话中直接返回图片/视频方式 1: Markdown 语法（推荐）生成图片后，直接在回复中使用 Markdown 语法： !图片描述 !视频描述平台支持情况： ✅ WebChat、Discord、Telegram：完全支持 ✅ 飞书：支持（需公开 URL） ❌ WhatsApp：不支持

方式 2: 下载后发送（需要 message 工具）使用 --download 参数下载媒体文件，然后通过 message 工具发送： python3 scripts/generate_image.py "风景画" --download python3 scripts/generate_video.py "海边" --download 比如图片生成接着在代码中读取图片并发送： from scripts.generate_image import generate_image import base64 result = generate_image(prompt="风景画", download=True) if result and result["status"] == "SUCCESS": # 方式 A: 使用 data URI image_uri = result["data_uri"] # data:image/png;base64,... # 方式 B: 读取本地文件 with open(result["local_path"], "rb") as f: image_data = f.read() base64_data = base64.b64encode(image_data).decode()

参数说明通用参数参数默认值说明 prompt 必填生成提示词（图片或视频描述） --model 图片: DeepSop·3.1Nano2-Evo / 视频: DeepSop·V3.1FB 生成模型（详见下方模型列表） --interval 5 轮询间隔(秒) --download - 下载媒体文件到本地 --output-dir workspace/images（图片） / workspace/videos（视频）文件保存目录

图片专属参数参数默认值说明 --quality 按模型自动匹配图片质量：1K、2K、3K、4K（具体支持见下方模型能力表） --size 按模型自动匹配图片比例：1:1、3:4、4:3、16:9、9:16、2:3、3:2、4:5、5:4、1:4、4:1、1:8、8:1、21:9、auto（具体支持见下方模型能力表） --download - 下载图片到本地 --output-dir workspace/images 图片保存目录 --markdown-output - 以 Markdown 格式输出图片链接 --reference-image - 参考图本地路径，自动上传后作为 image-to-image 参考 --reference-image-url - 参考图已有 URL（不需上传） --web-search - 开启联网搜索（图像: S5.0L、N2-Evo；视频: Seedance2.0/Fast） --ratiocination medium 渲染质量：low/medium/high（仅 GPT_IMAGE2） --image-n 1 生成图片数量（1-10，仅 GPT_IMAGE2）

视频专属参数参数默认值说明 --generation-type TEXT 生成类型：TEXT（文生视频）、FIRST&LAST（首尾帧生视频）、REFERENCE（参考图生视频）、CONTINUATION（视频续写）、EDIT（视频编辑）、FEATURE（参考视频生视频） --ratio 按模型自动匹配画面比例（具体支持见下方模型能力表） --resolution 按模型自动匹配视频分辨率：480p、720p、1080p、2K、4K（具体支持见下方模型能力表） --duration 按模型自动匹配视频时长（秒），不同模型支持范围不同 --mode std 生成模式：std（标准模式）、pro（专家模式/高品质）（仅 Kling V3 Omni 支持） --first-image-url - 首帧参考图 URL --last-image-url - 尾帧参考图 URL --first-image - 首帧参考图本地路径，自动上传后转换为 URL --last-image - 尾帧参考图本地路径，自动上传后转换为 URL --first-clip-url - 续写/编辑参考视频 URL --first-clip - 续写/编辑参考视频本地路径，自动上传后转换为 URL --image-url-list - 参考图片 URL 列表（用于参考图生视频） --video-url-list - 参考视频 URL 列表（用于 R2V 模型） --element-list - 参考主体 URL 列表（用于 Kling V3 Omni） --generate-audio - 开启音频生成（按模型能力生效） --no-audio - 关闭音频生成（按模型能力生效） --keep-original-sound - 保留视频原声（仅 Kling V3 Omni） --prompt-extend - 开启智能提示词改写（Wan系列支持） --enhance-prompt - 开启提示词翻译成英文（Veo3.1系列支持） --negative-prompt - 负向提示词（Veo3.1 Fast/Pro、Wan系列支持） --shot-type single 镜头模式：single（单镜头）、multi（智能分镜）、customize（自定义分镜） --duration-switch - 时长模式开关（仅 S1.5Pro） --person-generation allow_adult 是否允许生成人物：allow_adult、dont_allow（仅 Veo3.1 Fast/Pro） --resize-mode pad 图像缩放模式：pad（调整图片）、crop（裁剪图片）（仅 Veo3.1 Fast/Pro） --multi-shot - 是否多镜头（仅 Kling V3 Omni） --n 1 生成视频数量（仅 Veo3.1 Fast/Pro） --audio-url - 参考音频 URL（Wan系列 T2V/I2V 支持） --audio-url-list - 参考音频 URL 列表（逗号分隔，Seedance2.0/Fast） --audio-path-list - 参考音频本地路径列表（逗号分隔） --image-path-list - 参考图本地路径列表（逗号分隔，自动上传） --video-path-list - 参考视频本地路径列表（逗号分隔） --video-n - 生成视频数量（仅 Veo3.1Fast/Pro）

支持的模型图片模型模型 methodType 支持质量支持比例联网搜索特点 S4.5 0 2K, 4K 除 auto 外所有比例 ❌ 电影级画质4K，角色一致性 N1 1 1K 除 21:9、4:5、5:4、1:4、4:1、1:8、8:1 外 ❌ 支持多模态输入，精细参数调节 N2 2 1K, 2K, 4K 所有比例 ❌ 卓越的文字渲染和角色一致性 N2-147 3 1K, 2K, 4K 除 auto、1:4、4:1、1:8、8:1 外 ❌ 147版本，支持多模态输入 S5.0L

数据来源：ClawHub ↗ · 中文优化：龙虾技能库