📦 Image & Video Generation — 图像与视频生成

v1.0.1

AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。⚠️ 使用前必须设置环境变量 AI_ARTIST_TOKEN 为你自己的 API Key!获取 API Key:访问 https://ai.deepsop.com/ 注册登录后创建。支持图片模...

0· 18·0 当前·0 累计
0

运行时依赖

无特殊依赖

安装命令

点击复制
官方npx clawhub@latest install image-video-gen
镜像加速npx clawhub@latest install image-video-gen --registry https://cn.longxiaskill.com

技能文档

AI Image Generator 异步生成 AI 图片与视频的技能。 ⚠️ 首次使用必读

  • 获取 API Key
访问 https://ai.deepsop.com/ 注册并登录,然后创建你的 API Key。
  • 设置环境变量
在使用前,你必须先设置自己的 API Key: # Linux/macOS/Git Bash (Windows) export AI_ARTIST_TOKEN="sk-your_api_key_here" # Windows PowerShell $env:AI_ARTIST_TOKEN="sk-your_api_key_here"
  • 验证配置
验证配置是否正确: python3 scripts/test_config.py 详细配置说明请查看下方“环境配置”章节。

快速开始 # 图片生成(默认 DeepSop·3.1Nano2-Evo) python3 scripts/generate_image.py "一只可爱的猫" # 视频生成(默认 DeepSop·V3.1FB) python3 scripts/generate_video.py "海边日落风景"

参考图/视频上传流程 当用户提供本地文件作为参考图或参考视频时,需要先调用文件上传 API 转换为可访问的 URL: 文件上传 API curl --location --request POST 'https://ai.deepsop.com/prod-api/system/fileUpload/upload' \ --header 'x-api-key: sk-your_api_key_here' \ --form 'file=@"C:\\Users\\admin\\Downloads\\image.png"' 返回结果: { "msg": "操作成功", "fileName": "image.png", "code": 200, "url": "https://kocgo-ai-sales-test.oss-cn-hangzhou.aliyuncs.com/material/100/xxx.png" } 使用上传后的 URL 获取到 url 后,可作为 firstImageUrl、lastImageUrl、imageUrlList、videoUrlList 或 elementList 等参数传入生成接口。

在对话中直接返回图片/视频 方式 1: Markdown 语法(推荐) 生成图片后,直接在回复中使用 Markdown 语法: !图片描述 !视频描述 平台支持情况: ✅ WebChat、Discord、Telegram:完全支持 ✅ 飞书:支持(需公开 URL) ❌ WhatsApp:不支持

方式 2: 下载后发送(需要 message 工具) 使用 --download 参数下载媒体文件,然后通过 message 工具发送: python3 scripts/generate_image.py "风景画" --download python3 scripts/generate_video.py "海边" --download 比如图片生成接着在代码中读取图片并发送: from scripts.generate_image import generate_image import base64 result = generate_image(prompt="风景画", download=True) if result and result["status"] == "SUCCESS": # 方式 A: 使用 data URI image_uri = result["data_uri"] # data:image/png;base64,... # 方式 B: 读取本地文件 with open(result["local_path"], "rb") as f: image_data = f.read() base64_data = base64.b64encode(image_data).decode()

参数说明 通用参数 参数 默认值 说明 prompt 必填 生成提示词(图片或视频描述) --model 图片: DeepSop·3.1Nano2-Evo / 视频: DeepSop·V3.1FB 生成模型(详见下方模型列表) --interval 5 轮询间隔(秒) --download - 下载媒体文件到本地 --output-dir workspace/images(图片) / workspace/videos(视频) 文件保存目录

图片专属参数 参数 默认值 说明 --quality 按模型自动匹配 图片质量:1K、2K、3K、4K(具体支持见下方模型能力表) --size 按模型自动匹配 图片比例:1:1、3:4、4:3、16:9、9:16、2:3、3:2、4:5、5:4、1:4、4:1、1:8、8:1、21:9、auto(具体支持见下方模型能力表) --download - 下载图片到本地 --output-dir workspace/images 图片保存目录 --markdown-output - 以 Markdown 格式输出图片链接 --reference-image - 参考图本地路径,自动上传后作为 image-to-image 参考 --reference-image-url - 参考图已有 URL(不需上传) --web-search - 开启联网搜索(图像: S5.0L、N2-Evo;视频: Seedance2.0/Fast) --ratiocination medium 渲染质量:low/medium/high(仅 GPT_IMAGE2) --image-n 1 生成图片数量(1-10,仅 GPT_IMAGE2)

视频专属参数 参数 默认值 说明 --generation-type TEXT 生成类型:TEXT(文生视频)、FIRST&LAST(首尾帧生视频)、REFERENCE(参考图生视频)、CONTINUATION(视频续写)、EDIT(视频编辑)、FEATURE(参考视频生视频) --ratio 按模型自动匹配 画面比例(具体支持见下方模型能力表) --resolution 按模型自动匹配 视频分辨率:480p、720p、1080p、2K、4K(具体支持见下方模型能力表) --duration 按模型自动匹配 视频时长(秒),不同模型支持范围不同 --mode std 生成模式:std(标准模式)、pro(专家模式/高品质)(仅 Kling V3 Omni 支持) --first-image-url - 首帧参考图 URL --last-image-url - 尾帧参考图 URL --first-image - 首帧参考图本地路径,自动上传后转换为 URL --last-image - 尾帧参考图本地路径,自动上传后转换为 URL --first-clip-url - 续写/编辑参考视频 URL --first-clip - 续写/编辑参考视频本地路径,自动上传后转换为 URL --image-url-list - 参考图片 URL 列表(用于参考图生视频) --video-url-list - 参考视频 URL 列表(用于 R2V 模型) --element-list - 参考主体 URL 列表(用于 Kling V3 Omni) --generate-audio - 开启音频生成(按模型能力生效) --no-audio - 关闭音频生成(按模型能力生效) --keep-original-sound - 保留视频原声(仅 Kling V3 Omni) --prompt-extend - 开启智能提示词改写(Wan系列支持) --enhance-prompt - 开启提示词翻译成英文(Veo3.1系列支持) --negative-prompt - 负向提示词(Veo3.1 Fast/Pro、Wan系列支持) --shot-type single 镜头模式:single(单镜头)、multi(智能分镜)、customize(自定义分镜) --duration-switch - 时长模式开关(仅 S1.5Pro) --person-generation allow_adult 是否允许生成人物:allow_adult、dont_allow(仅 Veo3.1 Fast/Pro) --resize-mode pad 图像缩放模式:pad(调整图片)、crop(裁剪图片)(仅 Veo3.1 Fast/Pro) --multi-shot - 是否多镜头(仅 Kling V3 Omni) --n 1 生成视频数量(仅 Veo3.1 Fast/Pro) --audio-url - 参考音频 URL(Wan系列 T2V/I2V 支持) --audio-url-list - 参考音频 URL 列表(逗号分隔,Seedance2.0/Fast) --audio-path-list - 参考音频本地路径列表(逗号分隔) --image-path-list - 参考图本地路径列表(逗号分隔,自动上传) --video-path-list - 参考视频本地路径列表(逗号分隔) --video-n - 生成视频数量(仅 Veo3.1Fast/Pro)

支持的模型 图片模型 模型 methodType 支持质量 支持比例 联网搜索 特点 S4.5 0 2K, 4K 除 auto 外所有比例 ❌ 电影级画质4K,角色一致性 N1 1 1K 除 21:9、4:5、5:4、1:4、4:1、1:8、8:1 外 ❌ 支持多模态输入,精细参数调节 N2 2 1K, 2K, 4K 所有比例 ❌ 卓越的文字渲染和角色一致性 N2-147 3 1K, 2K, 4K 除 auto、1:4、4:1、1:8、8:1 外 ❌ 147版本,支持多模态输入 S5.0L

数据来源ClawHub ↗ · 中文优化:龙虾技能库