Input prompts and generate images, videos, effects, speech synthesis, voice cloning, etc., using a single API key. — 技能工具

Name: Input prompts and generate images, videos, effects, speech synthesis, voice cloning, etc., using a single API key. — 技能工具
Author: Vidu AI

Vidu AI

Input prompts and generate images, videos, effects, speech synthesis, voice cloning, etc., using a single API key. — 技能工具

v1.2.1

Vidu AI 视频/图片/音频生成。支持文生视频、图生视频、参考生视频、图片生成、TTS语音合成、声音复刻。对话式调用，自动识别意图。

0· 272·0 当前·0 累计

by @x-jihua (Vidu AI)·MIT-0

代码生成 AI模型访问 API工具自动化系统工具

下载技能包

License

MIT-0

最后更新

2026/4/10

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

high confidence

The skill's behavior (and included Python CLI) matches its Vidu-generation description, but the package metadata omits the required VIDU_API_KEY and other provenance info is missing — an incoherence you should resolve before installing.

评估建议

This skill appears to implement a Vidu media-generation client (scripts/vidu_cli.py) and legitimately needs an API key (VIDU_API_KEY) to call api.vidu.cn or api.vidu.com. Before installing: 1) Verify the skill publisher and source (there's no homepage and source is 'unknown'). 2) Expect to provide VIDU_API_KEY — the registry metadata incorrectly claims no env vars; do not rely on the metadata. 3) Be aware the skill will read local image/audio files you supply and will upload them to the Vidu end...

详细分析 ▾

⚠ 用途与能力

The SKILL.md and scripts/vidu_cli.py implement video/image/audio generation against api.vidu.cn / api.vidu.com and require an API key (VIDU_API_KEY). That capability aligns with the stated purpose, but the registry metadata claims no required environment variables or primary credential — a clear mismatch between what the skill needs and what the metadata declares.

ℹ 指令范围

The runtime instructions and the CLI read local input files (images, audio, optional text files), convert local images to base64, and download generation outputs to disk. All of these actions are coherent with a media-generation skill, but they do involve reading user-provided files and writing downloaded outputs to the agent's filesystem (baseDir and usual download paths). The SKILL.md explicitly instructs use of VIDU_API_KEY and local script invocation.

✓ 安装机制

There is no install spec (instruction-only install), and the code is included as a plain Python script. No remote downloads or opaque installer are specified, which is low risk from an installation mechanism perspective.

⚠ 凭证需求

The code and SKILL.md require a single credential: VIDU_API_KEY, which is proportionate to the described API integration. However, the registry metadata incorrectly lists no required env vars / credentials. That discrepancy is material: it could mislead users about what secrets they must supply and expose. The skill will also access local files (images/audio) — expected but worth noting for privacy.

✓ 持久化与权限

The skill does not request always:true, does not modify other skills, and does not attempt to persist credentials itself. It runs as an on-demand, user-invocable skill and is not requesting elevated platform privileges.

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.2.12026/3/17

**Vidu Generation 1.2.1 Changelog** - Added detailed API references and documentation files: `api_reference.md`, `template_list.md`, `voice_id_list.md` - Introduced new CLI script: `scripts/vidu_cli.py` for easier command-line operations - Significantly updated and streamlined the main documentation (SKILL.md) for clearer usage and model selection guidelines - Removed legacy metadata file (`_meta.json`) to minimize redundancy

● 无害

安装命令点击复制

官方npx clawhub@latest install vidu-generation

镜像加速npx clawhub@latest install vidu-generation --registry https://cn.clawhub-mirror.com

技能文档

Vidu AI 视频/图片/音频生成工具。

环境说明

变量说明：

{baseDir} - 运行时自动替换为本 skill 目录的绝对路径

- 实际路径：~/.openclaw/workspace/skills/vidu-generation/

环境变量：

VIDU_API_KEY - Vidu API 密钥（必需）
获取方式：https://platform.vidu.cn 或 https://platform.vidu.com

快速开始

直接告诉我你想生成什么，我会自动识别并调用合适的接口：

"生成一只猫咪在阳光下打哈欠的视频"
"把这个图片变成视频，让人物转头微笑"
"生成一张可爱的橘猫图片"
"用这两张图生成一个合照视频"
"用少女音配音这段文字：大家好..."

支持的生成类型

🎥 视频生成

类型	触发条件	说明
文生视频	纯文字描述	从文字生成视频
图生视频	提供图片 + 描述	图片作为首帧生成视频
参考生视频	多张图片	多人/多主体视频
首尾帧视频	提供首帧+尾帧图片	过渡动画视频
场景特效	特效关键词（拥抱、特效等）	预设特效模板

🖼️ 图片生成

类型	触发条件	说明
文生图	纯文字描述	从文字生成图片
参考生图	提供参考图片	根据参考风格生成

🔊 音频生成

类型	触发条件	说明
TTS语音合成	"配音"、"朗读"、语音描述	文字转语音
声音复刻	"复刻声音"、"克隆音色"	根据音频复刻音色

自动识别规则

视频生成

用户输入 → 意图识别
─────────────────────────────
纯文字描述 → 文生视频 (text2video)
单张图片 + 描述 → 图生视频 (img2video)
多张图片 → 参考生视频 (ref2video)
首帧 + 尾帧 → 首尾帧视频 (start-end2video)
特效关键词 → 场景特效 (template)

图片生成

用户输入 → 意图识别
─────────────────────────────
"生成图片/图" → 图片生成模式
纯文字 → 文生图
参考图片 → 参考生图

音频生成

用户输入 → 意图识别
─────────────────────────────
"配音" + 文本 → TTS语音合成
"复刻声音" + 音频 → 声音复刻

TTS 语音合成

自动音色推荐

根据内容场景自动选择合适音色：

场景	推荐音色	Voice ID
小红书/短视频（女）	少女音色	`female-shaonv`
小红书/短视频（男）	精英青年	`male-qn-jingying`
教程/科普	播报男声	`Chinese (Mandarin)_Male_Announcer`
情感/故事	御姐音色	`female-yujie`
商务/产品	沉稳高管	`Chinese (Mandarin)_Reliable_Executive`
可爱/萌系	萌萌女童	`lovely_girl`
搞笑/轻松	搞笑大爷	`Chinese (Mandarin)_Humorous_Elder`
温馨/治愈	温暖少女	`Chinese (Mandarin)_Warm_Girl`
甜美风格	甜美女声	`Chinese (Mandarin)_Sweet_Lady`
专业主持	新闻女声	`Chinese (Mandarin)_News_Anchor`
英文内容	男声	`English_Trustworthy_Man`
英文内容	女声	`English_Graceful_Lady`
日文内容	男声	`Japanese_GentleButler`
日文内容	女声	`Japanese_KindLady`
韩文内容	女声	`Korean_SweetGirl`
韩文内容	男声	`Korean_CheerfulBoyfriend`

使用示例

用户: 用少女音配音这段话：大家好，欢迎来到我的频道 → 自动选择 female-shaonv → 生成音频文件用户: 用播报男声朗读这段教程内容 → 自动选择 Chinese (Mandarin)_Male_Announcer

用户: 英文配音：Hello, welcome to my channel → 自动选择 English_Trustworthy_Man

停顿控制

使用 <#x#> 标记控制停顿（x为秒数）：

你好<#2#>我是vidu<#1#>很高兴见到你

参数说明

参数	范围	默认值	说明
speed	0.5-2.0	1.0	语速
volume	0-10	0	音量
pitch	-12~12	0	语调
emotion	happy/sad/angry/fearful/disgusted/surprised/calm	-	情绪

声音复刻

根据音频样本复刻音色，用于后续TTS。

使用示例

用户: 帮我复刻这个音频的声音
[发送音频文件]
→ 创建自定义音色
→ 返回 voice_id 供后续使用

要求

原音频时长：10秒-5分钟
音频清晰，无背景噪音
复刻音色为临时音色，7天内需在TTS中调用才能永久保留

API 调用

python3 {baseDir}/scripts/vidu_cli.py voice-clone \
  --audio-url sample.mp3 \
  --voice-id my_voice_001 \
  --text "这是复刻的声音样例"

模型选择策略

文生视频模型

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持视频分镜，效果对标viduq3-pro，生成速度更快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持视频分镜，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持视频分镜，效果更好
viduq2	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	最新模型，情绪表达强，细节更丰富
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定

视频模型（自动推荐）

场景	模型	理由
默认视频	viduq3-pro	最新模型，质量最高
快速生成	viduq3-turbo	速度快

图生视频模型

必须输入1张图片

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持生成分镜视频，效果对标viduq3-pro，生成速度最快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，效果更好
viduq2-pro-fast	默认5秒，可选1-10秒	默认720p，可选720p/1080p	价格触底、效果好，生成速度在q2-turbo基础上提升2-3倍
viduq2-pro	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，情感表达强，动态细节丰富
viduq2-turbo	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，生成快
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定
viduq1-classic	固定5秒	固定1080p	画面清晰，转场、运镜更丰富
vidu2.0	默认4秒，可选4/8秒	4秒：默认360p，可选360p/720p/1080p 8秒：默认720p，可选720p	生成速度快

参考生视频模型

模型	图片上限	时长范围	分辨率	特点
viduq3-beta	5张	3-10秒	默认720p，可选540p/720p/1080p	默认，最新模型，支持音画同出，智能切镜
viduq3	7张	3-16秒	默认720p，可选540p/720p/1080p	多人场景，智能切镜，支持更多图片
viduq2-pro	7张	1-10秒	默认720p，可选540p/720p/1080p	支持参考视频，支持视频编辑，视频替换
viduq2	7张	1-10秒	默认720p，可选540p/720p/1080p	动态效果好，生成细节丰富
viduq1	7张	5秒	固定1080p	画面清晰，平滑转场，运镜稳定
vidu2.0	7张	4秒	默认360p，可选360p/720p	生成速度快

viduq2-pro：输入视频时若未指定时长，duration=0 表示智能指定时长

首尾帧视频模型

必须输入2张图片（首帧+尾帧）

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持生成分镜视频，效果对标viduq3-pro，生成速度最快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，效果更好
viduq2-pro-fast	默认5秒，可选1-10秒	默认720p，可选720p/1080p	价格触底、效果好，生成速度在q2-turbo基础上提升2-3倍
viduq2-pro	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，细节丰富
viduq2-turbo	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，生成快
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定
viduq1-classic	固定5秒	固定1080p	画面清晰，转场、运镜更丰富
vidu2.0	默认4秒，可选4/8秒	4秒：默认360p，可选360p/720p/1080p 8秒：默认720p，可选720p	生成速度快

图片模型

Nano 生图模型（推荐）

模型	分辨率	速度	质量	参考图	特殊比例
q3-fast	1K/2K/4K	快	高	0-14张（可选）	✅ 1:4, 4:1, 1:8, 8:1
q2-fast	1K	最快	中	0-14张（可选）	❌
q2-pro	1K/2K/4K	慢	最高	0-14张（可选）	❌

特点：

✅ 支持文生图（不输入参考图）
✅ 支持参考生图（输入参考图）
✅ q3-fast 支持特殊比例（1:4、4:1、1:8、8:1）

Vidu 参考生图模型

模型	分辨率	参考图要求	说明
viduq2	540p/720p/1080p	0-7张	支持文生图、参考生图、图片编辑
viduq1	1080p	1-7张（必填）	仅支持参考生图

viduq2 图片编辑功能：

✅ 支持局部重绘、扩图等编辑功能
⚠️ 使用图片编辑时，aspect_ratio 必须设为 auto
示例："aspect_ratio": "auto"

特点：

viduq2：支持文生图、参考生图、图片编辑
viduq1：必须输入至少 1 张参考图（仅参考生图）

场景推荐

场景	模型	理由
默认	q3-fast	最新模型，速度快，支持特殊比例
高画质	q2-pro	效果最好
快速生成	q2-fast	速度最快
参考生图	viduq2	支持文生图和参考生图

时长与分辨率默认值

视频时长：5秒
视频分辨率：720p
视频比例：16:9
图片分辨率：2K
图片比例：16:9

API 调用

内部使用 Python CLI 工具：

# 文生视频 python3 {baseDir}/scripts/vidu_cli.py text2video --prompt "视频描述" # 图生视频 python3 {baseDir}/scripts/vidu_cli.py img2video --image photo.jpg --prompt "描述" # 参考生视频 python3 {baseDir}/scripts/vidu_cli.py ref2video --images img1.jpg img2.jpg --prompt "描述" # 图片生成 python3 {baseDir}/scripts/vidu_cli.py nano-image --prompt "图片描述" # TTS语音合成 python3 {baseDir}/scripts/vidu_cli.py tts --text "配音文本" --voice-id "female-shaonv" # 声音复刻 python3 {baseDir}/scripts/vidu_cli.py voice-clone --audio-url sample.mp3 --voice-id my_voice

# 查询任务状态 python3 {baseDir}/scripts/vidu_cli.py status --wait --download ./uploads

输出规范

下载目录: {baseDir}/uploads/
返回格式: Markdown 格式引用文件
视频链接: 必须返回 Vidu API 的 creations[0].url 字段

环境配置

必需环境变量：

VIDU_API_KEY=your_api_key_here

获取 API Key：

Vidu 官方开放平台：https://platform.vidu.cn 或 https://platform.vidu.com
注册账号后在「API Keys」页面创建

API 域名选择

重要规则：根据用户语言自动选择 API 域名

用户语言	API 域名	说明
简体中文	`api.vidu.cn`	国内用户（默认）
其他语言	`api.vidu.com`	海外用户

Base URL 配置：

# 简体中文用户 BASE_URL = "https://api.vidu.cn/ent/v2"

# 非简体中文用户（英文、日文、韩文等） BASE_URL = "https://api.vidu.com/ent/v2"

判断逻辑：

用户使用简体中文 → 使用 api.vidu.cn
用户使用其他语言（英文、日文、韩文等） → 使用 api.vidu.com

错误处理

错误	原因	解决方案
Invalid API key	API密钥错误	检查 VIDU_API_KEY 环境变量
Image size exceeds	图片过大	压缩至50MB以下
Task failed	生成失败	查看 error 信息重试
Voice ID not found	音色不存在	检查音色列表或重新复刻

References

API参考文档 - 所有API详细参数
音色列表 - 303个可用音色

Rules

API Key 检查: 调用前确认 VIDU_API_KEY 已设置
异步任务: 视频生成异步进行，需轮询状态
下载时效: 生成 URL 24小时内有效
返回视频链接: 必须返回视频 URL 让用户直接访问
长文本TTS: 文本超过30字符必须使用 --text-file 参数
音色保留: 复刻音色7天内需使用否则删除

Vidu AI 视频/图片/音频生成工具。

环境说明

变量说明：

{baseDir} - 运行时自动替换为本 skill 目录的绝对路径

- 实际路径：~/.openclaw/workspace/skills/vidu-generation/

环境变量：

VIDU_API_KEY - Vidu API 密钥（必需）
获取方式：https://platform.vidu.cn 或 https://platform.vidu.com

快速开始

直接告诉我你想生成什么，我会自动识别并调用合适的接口：

"生成一只猫咪在阳光下打哈欠的视频"
"把这个图片变成视频，让人物转头微笑"
"生成一张可爱的橘猫图片"
"用这两张图生成一个合照视频"
"用少女音配音这段文字：大家好..."

支持的生成类型

🎥 视频生成

类型	触发条件	说明
文生视频	纯文字描述	从文字生成视频
图生视频	提供图片 + 描述	图片作为首帧生成视频
参考生视频	多张图片	多人/多主体视频
首尾帧视频	提供首帧+尾帧图片	过渡动画视频
场景特效	特效关键词（拥抱、特效等）	预设特效模板

🖼️ 图片生成

类型	触发条件	说明
文生图	纯文字描述	从文字生成图片
参考生图	提供参考图片	根据参考风格生成

🔊 音频生成

类型	触发条件	说明
TTS语音合成	"配音"、"朗读"、语音描述	文字转语音
声音复刻	"复刻声音"、"克隆音色"	根据音频复刻音色

自动识别规则

视频生成

用户输入 → 意图识别
─────────────────────────────
纯文字描述 → 文生视频 (text2video)
单张图片 + 描述 → 图生视频 (img2video)
多张图片 → 参考生视频 (ref2video)
首帧 + 尾帧 → 首尾帧视频 (start-end2video)
特效关键词 → 场景特效 (template)

图片生成

用户输入 → 意图识别
─────────────────────────────
"生成图片/图" → 图片生成模式
纯文字 → 文生图
参考图片 → 参考生图

音频生成

用户输入 → 意图识别
─────────────────────────────
"配音" + 文本 → TTS语音合成
"复刻声音" + 音频 → 声音复刻

TTS 语音合成

自动音色推荐

根据内容场景自动选择合适音色：

场景	推荐音色	Voice ID
小红书/短视频（女）	少女音色	`female-shaonv`
小红书/短视频（男）	精英青年	`male-qn-jingying`
教程/科普	播报男声	`Chinese (Mandarin)_Male_Announcer`
情感/故事	御姐音色	`female-yujie`
商务/产品	沉稳高管	`Chinese (Mandarin)_Reliable_Executive`
可爱/萌系	萌萌女童	`lovely_girl`
搞笑/轻松	搞笑大爷	`Chinese (Mandarin)_Humorous_Elder`
温馨/治愈	温暖少女	`Chinese (Mandarin)_Warm_Girl`
甜美风格	甜美女声	`Chinese (Mandarin)_Sweet_Lady`
专业主持	新闻女声	`Chinese (Mandarin)_News_Anchor`
英文内容	男声	`English_Trustworthy_Man`
英文内容	女声	`English_Graceful_Lady`
日文内容	男声	`Japanese_GentleButler`
日文内容	女声	`Japanese_KindLady`
韩文内容	女声	`Korean_SweetGirl`
韩文内容	男声	`Korean_CheerfulBoyfriend`

使用示例

用户: 用少女音配音这段话：大家好，欢迎来到我的频道 → 自动选择 female-shaonv → 生成音频文件用户: 用播报男声朗读这段教程内容 → 自动选择 Chinese (Mandarin)_Male_Announcer

用户: 英文配音：Hello, welcome to my channel → 自动选择 English_Trustworthy_Man

停顿控制

使用 <#x#> 标记控制停顿（x为秒数）：

你好<#2#>我是vidu<#1#>很高兴见到你

参数说明

参数	范围	默认值	说明
speed	0.5-2.0	1.0	语速
volume	0-10	0	音量
pitch	-12~12	0	语调
emotion	happy/sad/angry/fearful/disgusted/surprised/calm	-	情绪

声音复刻

根据音频样本复刻音色，用于后续TTS。

使用示例

用户: 帮我复刻这个音频的声音
[发送音频文件]
→ 创建自定义音色
→ 返回 voice_id 供后续使用

要求

原音频时长：10秒-5分钟
音频清晰，无背景噪音
复刻音色为临时音色，7天内需在TTS中调用才能永久保留

API 调用

python3 {baseDir}/scripts/vidu_cli.py voice-clone \
  --audio-url sample.mp3 \
  --voice-id my_voice_001 \
  --text "这是复刻的声音样例"

模型选择策略

文生视频模型

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持视频分镜，效果对标viduq3-pro，生成速度更快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持视频分镜，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持视频分镜，效果更好
viduq2	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	最新模型，情绪表达强，细节更丰富
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定

视频模型（自动推荐）

场景	模型	理由
默认视频	viduq3-pro	最新模型，质量最高
快速生成	viduq3-turbo	速度快

图生视频模型

必须输入1张图片

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持生成分镜视频，效果对标viduq3-pro，生成速度最快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，效果更好
viduq2-pro-fast	默认5秒，可选1-10秒	默认720p，可选720p/1080p	价格触底、效果好，生成速度在q2-turbo基础上提升2-3倍
viduq2-pro	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，情感表达强，动态细节丰富
viduq2-turbo	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，生成快
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定
viduq1-classic	固定5秒	固定1080p	画面清晰，转场、运镜更丰富
vidu2.0	默认4秒，可选4/8秒	4秒：默认360p，可选360p/720p/1080p 8秒：默认720p，可选720p	生成速度快

参考生视频模型

模型	图片上限	时长范围	分辨率	特点
viduq3-beta	5张	3-10秒	默认720p，可选540p/720p/1080p	默认，最新模型，支持音画同出，智能切镜
viduq3	7张	3-16秒	默认720p，可选540p/720p/1080p	多人场景，智能切镜，支持更多图片
viduq2-pro	7张	1-10秒	默认720p，可选540p/720p/1080p	支持参考视频，支持视频编辑，视频替换
viduq2	7张	1-10秒	默认720p，可选540p/720p/1080p	动态效果好，生成细节丰富
viduq1	7张	5秒	固定1080p	画面清晰，平滑转场，运镜稳定
vidu2.0	7张	4秒	默认360p，可选360p/720p	生成速度快

viduq2-pro：输入视频时若未指定时长，duration=0 表示智能指定时长

首尾帧视频模型

必须输入2张图片（首帧+尾帧）

模型	时长范围	分辨率	特点
viduq3-pro-fast	默认5秒，可选1-16秒	默认720p，可选720p/1080p	支持音画同步，支持生成分镜视频，效果对标viduq3-pro，生成速度最快
viduq3-turbo	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，生成速度更快
viduq3-pro	默认5秒，可选1-16秒	默认720p，可选540p/720p/1080p	支持音画同步，支持生成分镜视频，效果更好
viduq2-pro-fast	默认5秒，可选1-10秒	默认720p，可选720p/1080p	价格触底、效果好，生成速度在q2-turbo基础上提升2-3倍
viduq2-pro	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，细节丰富
viduq2-turbo	默认5秒，可选1-10秒	默认720p，可选540p/720p/1080p	新模型，效果好，生成快
viduq1	固定5秒	固定1080p	画面清晰，平滑转场，运镜稳定
viduq1-classic	固定5秒	固定1080p	画面清晰，转场、运镜更丰富
vidu2.0	默认4秒，可选4/8秒	4秒：默认360p，可选360p/720p/1080p 8秒：默认720p，可选720p	生成速度快

图片模型

Nano 生图模型（推荐）

模型	分辨率	速度	质量	参考图	特殊比例
q3-fast	1K/2K/4K	快	高	0-14张（可选）	✅ 1:4, 4:1, 1:8, 8:1
q2-fast	1K	最快	中	0-14张（可选）	❌
q2-pro	1K/2K/4K	慢	最高	0-14张（可选）	❌

特点：

✅ 支持文生图（不输入参考图）
✅ 支持参考生图（输入参考图）
✅ q3-fast 支持特殊比例（1:4、4:1、1:8、8:1）

Vidu 参考生图模型

模型	分辨率	参考图要求	说明
viduq2	540p/720p/1080p	0-7张	支持文生图、参考生图、图片编辑
viduq1	1080p	1-7张（必填）	仅支持参考生图

viduq2 图片编辑功能：

✅ 支持局部重绘、扩图等编辑功能
⚠️ 使用图片编辑时，aspect_ratio 必须设为 auto
示例："aspect_ratio": "auto"

特点：

viduq2：支持文生图、参考生图、图片编辑
viduq1：必须输入至少 1 张参考图（仅参考生图）

场景推荐

场景	模型	理由
默认	q3-fast	最新模型，速度快，支持特殊比例
高画质	q2-pro	效果最好
快速生成	q2-fast	速度最快
参考生图	viduq2	支持文生图和参考生图

时长与分辨率默认值

视频时长：5秒
视频分辨率：720p
视频比例：16:9
图片分辨率：2K
图片比例：16:9

API 调用

内部使用 Python CLI 工具：

# 文生视频 python3 {baseDir}/scripts/vidu_cli.py text2video --prompt "视频描述" # 图生视频 python3 {baseDir}/scripts/vidu_cli.py img2video --image photo.jpg --prompt "描述" # 参考生视频 python3 {baseDir}/scripts/vidu_cli.py ref2video --images img1.jpg img2.jpg --prompt "描述" # 图片生成 python3 {baseDir}/scripts/vidu_cli.py nano-image --prompt "图片描述" # TTS语音合成 python3 {baseDir}/scripts/vidu_cli.py tts --text "配音文本" --voice-id "female-shaonv" # 声音复刻 python3 {baseDir}/scripts/vidu_cli.py voice-clone --audio-url sample.mp3 --voice-id my_voice

# 查询任务状态 python3 {baseDir}/scripts/vidu_cli.py status --wait --download ./uploads

输出规范

下载目录: {baseDir}/uploads/
返回格式: Markdown 格式引用文件
视频链接: 必须返回 Vidu API 的 creations[0].url 字段

环境配置

必需环境变量：

VIDU_API_KEY=your_api_key_here

获取 API Key：

Vidu 官方开放平台：https://platform.vidu.cn 或 https://platform.vidu.com
注册账号后在「API Keys」页面创建

API 域名选择

重要规则：根据用户语言自动选择 API 域名

用户语言	API 域名	说明
简体中文	`api.vidu.cn`	国内用户（默认）
其他语言	`api.vidu.com`	海外用户

Base URL 配置：

# 简体中文用户 BASE_URL = "https://api.vidu.cn/ent/v2"

# 非简体中文用户（英文、日文、韩文等） BASE_URL = "https://api.vidu.com/ent/v2"

判断逻辑：

用户使用简体中文 → 使用 api.vidu.cn
用户使用其他语言（英文、日文、韩文等） → 使用 api.vidu.com

错误处理

错误	原因	解决方案
Invalid API key	API密钥错误	检查 VIDU_API_KEY 环境变量
Image size exceeds	图片过大	压缩至50MB以下
Task failed	生成失败	查看 error 信息重试
Voice ID not found	音色不存在	检查音色列表或重新复刻

References

API参考文档 - 所有API详细参数
音色列表 - 303个可用音色

Rules

API Key 检查: 调用前确认 VIDU_API_KEY 已设置
异步任务: 视频生成异步进行，需轮询状态
下载时效: 生成 URL 24小时内有效
返回视频链接: 必须返回视频 URL 让用户直接访问
长文本TTS: 文本超过30字符必须使用 --text-file 参数
音色保留: 复刻音色7天内需使用否则删除

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

环境说明

快速开始

支持的生成类型

🎥 视频生成

🖼️ 图片生成

🔊 音频生成

自动识别规则

视频生成

图片生成

音频生成

TTS 语音合成

自动音色推荐

使用示例

停顿控制

参数说明

声音复刻

使用示例

要求

API 调用

模型选择策略

文生视频模型

视频模型（自动推荐）

图生视频模型

参考生视频模型

首尾帧视频模型

图片模型

Nano 生图模型（推荐）

Vidu 参考生图模型

场景推荐

时长与分辨率默认值

API 调用

输出规范

环境配置

API 域名选择

错误处理

References

Rules

环境说明

快速开始

支持的生成类型

🎥 视频生成

🖼️ 图片生成

🔊 音频生成

自动识别规则

视频生成

图片生成

音频生成

TTS 语音合成

自动音色推荐

使用示例

停顿控制

参数说明

声音复刻

使用示例

要求

API 调用

模型选择策略

文生视频模型

视频模型（自动推荐）

图生视频模型

参考生视频模型

首尾帧视频模型

图片模型

Nano 生图模型（推荐）

Vidu 参考生图模型

场景推荐

时长与分辨率默认值

API 调用

输出规范

环境配置

API 域名选择

错误处理

References

Rules

安装命令点击复制