📦 智能配音合成虾AI智能配音合成专家。将文案/脚本转换为高拟真语音音频,支持多种音色、情感控制、SSML标注和后期处理。
v1.0.0触发场景:用户说“配音”“语音合成”“TTS”“旁白”“播客音频”“有声读物”“AI配音”“朗读”“音频生成”,或要求“用XX声音读这段文案”“生成播客音频”“把文章转成有声版”等。支...
0· 64·0 当前·0 累计
下载技能包
最后更新
2026/4/21
安全扫描
OpenClaw
可疑
high confidence该技能基本实现了描述中的功能(文本→TTS),但元数据和指令不一致,可能泄露密钥(回显环境变量),并提及代码中未实现的服务(Azure)——安装或提供 API 密钥前请审查。
评估建议
该技能似乎通过 ElevenLabs 和 OpenAI 实现 TTS,但在安装或提供 API 密钥前,请注意以下红旗:
- 元数据与实际情况不符:注册表元数据未列出任何必需环境变量,但脚本却要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY。请与作者确认或准备提供这些密钥。
- Azure 不匹配:SKILL.md 提到 Azure 凭据,但脚本并未实现 Azure TTS——如需 Azure 支持,请向维护者澄清。
- 密钥泄露:SKILL.md 示例中 echo 环境变量(如 echo "ElevenLabs: $ELEVENLABS_API_KEY")。切勿在共享或已记录环境执行此类命令,以免 API 密钥落入日志。请私下验证密钥或使用安全工具管理机密。
- 依赖安装:文档要求 pip 安装包并用 brew 安装 ffmpeg。请仅在可信/隔离环境(virtualenv/容器)中安装,以降低风险。
- 语音克隆/版权:技能注明语音克隆需授权。未经同意勿传递音频样本或使用他人声音。
使用建议:先检查代码(已有 synthesize...详细分析 ▾
⚠ 用途与能力
该技能声明用途为使用 ElevenLabs/OpenAI/Azure/system TTS 进行文本→语音,与内置的 synthesize-voice.py(支持 ElevenLabs 与 OpenAI)相符;但注册元数据未声明任何必需环境变量或凭据,而 SKILL.md 与脚本均要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY(SKILL.md 还列出 AZURE_SPEECH_KEY 与 region,但脚本未实现 Azure)。声明需求与实际代码不一致,存在矛盾。
ℹ 指令范围
SKILL.md 提供了清晰的 TTS 工作流及调用 scripts/synthesize-voice.py 与后处理的示例命令。但文档中演示了运行 echo "ElevenLabs: $ELEVENLABS_API_KEY",这会把 API 密钥打印到 stdout/logs,存在泄露风险。指南要求读取脚本文件并写入输出音频文件(符合预期),并未指示将数据外泄到意外端点。文档建议通过 pip/brew 安装依赖,但元数据中并无安装规范。
✓ 安装机制
没有自动化安装规范(仅提供说明文档和 Python 脚本)。这是风险较低的模型,因为安装过程中不会自动下载或执行任何内容。SKILL.md 建议使用 pip/brew 命令安装依赖,这对基于 Python 的 TTS 脚本是常规做法,但用户若照做会执行任意包安装。
⚠ 凭证需求
包元数据未声明任何必需的环境变量,但脚本会从环境中读取 ELEVENLABS_API_KEY 和 OPENAI_API_KEY,且 SKILL.md 也引用了 AZURE_SPEECH_* 密钥。为所列 TTS 服务要求 API 密钥是合理的,但元数据中的遗漏不一致,且 SKILL.md 中回显 env 变量的示例存在泄露密钥的风险。未请求其他不必要的凭据。
✓ 持久化与权限
该 skill 不会请求特权持久化(always:false),也不会修改其他 skill 或系统级配置。它仅以普通用户 CLI 脚本运行,并将生成的音频文件写入工作目录。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/4/21
初始发布:支持 ElevenLabs/OpenAI TTS 多引擎配音,含音色库、SSML规范、后期处理指南
● 可疑
安装命令
点击复制官方npx clawhub@latest install ai-voice-synthesis-claw
镜像加速npx clawhub@latest install ai-voice-synthesis-claw --registry https://cn.longxiaskill.com
技能文档
把文字变成有温度的声音。
工作流程
步骤 1:理解需求
收集以下信息(未提供时使用默认值):- 文本内容:待配音的文案/脚本
- 音色风格:参考
references/voice-style-guide.md选择合适音色 - 语速:slow / normal(默认)/ fast
- 情感:calm / warm / professional / energetic
- 输出格式:mp3(默认)/ wav
步骤 2:文本预处理
调用 TTS 前处理文本:- 按标点分句
- 数字转中文(100 → 一百)
- 多音字标注(如"重要"的"重")
- 添加停顿标记
步骤 3:选择 TTS 引擎
按优先级:- ElevenLabs(推荐):最自然,支持情感控制,需
ELEVENLABS_API_KEY - OpenAI TTS:质量稳定,需
OPENAI_API_KEY - Azure TTS:多语言支持,需
AZURE_SPEECH_KEY+AZURE_SPEECH_REGION - 系统 TTS(兜底):使用
tts工具直接合成(无需 API key,质量较低)
检查环境变量:
``bash
echo "ElevenLabs: $ELEVENLABS_API_KEY" && echo "OpenAI: $OPENAI_API_KEY"
`
步骤 4:生成 SSML(可选)
参考 references/ssml-guide.md 添加 SSML 标注。简单场景可跳过。 步骤 5:调用合成脚本
`bash
# 单段文本
python3 scripts/synthesize-voice.py \
--text "你好,欢迎收听本期节目" \
--voice warm-female \
--speed normal \
--output ./output.mp3 # 从文件
python3 scripts/synthesize-voice.py \
--script ./script.txt \
--voice professional-male \
--speed fast \
--output ./output.mp3
# 加背景音乐
python3 scripts/synthesize-voice.py \
--script ./script.txt \
--bgm ./bgm/light-jazz.mp3 \
--bgm-volume 0.1 \
--output ./output.mp3
`
步骤 6:后期处理
参考 references/audio-processing-guide.md,自动完成:
- 降噪
- 音量标准化(-14 LUFS)
- 背景音乐混音(可选)
- 格式转换
步骤 7:交付
`
合成完成!这是你的配音文件。
MEDIA:./output.mp3
` 音色速查
| 场景 | 推荐音色 |
|------|---------|
| 知识科普 | professional-male / professional-female |
| 情感故事 | warm-female |
| 商业广告 | magnetic-male |
| 轻松娱乐 | young-energetic | 完整音色库见 references/voice-style-guide.md。
环境依赖
`bash
pip install elevenlabs openai pydub requests
brew install ffmpeg # macOS
` 注意事项
- 单次合成建议 ≤10 分钟
- 音色克隆需 ≥1 分钟清晰样本
- 使用他人声音需授权
无 API key 时降级为系统tts`