📦 智能配音合成虾AI智能配音合成专家。将文案/脚本转换为高拟真语音音频,支持多种音色、情感控制、SSML标注和后期处理。

v1.0.0

触发场景:用户说“配音”“语音合成”“TTS”“旁白”“播客音频”“有声读物”“AI配音”“朗读”“音频生成”,或要求“用XX声音读这段文案”“生成播客音频”“把文章转成有声版”等。支...

0· 64·0 当前·0 累计
tujinsama 头像by @tujinsama (Ricky)
下载技能包
最后更新
2026/4/21
0
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
可疑
high confidence
该技能基本实现了描述中的功能(文本→TTS),但元数据和指令不一致,可能泄露密钥(回显环境变量),并提及代码中未实现的服务(Azure)——安装或提供 API 密钥前请审查。
评估建议
该技能似乎通过 ElevenLabs 和 OpenAI 实现 TTS,但在安装或提供 API 密钥前,请注意以下红旗: - 元数据与实际情况不符:注册表元数据未列出任何必需环境变量,但脚本却要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY。请与作者确认或准备提供这些密钥。 - Azure 不匹配:SKILL.md 提到 Azure 凭据,但脚本并未实现 Azure TTS——如需 Azure 支持,请向维护者澄清。 - 密钥泄露:SKILL.md 示例中 echo 环境变量(如 echo "ElevenLabs: $ELEVENLABS_API_KEY")。切勿在共享或已记录环境执行此类命令,以免 API 密钥落入日志。请私下验证密钥或使用安全工具管理机密。 - 依赖安装:文档要求 pip 安装包并用 brew 安装 ffmpeg。请仅在可信/隔离环境(virtualenv/容器)中安装,以降低风险。 - 语音克隆/版权:技能注明语音克隆需授权。未经同意勿传递音频样本或使用他人声音。 使用建议:先检查代码(已有 synthesize...
详细分析 ▾
用途与能力
该技能声明用途为使用 ElevenLabs/OpenAI/Azure/system TTS 进行文本→语音,与内置的 synthesize-voice.py(支持 ElevenLabs 与 OpenAI)相符;但注册元数据未声明任何必需环境变量或凭据,而 SKILL.md 与脚本均要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY(SKILL.md 还列出 AZURE_SPEECH_KEY 与 region,但脚本未实现 Azure)。声明需求与实际代码不一致,存在矛盾。
指令范围
SKILL.md 提供了清晰的 TTS 工作流及调用 scripts/synthesize-voice.py 与后处理的示例命令。但文档中演示了运行 echo "ElevenLabs: $ELEVENLABS_API_KEY",这会把 API 密钥打印到 stdout/logs,存在泄露风险。指南要求读取脚本文件并写入输出音频文件(符合预期),并未指示将数据外泄到意外端点。文档建议通过 pip/brew 安装依赖,但元数据中并无安装规范。
安装机制
没有自动化安装规范(仅提供说明文档和 Python 脚本)。这是风险较低的模型,因为安装过程中不会自动下载或执行任何内容。SKILL.md 建议使用 pip/brew 命令安装依赖,这对基于 Python 的 TTS 脚本是常规做法,但用户若照做会执行任意包安装。
凭证需求
包元数据未声明任何必需的环境变量,但脚本会从环境中读取 ELEVENLABS_API_KEY 和 OPENAI_API_KEY,且 SKILL.md 也引用了 AZURE_SPEECH_* 密钥。为所列 TTS 服务要求 API 密钥是合理的,但元数据中的遗漏不一致,且 SKILL.md 中回显 env 变量的示例存在泄露密钥的风险。未请求其他不必要的凭据。
持久化与权限
该 skill 不会请求特权持久化(always:false),也不会修改其他 skill 或系统级配置。它仅以普通用户 CLI 脚本运行,并将生成的音频文件写入工作目录。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

初始发布:支持 ElevenLabs/OpenAI TTS 多引擎配音,含音色库、SSML规范、后期处理指南

可疑

安装命令

点击复制
官方npx clawhub@latest install ai-voice-synthesis-claw
镜像加速npx clawhub@latest install ai-voice-synthesis-claw --registry https://cn.longxiaskill.com

技能文档

把文字变成有温度的声音。

工作流程

步骤 1:理解需求

收集以下信息(未提供时使用默认值):
  • 文本内容:待配音的文案/脚本
  • 音色风格:参考 references/voice-style-guide.md 选择合适音色
  • 语速:slow / normal(默认)/ fast
  • 情感:calm / warm / professional / energetic
  • 输出格式:mp3(默认)/ wav

步骤 2:文本预处理

调用 TTS 前处理文本:
  • 按标点分句
  • 数字转中文(100 → 一百)
  • 多音字标注(如"重要"的"重")
  • 添加停顿标记

步骤 3:选择 TTS 引擎

按优先级:
  • ElevenLabs(推荐):最自然,支持情感控制,需 ELEVENLABS_API_KEY
  • OpenAI TTS:质量稳定,需 OPENAI_API_KEY
  • Azure TTS:多语言支持,需 AZURE_SPEECH_KEY + AZURE_SPEECH_REGION
  • 系统 TTS(兜底):使用 tts 工具直接合成(无需 API key,质量较低)

检查环境变量: ``bash echo "ElevenLabs: $ELEVENLABS_API_KEY" && echo "OpenAI: $OPENAI_API_KEY" `

步骤 4:生成 SSML(可选)

参考 references/ssml-guide.md 添加 SSML 标注。简单场景可跳过。

步骤 5:调用合成脚本

`bash # 单段文本 python3 scripts/synthesize-voice.py \ --text "你好,欢迎收听本期节目" \ --voice warm-female \ --speed normal \ --output ./output.mp3

# 从文件 python3 scripts/synthesize-voice.py \ --script ./script.txt \ --voice professional-male \ --speed fast \ --output ./output.mp3

# 加背景音乐 python3 scripts/synthesize-voice.py \ --script ./script.txt \ --bgm ./bgm/light-jazz.mp3 \ --bgm-volume 0.1 \ --output ./output.mp3 `

步骤 6:后期处理

参考 references/audio-processing-guide.md,自动完成:
  • 降噪
  • 音量标准化(-14 LUFS)
  • 背景音乐混音(可选)
  • 格式转换

步骤 7:交付

` 合成完成!这是你的配音文件。 MEDIA:./output.mp3 `

音色速查

| 场景 | 推荐音色 | |------|---------| | 知识科普 | professional-male / professional-female | | 情感故事 | warm-female | | 商业广告 | magnetic-male | | 轻松娱乐 | young-energetic |

完整音色库见 references/voice-style-guide.md

环境依赖

`bash pip install elevenlabs openai pydub requests brew install ffmpeg # macOS `

注意事项

  • 单次合成建议 ≤10 分钟
  • 音色克隆需 ≥1 分钟清晰样本
  • 使用他人声音需授权
  • 无 API key 时降级为系统 tts`
数据来源ClawHub ↗ · 中文优化:龙虾技能库