智能配音合成虾AI智能配音合成专家。将文案/脚本转换为高拟真语音音频，支持多种音色、情感控制、SSML标注和后期处理。

v1.0.0

触发场景：用户说“配音”“语音合成”“TTS”“旁白”“播客音频”“有声读物”“AI配音”“朗读”“音频生成”，或要求“用XX声音读这段文案”“生成播客音频”“把文章转成有声版”等。支...

0· 64·0 当前·0 累计

by @tujinsama (Ricky)

音频处理语音合成

下载技能包

最后更新

2026/4/21

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

可疑

high confidence

该技能基本实现了描述中的功能（文本→TTS），但元数据和指令不一致，可能泄露密钥（回显环境变量），并提及代码中未实现的服务（Azure）——安装或提供 API 密钥前请审查。

评估建议

该技能似乎通过 ElevenLabs 和 OpenAI 实现 TTS，但在安装或提供 API 密钥前，请注意以下红旗： - 元数据与实际情况不符：注册表元数据未列出任何必需环境变量，但脚本却要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY。请与作者确认或准备提供这些密钥。 - Azure 不匹配：SKILL.md 提到 Azure 凭据，但脚本并未实现 Azure TTS——如需 Azure 支持，请向维护者澄清。 - 密钥泄露：SKILL.md 示例中 echo 环境变量（如 echo "ElevenLabs: $ELEVENLABS_API_KEY"）。切勿在共享或已记录环境执行此类命令，以免 API 密钥落入日志。请私下验证密钥或使用安全工具管理机密。 - 依赖安装：文档要求 pip 安装包并用 brew 安装 ffmpeg。请仅在可信/隔离环境（virtualenv/容器）中安装，以降低风险。 - 语音克隆/版权：技能注明语音克隆需授权。未经同意勿传递音频样本或使用他人声音。使用建议：先检查代码（已有 synthesize...

详细分析 ▾

⚠ 用途与能力

该技能声明用途为使用 ElevenLabs/OpenAI/Azure/system TTS 进行文本→语音，与内置的 synthesize-voice.py（支持 ElevenLabs 与 OpenAI）相符；但注册元数据未声明任何必需环境变量或凭据，而 SKILL.md 与脚本均要求 ELEVENLABS_API_KEY 和 OPENAI_API_KEY（SKILL.md 还列出 AZURE_SPEECH_KEY 与 region，但脚本未实现 Azure）。声明需求与实际代码不一致，存在矛盾。

ℹ 指令范围

SKILL.md 提供了清晰的 TTS 工作流及调用 scripts/synthesize-voice.py 与后处理的示例命令。但文档中演示了运行 echo "ElevenLabs: $ELEVENLABS_API_KEY"，这会把 API 密钥打印到 stdout/logs，存在泄露风险。指南要求读取脚本文件并写入输出音频文件（符合预期），并未指示将数据外泄到意外端点。文档建议通过 pip/brew 安装依赖，但元数据中并无安装规范。

✓ 安装机制

没有自动化安装规范（仅提供说明文档和 Python 脚本）。这是风险较低的模型，因为安装过程中不会自动下载或执行任何内容。SKILL.md 建议使用 pip/brew 命令安装依赖，这对基于 Python 的 TTS 脚本是常规做法，但用户若照做会执行任意包安装。

⚠ 凭证需求

包元数据未声明任何必需的环境变量，但脚本会从环境中读取 ELEVENLABS_API_KEY 和 OPENAI_API_KEY，且 SKILL.md 也引用了 AZURE_SPEECH_* 密钥。为所列 TTS 服务要求 API 密钥是合理的，但元数据中的遗漏不一致，且 SKILL.md 中回显 env 变量的示例存在泄露密钥的风险。未请求其他不必要的凭据。

✓ 持久化与权限

该 skill 不会请求特权持久化（always:false），也不会修改其他 skill 或系统级配置。它仅以普通用户 CLI 脚本运行，并将生成的音频文件写入工作目录。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

初始发布：支持 ElevenLabs/OpenAI TTS 多引擎配音，含音色库、SSML规范、后期处理指南

● 可疑

安装命令

点击复制

官方npx clawhub@latest install ai-voice-synthesis-claw

镜像加速npx clawhub@latest install ai-voice-synthesis-claw --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

# 智能配音合成虾 (ai-voice-synthesis-claw) 将文字转化为有温度的声音。 ## 工作流程 ### 步骤 1：理解需求收集以下信息（未提供时使用默认值）： - 文本内容：待配音的文案/脚本 - 音色风格：参考 references/voice-style-guide.md 选择合适音色 - 语速：slow / normal（默认）/ fast - 情感：calm / warm / professional / energetic - 输出格式：mp3（默认）/ wav ### 步骤 2：文本预处理在调用 TTS 前对文本进行处理： - 分句断句（按标点符号） - 数字转中文（100 → 一百） - 多音字标注（如"重要"的"重"） - 添加停顿标记 ### 步骤 3：选择 TTS 引擎按优先级选择可用引擎： 1. ElevenLabs（推荐）：最自然，支持情感控制，需 ELEVENLABS_API_KEY 2. OpenAI TTS：质量稳定，需 OPENAI_API_KEY 3. Azure TTS：多语言支持，需 AZURE_SPEECH_KEY + AZURE_SPEECH_REGION 4. 系统 TTS（兜底）：使用 tts 工具直接合成（无需 API key，质量较低）检查环境变量确认可用引擎： ``bash echo "ElevenLabs: $ELEVENLABS_API_KEY" && echo "OpenAI: $OPENAI_API_KEY" ` ### 步骤 4：生成 SSML（可选，精细控制时使用）参考 references/ssml-guide.md 为文本添加 SSML 标注。简单场景可跳过，直接传纯文本。 ### 步骤 5：调用合成脚本 `bash # 单段文本合成 python3 scripts/synthesize-voice.py \ --text "你好，欢迎收听本期节目" \ --voice warm-female \ --speed normal \ --output ./output.mp3 # 从文件合成 python3 scripts/synthesize-voice.py \ --script ./script.txt \ --voice professional-male \ --speed fast \ --output ./output.mp3 # 添加背景音乐 python3 scripts/synthesize-voice.py \ --script ./script.txt \ --bgm ./bgm/light-jazz.mp3 \ --bgm-volume 0.1 \ --output ./output.mp3 ` ### 步骤 6：后期处理参考 references/audio-processing-guide.md，脚本自动完成： - 降噪处理 - 音量标准化（-14 LUFS） - 背景音乐混音（可选） - 格式转换 ### 步骤 7：交付将生成的音频文件发送给用户： ` 合成完成！这是你的配音文件。 MEDIA:./output.mp3 ` ## 音色快速参考 | 场景 | 推荐音色 | |------|---------| | 知识科普 | professional-male / professional-female | | 情感故事 | warm-female | | 商业广告 | magnetic-male | | 轻松娱乐 | young-energetic | 详细音色库见 references/voice-style-guide.md。 ## 环境依赖 `bash pip install elevenlabs openai pydub requests brew install ffmpeg # macOS ` ## 注意事项 - 单次合成建议不超过 10 分钟音频 - 音色克隆需至少 1 分钟清晰样本音频 - 使用他人声音克隆需获得授权 - 无 API key 时降级使用系统 tts` 工具

运行时依赖

版本

安装命令

技能文档

相关技能推荐