Mlx Tts

v0.1.0

基于 mlx-audio 的本地文本转语音，支持多语言和多模型，输出音频文件限于指定路径，无需 API 密钥。

0· 278·0 当前·0 累计

by @gandli-2025·MIT-0

API开发

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install openclaw-mlx-tts

镜像加速npx clawhub@latest install openclaw-mlx-tts --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

mlx-tts - 基于 mlx-audio 的文本转语音技能

使用 mlx-audio 将文本转换为语音，完全在应用le Silicon 上运行，无需 API 密钥。

触发条件

当用户请求以下操作时使用此技能：

"朗读这段文字" "把这段话转成语音" "用声音说..." "TTS" "语音合成" 工具：mlx_tts

注意：本插件依赖 mlx-audio Python 库。使用前请确保已安装：

uv 工具安装 mlx-audio --prerelease=allow

生成语音 { "action": "生成", "text": "要合成的文本", "输出Path": "/tmp/输出.mp3", "模型": "可选：指定模型", "langCode": "可选：语言代码 (zh/en/ja 等)", "speed": "可选：语速倍数 (1.0 为正常)" }

参数说明：

action: 必须是 "生成" text: 要转换为语音的文本（必需）输出Path: 输出文件路径，限制在 /tmp 或 ~/.OpenClaw/voice/输出s/ 模型: 可选，覆盖默认模型 langCode: 可选，语言代码（Kokoro 模型需要） speed: 可选，语速倍数（0.5-2.0）

返回值：

{ "成功": true, "输出Path": "/tmp/输出.mp3", "duration": 2.5, "模型": "使用的模型名称" }

检查状态 { "action": "状态" }

返回 TTS 服务器状态、加载的模型、启动时间等信息。

重载配置 { "action": "reload" }

无需重启 OpenClaw 即可重载 TTS 配置。

可用模型模型语言描述内存需求 Kokoro-82M (推荐默认) EN, JA, ZH, FR, ES, IT, PT, HI 快速轻量，54 种预设声音 ~500MB Qwen3-TTS-0.6B ZH, EN, JA, KO 等中文质量优秀，支持声音克隆 ~2.5GB Qwen3-TTS-1.7B ZH, EN, JA, KO 等声音设计，根据描述生成 ~16GB+ Chatterbox 16 种语言最广泛的语言覆盖 ~16GB+ CSM-1B EN 对话式语音，支持声音克隆 ~2GB Dia-1.6B EN 对话-focused TTS ~4GB Spark-TTS-0.5B EN, ZH 高效 TTS ~1GB Soprano-1.1-80M EN 高质量轻量 TTS ~200MB OuteTTS-0.6B EN 高效 TTS ~1.5GB Ming-omni-0.5B (Dense) EN, ZH 轻量 MoE，声音克隆 ~1GB Ming-omni-16.8B (BAIlingMM) EN, ZH MoE 多模态，语音/音乐/事件 ~32GB+ 命令行工具命令命令描述 /mlx-tts 状态查看 TTS 服务器状态 /mlx-tts test <文本> 测试生成语音 /mlx-tts reload 重载 TTS 配置 /mlx-tts 模型s 列出可用模型使用示例基础用法 { "action": "生成", "text": "你好，我是你的 AI 助手" }

指定输出路径 { "action": "生成", "text": "欢迎使用 OpenClaw", "输出Path": "~/.OpenClaw/voice/输出s/welcome.mp3" }

使用特定模型和语言 { "action": "生成", "text": "Hello, this is a test", "模型": "mlx-community/Kokoro-82M", "langCode": "en" }

调整语速 { "action": "生成", "text": "慢慢朗读这段话", "speed": 0.8 }

注意事项首次生成较慢：模型需要预热，首次请求可能需要几秒完全本地：所有处理在本地完成，数据不出机器路径限制：输出路径必须在 /tmp 或 ~/.OpenClaw/voice/输出s/ 符号链接检查：输出路径中的符号链接会被拒绝文件大小限制：超过 64MB 的音频会被拒绝配置

在 OpenClaw.json 中配置：

{ "插件s": { "entries": { "OpenClaw-mlx-audio": { "config": { "tts": { "enabled": true, "模型": "mlx-community/Qwen3-TTS-12Hz-0.6B-Base-bf16", "port": 19280, "langCode": "zh", "pythonEnvMode": "managed" } } } } } }

故障排除 TTS 服务器未启动

检查状态：

/voice-tts 状态

如果显示未运行，检查配置中的 enabled 是否为 true。

生成失败检查文本是否为空检查输出路径是否合法查看服务器日志模型下载慢

模型首次使用会下载到 ~/.缓存/huggingface/hub/，可以使用镜像加速。

License

运行时依赖

安装命令

技能文档

相关技能推荐