GPT-SoVITS TTS — GPT-SoVITS 文本转语音（TTS）

使用 GPT-SoVITS v2 Pro+ 实现高品质中文 TTS —— 将文本转换为自然流畅的语音，并支持语音克隆。

0· 0·0 当前·0 累计

by @huizong-cpu·MIT

钉钉

下载技能包

License

MIT

License

MIT

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install gptsovits-tts

镜像加速npx clawhub@latest install gptsovits-tts --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

GPT-SoVITS TTS 一个生产就绪的文本转语音技能，连接到本地GPT-SoVITS v2 Pro+ API服务器。将中文文本转换为自然听感的语音，使用克隆的参考声音。适用于语音响应自动化、内容旁白和AI语音应用。

特点：清晰的TTS流程：文本 → GPT-SoVITS API → WAV → MP3（128kbps，44100Hz，单声道）语音克隆：使用预先录制的参考音频以确保一致的语音输出可配置：API URL、超时、TTS参数（速度、top_k、top_p、温度、种子）无需GPU：纯CPU推理，适用于任何机器（约5-10秒每句话）

要求： GPT-SoVITS v2 Pro+ API运行在http://127.0.0.1:9880（或设置GPT_SOVITS_API_URL） ffmpeg安装并在PATH中（用于WAV→MP3转换） Node.js包：axios 模型文件（在API服务器端）：组件文件大小 s1 s1v3.ckpt 148MB s2 s2Gv2ProPlus.pth 191MB BERT chinese-roberta-wwm-ext-large 621MB CNHuBERT chinese-hubert-base 180MB Speaker Verification pretrained_eres2netv2w24s4ep4.ckpt 103MB 参考音频 ref_audio.wav ~10-30秒清晰录音

快速开始：

启动GPT-SoVITS API

cd /path/to/GPT-SoVITS-CPUFast conda activate GPTSoVits python api_v2.py -a 127.0.0.1 -p 9880

设置参考音频

将清晰的.wav文件（10-30秒目标语音）放在：voice-clone/ref_audio.wav

使用技能

const tts = require('./skills/voice-clone'); const mp3 = await tts.speak("你好，欢迎使用GPT-SoVITS语音合成。", "output.mp3"); // 返回： "output.mp3"

API speak（文本，输出路径，选项？）参数类型默认值描述文本 string 必需中文文本合成输出路径 string 必需输出.mp3文件路径选项.topK number 15 Top-K采样选项.topP number 0.7 Top-P采样选项.temperature number 0.5 采样温度选项.speed number 1.0 速度因子选项.seed number -1 随机种子（-1 = 随机）返回： Promise — 生成的MP3文件路径

环境变量：变量默认值描述 GPT_SOVITS_API_URL http://127.0.0.1:9880 GPT-SoVITS API基URL GPT_SOVITS_API_TIMEOUT 300000 API请求超时（毫秒）

集成：此技能设计为从自动化工作流程调用：语音回复用于消息机器人（WeChat、Telegram等）内容旁白用于视频/音频制作语音响应用于IVR系统

许可：MIT

License

运行时依赖

安装命令

技能文档

相关技能推荐