GPT-SoVITS TTS — GPT-SoVITS 文本转语音(TTS)
v2使用 GPT-SoVITS v2 Pro+ 实现高品质中文 TTS —— 将文本转换为自然流畅的语音,并支持语音克隆。
运行时依赖
安装命令
点击复制技能文档
GPT-SoVITS TTS 一个生产就绪的文本转语音技能,连接到本地GPT-SoVITS v2 Pro+ API服务器。将中文文本转换为自然听感的语音,使用克隆的参考声音。适用于语音响应自动化、内容旁白和AI语音应用。
特点: 清晰的TTS流程:文本 → GPT-SoVITS API → WAV → MP3(128kbps,44100Hz,单声道) 语音克隆:使用预先录制的参考音频以确保一致的语音输出 可配置:API URL、超时、TTS参数(速度、top_k、top_p、温度、种子) 无需GPU:纯CPU推理,适用于任何机器(约5-10秒每句话)
要求: GPT-SoVITS v2 Pro+ API运行在http://127.0.0.1:9880(或设置GPT_SOVITS_API_URL) ffmpeg安装并在PATH中(用于WAV→MP3转换) Node.js包:axios 模型文件(在API服务器端): 组件 文件大小 s1 s1v3.ckpt 148MB s2 s2Gv2ProPlus.pth 191MB BERT chinese-roberta-wwm-ext-large 621MB CNHuBERT chinese-hubert-base 180MB Speaker Verification pretrained_eres2netv2w24s4ep4.ckpt 103MB 参考音频 ref_audio.wav ~10-30秒清晰录音
快速开始:
- 启动GPT-SoVITS API
- 设置参考音频
- 使用技能
API speak(文本,输出路径,选项?) 参数 类型 默认值 描述 文本 string 必需 中文文本合成 输出路径 string 必需 输出.mp3文件路径 选项.topK number 15 Top-K采样 选项.topP number 0.7 Top-P采样 选项.temperature number 0.5 采样温度 选项.speed number 1.0 速度因子 选项.seed number -1 随机种子(-1 = 随机) 返回: Promise — 生成的MP3文件路径
环境变量: 变量 默认值 描述 GPT_SOVITS_API_URL http://127.0.0.1:9880 GPT-SoVITS API基URL GPT_SOVITS_API_TIMEOUT 300000 API请求超时(毫秒)
集成: 此技能设计为从自动化工作流程调用: 语音回复用于消息机器人(WeChat、Telegram等) 内容旁白用于视频/音频制作 语音响应用于IVR系统
许可:MIT