iFlytek Ultra-Realistic TTS — 科大讯飞超真实语音合成（TTS）

iFlytek 超拟人语音合成（Ultra-Realistic TTS）— 使用 iFlytek 的超拟人语音合成 API 从文本合成自然、富有表现力的语音。支持 50+ 种声音（男/女/儿童，中文/英文/方言），可调节速度/音量/音调，输出 mp3/pcm/opus 格式。适用于用户想要将文本转换为语音、生成音频解说或创建语音内容的场景。使用纯 Python 标准库，无 pip 依赖。

0· 0·0 当前·0 累计

by @smallkeyboy (smallKeyboy)·MIT-0

API开发 CI/CD DevOps 微信

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install smallkeyboy-xfyun-tts

镜像加速npx clawhub@latest install smallkeyboy-xfyun-tts --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

xfyun-tts 使用 iFlytek 的超拟人语音合成（Ultra-Realistic Voice Synthesis）WebSocket API，从文本合成自然、富有表现力的语音。支持 50+ 种声音，具有类似人类的呼吸、暂停和情感表达。

设置：

在讯飞控制台创建一个应用，启用超拟人语音合成服务。
在控制台中启用所需的声音（默认：x5_lingyuzhao_flow / 聆玉昭）。
设置环境变量：

- export XFYUN_APP_ID="你的应用 ID" - export XFYUN_API_KEY="你的 API 密钥" - export XFYUN_API_SECRET="你的 API 密码"

使用方法：

基本合成：python3 scripts/tts.py "你好，欢迎使用科大讯飞语音合成。" # 保存到 output.mp3
指定输出文件：python3 scripts/tts.py "Hello, this is a test." --output hello.mp3
使用不同的声音：python3 scripts/tts.py "大家好" --voice x6_lingfeiyi_pro --output greeting.mp3
从文件读取：python3 scripts/tts.py --file article.txt --output article.mp3
从标准输入读取：echo "流式文本输入测试" | python3 scripts/tts.py --output speech.mp3
调整参数：python3 scripts/tts.py "语速快一点" --speed 70 --volume 80 --pitch 60
输出 PCM 格式：python3 scripts/tts.py "测试" --format pcm --sample-rate 16000 --output test.pcm
列出所有可用声音：python3 scripts/tts.py --list-voices

选项：

Flag 短名默认值描述
文本 Text 文本合成（位置参数）
--file -f 从文件读取文本
--output -o output.mp3 输出音频文件路径
--voice -v x5_lingyuzhao_flow 声音名称（vcn）
--format mp3 音频格式：mp3, pcm, speex, opus
--sample-rate 24000 采样率：8000, 16000, 24000
--speed 50 速度 0-100（50=正常，100=2x）
--volume 50 音量 0-100（50=正常）
--pitch 50 音调 0-100（50=正常）
--bgs 0 背景声音：0=无，1=bg1，2=bg2
--reg 0 英语发音：0=自动，1=拼写，2=字母
--rdn 0 数字读法：0=自动，1=值，2=字符串，3=字符串优先
--list-voices 打印声音列表并退出

热门声音：

VCN 名称性别语言场景
x5_lingyuzhao_flow 聆玉昭女性中文交互聊天
x5_lingxiaotang_flow 聆小糖女性中文语音助手
x6_lingfeiyi_pro 聆飞逸男性中文交互聊天
x6_lingxiaoli_pro 聆小璃女性中文交互聊天
x6_pangbainan1_pro 旁白男声男性中文旁白配音
x6_pangbainv1_pro 旁白女声女性中文旁白配音
x6_lingfeihan_pro 聆飞瀚男性中文纪录片
x5_EnUs_Grant_flow Grant 女性英语交互聊天
x5_EnUs_Lila_flow Lila 女性英语交互聊天
x4_zijin_oral 子津男性天津话交互聊天
x4_ziyang_oral 子阳男性东北话交互聊天

运行 --list-voices 以获取完整列表（50+ 种声音）。

文本特性：

静默暂停：在文本中插入 [p500] 以添加 500ms 暂停：你好[p500]科大讯飞
指定发音：在字符后使用 [=pinyin] 强制发音：着[=zhuo2]手

注意：

端点：wss://cbm01.cn-huabei-1.xf-yun.com/v1/private/mcd9m97e6
协议：WebSocket（RFC 6455）带 HMAC-SHA256 签名的 URL 认证
文本限制：每个会话最多 64KB
会话超时：60 秒
文本输入速度：必须超过 15 个字符/秒以实现流式传输（不适用于单次模式）
无 pip 依赖：使用内置的最小 WebSocket 客户端，基于纯 Python 标准库
环境变量：XFYUN_APP_ID、XFYUN_API_KEY、XFYUN_API_SECRET
输出：打印保存的音频文件的绝对路径到标准输出（方便管道到其他工具）
x4 系列声音（x4_*_oral）支持口语化配置参数，x5/x6 不支持
声音必须在控制台中启用后才能使用

License

运行时依赖

安装命令

技能文档

相关技能推荐