iFlytek Ultra-Realistic TTS — 科大讯飞 超真实语音合成(TTS)
v1iFlytek 超拟人语音合成(Ultra-Realistic TTS)— 使用 iFlytek 的超拟人语音合成 API 从文本合成自然、富有表现力的语音。支持 50+ 种声音(男/女/儿童,中文/英文/方言),可调节速度/音量/音调,输出 mp3/pcm/opus 格式。适用于用户想要将文本转换为语音、生成音频解说或创建语音内容的场景。使用纯 Python 标准库,无 pip 依赖。
0· 0·0 当前·0 累计
下载技能包
License
MIT-0
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install smallkeyboy-xfyun-tts
镜像加速npx clawhub@latest install smallkeyboy-xfyun-tts --registry https://cn.longxiaskill.com镜像同步中
技能文档
xfyun-tts 使用 iFlytek 的超拟人语音合成(Ultra-Realistic Voice Synthesis)WebSocket API,从文本合成自然、富有表现力的语音。支持 50+ 种声音,具有类似人类的呼吸、暂停和情感表达。
设置:
- 在讯飞控制台创建一个应用,启用超拟人语音合成服务。
- 在控制台中启用所需的声音(默认:x5_lingyuzhao_flow / 聆玉昭)。
- 设置环境变量:
使用方法:
- 基本合成:python3 scripts/tts.py "你好,欢迎使用科大讯飞语音合成。" # 保存到 output.mp3
- 指定输出文件:python3 scripts/tts.py "Hello, this is a test." --output hello.mp3
- 使用不同的声音:python3 scripts/tts.py "大家好" --voice x6_lingfeiyi_pro --output greeting.mp3
- 从文件读取:python3 scripts/tts.py --file article.txt --output article.mp3
- 从标准输入读取:echo "流式文本输入测试" | python3 scripts/tts.py --output speech.mp3
- 调整参数:python3 scripts/tts.py "语速快一点" --speed 70 --volume 80 --pitch 60
- 输出 PCM 格式:python3 scripts/tts.py "测试" --format pcm --sample-rate 16000 --output test.pcm
- 列出所有可用声音:python3 scripts/tts.py --list-voices
选项:
- Flag 短名 默认值 描述
- 文本 Text 文本合成(位置参数)
- --file -f 从文件读取文本
- --output -o output.mp3 输出音频文件路径
- --voice -v x5_lingyuzhao_flow 声音名称(vcn)
- --format mp3 音频格式:mp3, pcm, speex, opus
- --sample-rate 24000 采样率:8000, 16000, 24000
- --speed 50 速度 0-100(50=正常,100=2x)
- --volume 50 音量 0-100(50=正常)
- --pitch 50 音调 0-100(50=正常)
- --bgs 0 背景声音:0=无,1=bg1,2=bg2
- --reg 0 英语发音:0=自动,1=拼写,2=字母
- --rdn 0 数字读法:0=自动,1=值,2=字符串,3=字符串优先
- --list-voices 打印声音列表并退出
热门声音:
- VCN 名称 性别 语言 场景
- x5_lingyuzhao_flow 聆玉昭 女性 中文 交互聊天
- x5_lingxiaotang_flow 聆小糖 女性 中文 语音助手
- x6_lingfeiyi_pro 聆飞逸 男性 中文 交互聊天
- x6_lingxiaoli_pro 聆小璃 女性 中文 交互聊天
- x6_pangbainan1_pro 旁白男声 男性 中文 旁白配音
- x6_pangbainv1_pro 旁白女声 女性 中文 旁白配音
- x6_lingfeihan_pro 聆飞瀚 男性 中文 纪录片
- x5_EnUs_Grant_flow Grant 女性 英语 交互聊天
- x5_EnUs_Lila_flow Lila 女性 英语 交互聊天
- x4_zijin_oral 子津 男性 天津话 交互聊天
- x4_ziyang_oral 子阳 男性 东北话 交互聊天
文本特性:
- 静默暂停:在文本中插入 [p500] 以添加 500ms 暂停:你好[p500]科大讯飞
- 指定发音:在字符后使用 [=pinyin] 强制发音:着[=zhuo2]手
注意:
- 端点:wss://cbm01.cn-huabei-1.xf-yun.com/v1/private/mcd9m97e6
- 协议:WebSocket(RFC 6455)带 HMAC-SHA256 签名的 URL 认证
- 文本限制:每个会话最多 64KB
- 会话超时:60 秒
- 文本输入速度:必须超过 15 个字符/秒以实现流式传输(不适用于单次模式)
- 无 pip 依赖:使用内置的最小 WebSocket 客户端,基于纯 Python 标准库
- 环境变量:XFYUN_APP_ID、XFYUN_API_KEY、XFYUN_API_SECRET
- 输出:打印保存的音频文件的绝对路径到标准输出(方便管道到其他工具)
- x4 系列声音(x4_*_oral)支持口语化配置参数,x5/x6 不支持
- 声音必须在控制台中启用后才能使用