mimo-tts-wav — mimo 文本转语音 wav

v2.5

小米 MiMo-V2.5-TTS 语音合成工具。将文本合成为 WAV 音频文件，支持预置音色、语音设计、音色克隆。使用 OpenAI SDK 调用 mimo-v2.5-tts / mimo-v2.5-tts-voicedesign / mimo-v2.5-tts-voiceclone 模型。需要设置 MIMO_API_KEY 环境变量。当用户需要进行文本转语音、生成 WAV 文件、制作配音、有声书或语音消息时使用。

0· 0·0 当前·0 累计

by @xcchenx345·MIT-0

API开发 AI模型访问设计工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install mimo-tts-wav

镜像加速npx clawhub@latest install mimo-tts-wav --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

MiMo TTS WAV 语音合成调用小米 MiMo-V2.5-TTS 系列的 OpenAI 兼容 API，将文本合成为 WAV 音频文件。

前置条件环境变量 MIMO_API_KEY 已设置（从 xiaomimimo.com 获取） Python 依赖：openai, numpy, soundfile（如用流式）

使用方式快速合成（非流式）

import os 
from openai import OpenAI 
import base64 
client = OpenAI( 
    api_key=os.environ["MIMO_API_KEY"], 
    base_url="https://api.xiaomimimo.com/v1" 
) 
completion = client.chat.completions.create( 
    model="mimo-v2.5-tts", 
    messages=[ 
        {"role": "user", "content": "用轻快活泼的语气读出这段文字"}, 
        {"role": "assistant", "content": "你好，欢迎收听今天的节目。"} 
    ], 
    audio={ 
        "format": "wav", 
        "voice": "冰糖" # 预置音色 
    } 
) 
audio_bytes = base64.b64decode(completion.choices[0].message.audio.data) 
with open("output.wav", "wb") as f: 
    f.write(audio_bytes)

可用模型 Model ID 功能 mimo-v2.5-tts 预置音色合成（支持唱歌） mimo-v2.5-tts-voicedesign 文本描述定制音色 mimo-v2.5-tts-voiceclone 音频样本复刻音色

预置音色（mimo-v2.5-tts） mimo_default（中国集群=冰糖，海外集群=Mia）冰糖（中文女声）茉莉（中文女声）苏打（中文男声）白桦（中文男声） Mia（英文女声） Chloe（英文女声） Milo（英文男声） Dean（英文男声）

风格控制两种方式（二选一）：自然语言控制 → 写在 role: user 的 content 中音频标签控制 → 在 role: assistant 的 content 中嵌入 (风格) 和 [音频标签] 见 references/style-guide.md 获取详细风格标签列表。

脚本 scripts/tts_simple.py — 单次非流式合成 WAV scripts/tts_with_style.py — 带风格控制的合成示例 scripts/tts_stream.py — 流式合成并拼接 WAV 运行方式：python scripts/tts_simple.py "要合成的文本"

License

运行时依赖

安装命令

技能文档

相关技能推荐