Mlx Stt

本地运行 mlx-audio Whisper 模型，将多格式音频转录为文本，支持自动语言检测和时间戳，无需联网或 API 密钥。

0· 314·0 当前·0 累计

by @gandli-2025·MIT-0

API开发

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install openclaw-mlx-stt

镜像加速npx clawhub@latest install openclaw-mlx-stt --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

mlx-stt - 基于 mlx-audio Whisper 的语音转文本技能

使用 mlx-audio Whisper 模型将音频转录为文本，完全在应用le Silicon 上运行，无需 API 密钥。

触发条件

当用户请求以下操作时使用此技能：

"转录这段音频" "把语音转成文字" "听写这个文件" "STT" "语音识别" "把录音转文字" 工具：mlx_stt

注意：本插件依赖 mlx-audio Python 库。使用前请确保已安装：

uv 工具安装 mlx-audio --prerelease=allow

转录音频 { "action": "transcribe", "audioPath": "/path/to/audio.mp3", "language": "可选：语言代码 (zh/en 等)", "task": "可选：transcribe 或 translate" }

参数说明：

action: 必须是 "transcribe" audioPath: 音频文件路径（必需） language: 可选，语言代码（省略则自动检测） task: 可选，"transcribe"（转录）或 "translate"（翻译成英文）

返回值：

{ "成功": true, "text": "转录的文本内容", "language": "检测到的语言", "duration": 5.2, "segments": [ { "启动": 0.0, "end": 2.5, "text": "第一句话" } ] }

检查状态 { "action": "状态" }

返回 STT 服务器状态、加载的模型等信息。

重载配置 { "action": "reload" }

无需重启 OpenClaw 即可重载 STT 配置。

可用模型 Whisper 系列模型语言描述内存需求 whisper-large-v3-turbo (推荐默认) 99+ 快速准确，日常使用 ~2GB whisper-large-v3 99+ 最高准确度 ~6GB distil-large-v3 EN 蒸馏版，更快 ~1.5GB Qwen3 系列模型语言描述内存需求 Qwen3-ASR-0.6B ZH, EN, JA, KO 等轻量多语言 ASR ~1GB Qwen3-ASR-1.7B ZH, EN, JA, KO 等高精度多语言 ASR ~4GB Qwen3-ForcedAligner-0.6B ZH, EN, JA, KO 等词级时间戳对齐 ~1GB 其他模型模型语言描述内存需求 Parakeet-TDT-0.6B-v3 25 EU 语言 NVIDIA 高精度 ~1.5GB VibeVoice-ASR-9B 多语言说话人分离，长音频 (60min) ~18GB Voxtral-Mini-3B 多语言 Mistral 语音模型 ~6GB Canary 25 EU + RU NVIDIA 多语言 + 翻译 ~2GB Moonshine EN Useful Sensors 轻量 ASR ~500MB MMS 1000+ Meta 超大规模多语言可变 Granite-Speech EN, FR, DE, ES, PT, JA IBM ASR + 翻译 ~4GB 命令行工具命令命令描述 /mlx-stt 状态查看 STT 服务器状态 /mlx-stt transcribe <音频路径> 转录音频文件 /mlx-stt reload 重载 STT 配置 /mlx-stt 模型s 列出可用模型使用示例基础转录（自动检测语言） { "action": "transcribe", "audioPath": "/tmp/recording.m4a" }

指定语言 { "action": "transcribe", "audioPath": "/tmp/chinese_audio.mp3", "language": "zh" }

翻译成英文 { "action": "transcribe", "audioPath": "/tmp/foreign_audio.mp3", "task": "translate" }

使用特定模型

在配置中指定，或使用时覆盖。

支持的音频格式 MP3 WAV M4A FLAC OGG 网页M MP4（提取音频）注意事项完全本地：所有处理在本地完成，数据不出机器自动语言检测：不指定 language 时自动检测时间戳：返回结果包含每个片段的时间戳长音频：支持长音频文件，自动分段处理背景噪音：Whisper 对背景噪音有一定鲁棒性配置

在 OpenClaw.json 中配置：

{ "插件s": { "entries": { "OpenClaw-mlx-audio": { "config": { "stt": { "enabled": true, "模型": "mlx-community/whisper-large-v3-turbo", "port": 19290, "language": "zh", "pythonEnvMode": "managed" } } } } } }

故障排除 STT 服务器未启动

检查状态：

/voice-stt 状态

如果显示未运行，检查配置中的 enabled 是否为 true。

转录失败检查音频文件是否存在检查音频格式是否支持查看服务器日志识别准确度低尝试使用更大的模型（如 whisper-large-v3）指定正确的语言代码确保音频质量良好（减少背景噪音）处理速度慢使用更小的模型（如 whisper-turbo 或 whisper-small）缩短音频长度确保没有其他高负载任务高级用法批量转录

可以循环调用 transcribe 处理多个文件。

实时转录

结合音频录制工具，实现近实时的语音转文字。

多语言混合

Whisper v3 支持多语言混合音频的自动检测和转录。

License

运行时依赖

安装命令

技能文档

相关技能推荐