🪟 MAI Transcribe — 音频转录

v0.1.1

使用微软的MAI-Transcribe-1模型通过Azure AI Speech进行音频转录的技能。提供一个小型Node CLI工具，可将音频文件上传到Azure Speech端点并获取转录结果。

0· 60·0 当前·0 累计

by @robotsbuildrobots·MIT-0

AI模型访问

使用场景：使用MAI Transcribe — 音频转录进行AI模型访问使用MAI Transcribe — 音频转录

下载技能包

License

MIT-0

最后更新

2026/4/7

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

技能内部一致：实现了一个小型Node CLI，将音频上传到Azure Speech端点，只需要适合该用途的Azure speech端点和密钥。

评估建议

这个技能是连贯的，实现了一个简单的转录CLI。在安装前，确认您可以接受音频被上传到Microsoft（脚本将音频发布到Azure Speech端点）。提供具有最小权限的Speech资源密钥，如需要可轮换/撤销密钥。确保您的运行时具有兼容的Node版本（FormData/Blob/fetch使用可能需要现代Node）。除非您的Azure策略允许，否则避免上传高度敏感的录音。

详细分析 ▾

✓ 用途与能力

名称/描述（MAI Transcribe）与请求的资源相匹配。技能仅请求AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY，需要node环境，并包含一个小型CLI，将音频发布到文档化的Speech API。没有任何请求看起来与转录无关。

✓ 指令范围

SKILL.md和脚本指示代理运行一个本地Node脚本，读取单个音频文件，将其上传到配置的AZURE_SPEECH_ENDPOINT，并写入转录文件。说明不请求无关文件、其他环境变量或意外的外部端点。README和SKILL.md明确指出音频被上传到Microsoft。

✓ 安装机制

这是一个仅包含指令的技能，没有安装规范（最低风险）。包含的代码文件很小，有文档记录，使用标准Node运行时行为；没有从任意URL下载或解压步骤。

✓ 凭证需求

所需的环境变量是AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY（主要环境变量）。这些对于调用Azure Speech是适当且足够的。没有请求无关的密钥或配置路径。允许可选的AZURE_SPEECH_API_VERSION以确保兼容性。

✓ 持久化与权限

always为false，技能不请求持久/全局代理权限或修改其他技能配置。默认允许自主调用，但不与广泛或无关的凭证访问结合。

⚠ scripts/transcribe.js:51

文件读取与网络发送相结合（可能存在数据泄露风险）。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.12026/4/7

添加Azure Speech密钥和端点设置说明

● 无害

安装命令

点击复制

官方npx clawhub@latest install mai-transcribe

镜像加速npx clawhub@latest install mai-transcribe --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

MAI Transcribe — 音频转录安装说明：安装命令：npx clawhub@latest install mai-transcribe

需要定制？告诉我你的需求 →

技能文档

通过Azure AI Speech使用微软的 MAI-Transcribe-1 模型转录音频文件。

快速开始

node {baseDir}/scripts/transcribe.js /path/to/audio.m4a

默认值：

模型：mai-transcribe-1
输出：.txt
API版本：2025-10-15

有用的参数

node {baseDir}/scripts/transcribe.js /path/to/audio.ogg --out /tmp/transcript.txt
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --language en-GB
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --json --out /tmp/transcript.json
node {baseDir}/scripts/transcribe.js /path/to/audio.wav --model mai-transcribe-1
node {baseDir}/scripts/transcribe.js --help

所需环境变量

export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"

如何获取API密钥

前往Azure门户并打开您的 Speech 或 Foundry Speech 资源。
打开 密钥和端点。
复制：

- 资源端点，例如 https://your-resource.cognitiveservices.azure.com - 其中一个资源密钥

导出它们：

export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"

如果发生gh风格的复制粘贴混乱，最重要的是这个技能期望的是 Speech资源端点，而不是通用的Foundry项目URL。

可选：

export AZURE_SPEECH_API_VERSION="2025-10-15"

API结构

脚本调用：

POST {AZURE_SPEECH_ENDPOINT}/speechtotext/transcriptions:transcribe?api-version=2025-10-15

请求头：

Ocp-Apim-Subscription-Key: {AZURE_SPEECH_KEY}

多部分表单字段：

audio
definition

示例definition负载：

{
  "enhancedMode": {
    "enabled": true,
    "model": "mai-transcribe-1"
  }
}

注意事项

这与Whisper技能风格相同：一个小的有文档记录的脚本包装器，而不是内置的OpenClaw媒体管道。
已在实时Azure Speech资源上测试成功。
--json 写入原始Azure响应以用于调试或下游处理。
音频被上传到Microsoft进行处理。

License

运行时依赖

版本

安装命令

本土化适配说明

技能文档

快速开始

有用的参数

所需环境变量

如何获取API密钥

API结构

注意事项

相关技能推荐