🪟 MAI Transcribe — 音频转录
v0.1.1使用微软的MAI-Transcribe-1模型通过Azure AI Speech进行音频转录的技能。提供一个小型Node CLI工具,可将音频文件上传到Azure Speech端点并获取转录结果。
0· 60·0 当前·0 累计
安全扫描
OpenClaw
安全
high confidence技能内部一致:实现了一个小型Node CLI,将音频上传到Azure Speech端点,只需要适合该用途的Azure speech端点和密钥。
评估建议
这个技能是连贯的,实现了一个简单的转录CLI。在安装前,确认您可以接受音频被上传到Microsoft(脚本将音频发布到Azure Speech端点)。提供具有最小权限的Speech资源密钥,如需要可轮换/撤销密钥。确保您的运行时具有兼容的Node版本(FormData/Blob/fetch使用可能需要现代Node)。除非您的Azure策略允许,否则避免上传高度敏感的录音。详细分析 ▾
✓ 用途与能力
名称/描述(MAI Transcribe)与请求的资源相匹配。技能仅请求AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY,需要node环境,并包含一个小型CLI,将音频发布到文档化的Speech API。没有任何请求看起来与转录无关。
✓ 指令范围
SKILL.md和脚本指示代理运行一个本地Node脚本,读取单个音频文件,将其上传到配置的AZURE_SPEECH_ENDPOINT,并写入转录文件。说明不请求无关文件、其他环境变量或意外的外部端点。README和SKILL.md明确指出音频被上传到Microsoft。
✓ 安装机制
这是一个仅包含指令的技能,没有安装规范(最低风险)。包含的代码文件很小,有文档记录,使用标准Node运行时行为;没有从任意URL下载或解压步骤。
✓ 凭证需求
所需的环境变量是AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY(主要环境变量)。这些对于调用Azure Speech是适当且足够的。没有请求无关的密钥或配置路径。允许可选的AZURE_SPEECH_API_VERSION以确保兼容性。
✓ 持久化与权限
always为false,技能不请求持久/全局代理权限或修改其他技能配置。默认允许自主调用,但不与广泛或无关的凭证访问结合。
⚠ scripts/transcribe.js:51
文件读取与网络发送相结合(可能存在数据泄露风险)。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv0.1.12026/4/7
添加Azure Speech密钥和端点设置说明
● 无害
安装命令
点击复制官方npx clawhub@latest install mai-transcribe
镜像加速npx clawhub@latest install mai-transcribe --registry https://cn.longxiaskill.com
技能文档
通过Azure AI Speech使用微软的 MAI-Transcribe-1 模型转录音频文件。
快速开始
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a
默认值:
- 模型:
mai-transcribe-1 - 输出:
.txt - API版本:
2025-10-15
有用的参数
node {baseDir}/scripts/transcribe.js /path/to/audio.ogg --out /tmp/transcript.txt
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --language en-GB
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --json --out /tmp/transcript.json
node {baseDir}/scripts/transcribe.js /path/to/audio.wav --model mai-transcribe-1
node {baseDir}/scripts/transcribe.js --help
所需环境变量
export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"
如何获取API密钥
- 前往Azure门户并打开您的 Speech 或 Foundry Speech 资源。
- 打开 密钥和端点。
- 复制:
https://your-resource.cognitiveservices.azure.com
- 其中一个资源密钥
- 导出它们:
export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"
如果发生gh风格的复制粘贴混乱,最重要的是这个技能期望的是 Speech资源端点,而不是通用的Foundry项目URL。
可选:
export AZURE_SPEECH_API_VERSION="2025-10-15"
API结构
脚本调用:
POST {AZURE_SPEECH_ENDPOINT}/speechtotext/transcriptions:transcribe?api-version=2025-10-15
请求头:
Ocp-Apim-Subscription-Key: {AZURE_SPEECH_KEY}
多部分表单字段:
audiodefinition
示例definition负载:
{
"enhancedMode": {
"enabled": true,
"model": "mai-transcribe-1"
}
}
注意事项
- 这与Whisper技能风格相同:一个小的有文档记录的脚本包装器,而不是内置的OpenClaw媒体管道。
- 已在实时Azure Speech资源上测试成功。
--json写入原始Azure响应以用于调试或下游处理。- 音频被上传到Microsoft进行处理。