🪟 MAI Transcribe — 音频转录

v0.1.1

使用微软的MAI-Transcribe-1模型通过Azure AI Speech进行音频转录的技能。提供一个小型Node CLI工具,可将音频文件上传到Azure Speech端点并获取转录结果。

0· 60·0 当前·0 累计
下载技能包
License
MIT-0
最后更新
2026/4/7
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
技能内部一致:实现了一个小型Node CLI,将音频上传到Azure Speech端点,只需要适合该用途的Azure speech端点和密钥。
评估建议
这个技能是连贯的,实现了一个简单的转录CLI。在安装前,确认您可以接受音频被上传到Microsoft(脚本将音频发布到Azure Speech端点)。提供具有最小权限的Speech资源密钥,如需要可轮换/撤销密钥。确保您的运行时具有兼容的Node版本(FormData/Blob/fetch使用可能需要现代Node)。除非您的Azure策略允许,否则避免上传高度敏感的录音。
详细分析 ▾
用途与能力
名称/描述(MAI Transcribe)与请求的资源相匹配。技能仅请求AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY,需要node环境,并包含一个小型CLI,将音频发布到文档化的Speech API。没有任何请求看起来与转录无关。
指令范围
SKILL.md和脚本指示代理运行一个本地Node脚本,读取单个音频文件,将其上传到配置的AZURE_SPEECH_ENDPOINT,并写入转录文件。说明不请求无关文件、其他环境变量或意外的外部端点。README和SKILL.md明确指出音频被上传到Microsoft。
安装机制
这是一个仅包含指令的技能,没有安装规范(最低风险)。包含的代码文件很小,有文档记录,使用标准Node运行时行为;没有从任意URL下载或解压步骤。
凭证需求
所需的环境变量是AZURE_SPEECH_ENDPOINT和AZURE_SPEECH_KEY(主要环境变量)。这些对于调用Azure Speech是适当且足够的。没有请求无关的密钥或配置路径。允许可选的AZURE_SPEECH_API_VERSION以确保兼容性。
持久化与权限
always为false,技能不请求持久/全局代理权限或修改其他技能配置。默认允许自主调用,但不与广泛或无关的凭证访问结合。
scripts/transcribe.js:51
文件读取与网络发送相结合(可能存在数据泄露风险)。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.12026/4/7

添加Azure Speech密钥和端点设置说明

无害

安装命令

点击复制
官方npx clawhub@latest install mai-transcribe
镜像加速npx clawhub@latest install mai-transcribe --registry https://cn.longxiaskill.com

技能文档

通过Azure AI Speech使用微软的 MAI-Transcribe-1 模型转录音频文件。

快速开始

node {baseDir}/scripts/transcribe.js /path/to/audio.m4a

默认值:

  • 模型:mai-transcribe-1
  • 输出:.txt
  • API版本:2025-10-15

有用的参数

node {baseDir}/scripts/transcribe.js /path/to/audio.ogg --out /tmp/transcript.txt
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --language en-GB
node {baseDir}/scripts/transcribe.js /path/to/audio.m4a --json --out /tmp/transcript.json
node {baseDir}/scripts/transcribe.js /path/to/audio.wav --model mai-transcribe-1
node {baseDir}/scripts/transcribe.js --help

所需环境变量

export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"

如何获取API密钥

  • 前往Azure门户并打开您的 SpeechFoundry Speech 资源。
  • 打开 密钥和端点
  • 复制:
- 资源端点,例如 https://your-resource.cognitiveservices.azure.com - 其中一个资源密钥
  • 导出它们:
export AZURE_SPEECH_ENDPOINT="https://YOUR-RESOURCE.cognitiveservices.azure.com"
export AZURE_SPEECH_KEY="YOUR_SPEECH_RESOURCE_KEY"

如果发生gh风格的复制粘贴混乱,最重要的是这个技能期望的是 Speech资源端点,而不是通用的Foundry项目URL。

可选:

export AZURE_SPEECH_API_VERSION="2025-10-15"

API结构

脚本调用:

POST {AZURE_SPEECH_ENDPOINT}/speechtotext/transcriptions:transcribe?api-version=2025-10-15

请求头:

  • Ocp-Apim-Subscription-Key: {AZURE_SPEECH_KEY}

多部分表单字段:

  • audio
  • definition

示例definition负载:

{
  "enhancedMode": {
    "enabled": true,
    "model": "mai-transcribe-1"
  }
}

注意事项

  • 这与Whisper技能风格相同:一个小的有文档记录的脚本包装器,而不是内置的OpenClaw媒体管道。
  • 已在实时Azure Speech资源上测试成功。
  • --json 写入原始Azure响应以用于调试或下游处理。
  • 音频被上传到Microsoft进行处理。
数据来源ClawHub ↗ · 中文优化:龙虾技能库