midasheng-audio-tagging — 环境音识别

v1.0.0

将音频文件上传至远端 API，秒级识别水流、鼾声等环境音并返回标签与置信度，支持 mp3/wav/m4a/ogg/flac 格式，可查询排队状态。

0· 141·0 当前·0 累计

by @jimbozhang (Junbo Zhang)

数据与API AI模型访问

使用场景：使用midasheng-audio-tagging — 环境音识别进行数据与API使用midasheng-audio-tagging — 环境音识别

下载技能包

最后更新

2026/3/19

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

技能代码与描述一致（音频标注），无异常凭证或安装项，但会把用户音频上传至第三方远端节点，使用前请确认隐私风险。

评估建议

该技能正如其名：把音频文件上传至远程标注 API 的客户端。安装或使用前请注意： - 隐私：音频会上传至 https://llmplus.ai.xiaomi.com，勿包含敏感个人信息、私人对话或无授权录音。 - 信任与政策：确认服务方并阅读其隐私政策与数据留存规则。 - 本地测试：先用无敏感样本验证行为与输出。 - 依赖：脚本依赖 Python requests 库，确保运行环境已安装。 - 替代节点：脚本允许覆盖 API URL；若拥有本地或可信标注服务，可替换默认远端地址。如需避免外发数据，可改用或请求本地标注/自托管推理版本。...

详细分析 ▾

✓ 用途与能力

名称、描述、SKILL.md 及脚本均实现音频标注客户端功能：上传音频至远程标注 API 并查询队列指标，所需能力与声明目的相符。

ℹ 指令范围

指令与脚本仅执行两项操作：POST 多部分文件至标注端点、POST 至指标端点。两项均会把用户音频（或请求）通过网络发送至 https://llmplus.ai.xiaomi.com；文档与代码未提示隐私/PII 风险，未读取其他本地文件、凭证或无关系统状态。

✓ 安装机制

纯指令技能，仅含单 Python 脚本，无安装说明。技能本身不下载或安装任何内容，唯一运行依赖为 Python requests 库（未声明），属轻微打包差异，无安全隐患。

ℹ 凭证需求

技能不请求环境变量或凭证。主要风险为数据暴露：用户音频文件被发送至外部小米域名服务，使用前应评估是否接受上传潜在敏感音频并确认服务隐私/法律政策。

✓ 持久化与权限

技能不请求持久或特权常驻（always=false），不修改其他技能或系统配置，无需特殊权限。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/19

- 环境音频标注服务首次发布。 - 支持识别与分类常见格式（mp3、wav、m4a、ogg、flac）中的环境音。 - 提供命令行与编程接口进行音频标注及队列状态查询。 - 包含队列指标：预计等待时间与红黄绿状态指示。 - 针对文件错误、不支持的格式、排队时间过长等常见问题提供排查指引。

● 无害

安装命令

点击复制

官方npx clawhub@latest install midasheng-audio-tagging

镜像加速npx clawhub@latest install midasheng-audio-tagging --registry https://cn.longxiaskill.com镜像同步中

本土化适配说明

midasheng-audio-tagging — 环境音识别安装说明：安装命令：npx clawhub@latest install midasheng-audio-tagging

需要定制？告诉我你的需求 →

技能文档

# dasheng-audio-tag 用于识别音频文件中环境声音的音频标注服务。 ## 快速上手标注音频文件： ``bash python3 scripts/audiotag.py # 服务地址: https://llmplus.ai.xiaomi.com/dasheng/audio/tag ` 查看队列状态： `bash python3 scripts/audiotag.py --queue ` ## API 详情标注端点： POST https://llmplus.ai.xiaomi.com/dasheng/audio/tag - 方法：POST，multipart form-data 上传文件队列指标端点： POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/tag - 返回：active（当前活跃请求数）、avg_latency_ms（平均耗时） - 预估等待时长 = active × avg_latency_ms ## 使用模式 ### 基础标注 `bash python3 scripts/audiotag.py audio.mp3 ` ### 查看队列/等待状态 `bash python3 scripts/audiotag.py --queue ` ### 编程方式使用 `python from scripts.audiotag import tag_audio, check_queue, format_queue_status # 标注音频 result = tag_audio("sample-0.mp3") # 查看队列 queue_info = check_queue() print(format_queue_status(queue_info)) ` ## 队列状态（排队情况） ### 何时调用 1. IM 即将超时但 tag 服务还未返回结果时：调用 --queue 查排队情况，告知用户当前排队状态并请用户稍后来问任务是否完成。 2. 用户稍后询问任务进度但 tag 服务仍未返回时：调用 --queue 返回最新排队情况给用户。 ### 返回字段说明 | 字段 | 说明 | |------|------| | active | 当前活跃请求数（排队中） | | avg_latency_ms | 平均处理耗时（毫秒） | | estimated_wait_sec | 预估等待时长（秒）= active × avg_latency_ms | | total_processed | 累计已处理请求数 | ### 状态分级 - 🟢 active=0 或预估等待 <5s → 服务空闲/很快完成 - 🟡 预估等待 5-30s → 轻微排队 - 🔴 预估等待 >30s → 排队较长，建议稍后重试 ## 支持的音频格式常见音频格式：mp3、wav、m4a、ogg、flac ## 故障排查 - File not found：检查音频文件路径 - API request failed：验证网络连通性及 API 端点可用性 - Unsupported format：尝试转换为 mp3 或 wav 格式 - Long wait：使用 --queue` 查看当前队列状态

运行时依赖

版本

安装命令

本土化适配说明

技能文档

相关技能推荐