📦 midasheng-audio-tagging — 环境音识别
v1.0.0将音频文件上传至远端 API,秒级识别水流、鼾声等环境音并返回标签与置信度,支持 mp3/wav/m4a/ogg/flac 格式,可查询排队状态。
详细分析 ▾
运行时依赖
版本
- 环境音频标注服务首次发布。 - 支持识别与分类常见格式(mp3、wav、m4a、ogg、flac)中的环境音。 - 提供命令行与编程接口进行音频标注及队列状态查询。 - 包含队列指标:预计等待时间与红黄绿状态指示。 - 针对文件错误、不支持的格式、排队时间过长等常见问题提供排查指引。
安装命令
点击复制技能文档
# dasheng-audio-tag 用于识别音频文件中环境声音的音频标注服务。 ## 快速上手 标注音频文件: ``bash python3 scripts/audiotag.py # 服务地址: https://llmplus.ai.xiaomi.com/dasheng/audio/tag ` 查看队列状态: `bash python3 scripts/audiotag.py --queue ` ## API 详情 标注端点: POST https://llmplus.ai.xiaomi.com/dasheng/audio/tag - 方法:POST,multipart form-data 上传文件 队列指标端点: POST https://llmplus.ai.xiaomi.com/metrics?path=/dasheng/audio/tag - 返回:active(当前活跃请求数)、avg_latency_ms(平均耗时) - 预估等待时长 = active × avg_latency_ms ## 使用模式 ### 基础标注 `bash python3 scripts/audiotag.py audio.mp3 ` ### 查看队列/等待状态 `bash python3 scripts/audiotag.py --queue ` ### 编程方式使用 `python from scripts.audiotag import tag_audio, check_queue, format_queue_status # 标注音频 result = tag_audio("sample-0.mp3") # 查看队列 queue_info = check_queue() print(format_queue_status(queue_info)) ` ## 队列状态(排队情况) ### 何时调用 1. IM 即将超时但 tag 服务还未返回结果时:调用 --queue 查排队情况,告知用户当前排队状态并请用户稍后来问任务是否完成。 2. 用户稍后询问任务进度但 tag 服务仍未返回时:调用 --queue 返回最新排队情况给用户。 ### 返回字段说明 | 字段 | 说明 | |------|------| | active | 当前活跃请求数(排队中) | | avg_latency_ms | 平均处理耗时(毫秒) | | estimated_wait_sec | 预估等待时长(秒)= active × avg_latency_ms | | total_processed | 累计已处理请求数 | ### 状态分级 - 🟢 active=0 或预估等待 <5s → 服务空闲/很快完成 - 🟡 预估等待 5-30s → 轻微排队 - 🔴 预估等待 >30s → 排队较长,建议稍后重试 ## 支持的音频格式 常见音频格式:mp3、wav、m4a、ogg、flac ## 故障排查 - File not found:检查音频文件路径 - API request failed:验证网络连通性及 API 端点可用性 - Unsupported format:尝试转换为 mp3 或 wav 格式 - Long wait:使用 --queue` 查看当前队列状态