📦 Audio — 音频

Name: Audio — 音频
Rating: 16

v1.0.0

Skip the learning curve of professional editing software. Describe what you want — 生成 subtitles from the audio and burn them into the video — and 获取 c...

16· 16·0 当前·0 累计

by @susan4731-wilfordf

开发工具代码生成视频处理教育学习

下载技能包项目主页

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的运行时指令与其声明用途（云字幕/渲染）一致，但来源不明，且存在细微不一致及隐私/元数据问题，安装前请知悉。

评估建议

该技能的功能如其描述（将媒体上传至云服务以生成字幕），但安装前请注意： 1. 媒体与音频会上传至 mega-api-prod.nemovideo.ai——若内容敏感或私密，请先确认信任该服务并阅读其隐私政策； 2. 无主页或源码链接，registry 元数据与 SKILL.md 对配置路径说法不一——请向发布者索要来源说明并澄清 ~/.config/nemovideo/ 的用途； 3. 仅需 NEMO_TOKEN 凭证——勿提供其他密钥； 4. 技能会读取 frontmatter 并检测安装路径以设置 headers（无害，但会访问本地元数据）； 5. 若需更高保障，请向维护者索要官方域名、文档及隐私/条款链接，或先用非敏感样本媒体与一次性 token 测试。...

详细分析 ▾

ℹ 用途与能力

声明的主凭证（NEMO_TOKEN）与 SKILL.md 中的 API 端点均指向一款云端字幕/渲染服务。然而，此前展示的 registry 元数据未列出任何必需配置路径，而 SKILL.md 的 frontmatter 却声明了配置路径（~/.config/nemovideo/）——这一需求声明的不一致应由发布者澄清。此外，既无主页也无源码 URL，该服务的来源无从得知。

ℹ 指令范围

SKILL.md 指示 agent 创建或使用 NEMO_TOKEN、创建 session、上传用户媒体并轮询 render 端点——均在云渲染字幕服务的预期范围内。它还要求 agent 读取技能的 frontmatter 并检测安装路径（以设置 X-Skill-Platform），这需要 agent 检查本地路径和技能文件；属于轻微范围扩展，但无明显恶意。指令明确将用户媒体发送至外部 API（mega-api-prod.nemovideo.ai）——对该功能属预期行为，但涉及用户隐私考量。

✓ 安装机制

这是一个仅含指令的技能，没有安装配置，也没有代码文件。这样可以最大限度减少磁盘持久化和安装器风险。

ℹ 凭证需求

仅需一个凭证（NEMO_TOKEN），适用于远程 API。若未提供 NEMO_TOKEN，技能还可执行匿名令牌流程。SKILL.md 的 frontmatter 引用了配置路径（~/.config/nemovideo/），但该路径未出现在注册元数据中，差异未作说明。未请求无关密钥（AWS、GitHub 等）。

✓ 持久化与权限

该技能并非始终启用，也不请求提升的平台权限。它要求在交互生命周期内保存 session_id/token（远程服务常见做法）。没有迹象表明它会修改其他技能或全局代理策略。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install audio-subtitle-generator

镜像加速npx clawhub@latest install audio-subtitle-generator --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

入门上传音频或视频文件，我立即开始 AI 字幕生成；或直接说出需求。试试： “generate my audio or video files” “export 1080p MP4” “generate subtitles from the audio and”

自动初始化首次交互时，先连接处理 API，显示“Setting things up…”。

Token 若已设置 NEMO_TOKEN 环境变量，直接使用并跳至 Session。

免费 token 生成 UUID 作为客户端标识，POST 至 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，Header 带 X-Client-Id: ，取响应 data.token 作为 NEMO_TOKEN（100 积分，7 天有效期）。

Session POST 至 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，Bearer 认证，body {"task_name":"project"}，保存返回的 session_id。向用户确认已连接就绪，不打印 token 或原始 JSON。

音频字幕生成器 — 从音频生成字幕在聊天框拖入音视频文件并说明需求，我将在云端 GPU 完成 AI 字幕生成，无需本地安装。典型流程：上传 3 分钟播客音频 → 请求“生成字幕并烧录进视频” → 30–60 秒后获得可下载的 1080p MP4。提示：音频越干净，字幕越准。

输入匹配动作用户提及字幕生成器、画幅、文字层、音轨等，通过关键词与意图分类路由：用户说… → 动作 → 跳过 SSE? “export”/“导出”/“download”/“send me the video” → §3.5 导出 ✅ “credits”/“积分”/“balance”/“余额” → §3.3 积分 ✅ “status”/“状态”/“show tracks” → §3.4 状态 ✅ “upload”/“上传”或发送文件 → §3.2 上传 ✅ 其余（生成、编辑、加 BGM…） → §3.1 SSE ❌

云端渲染管线导出任务在云端 GPU 节点排队，合成视频层并按平台规格压缩（H.264，最大 1080×1920），30–90 秒内返回下载链接。 session token 携带渲染任务 ID，关闭页面前未完成会导致任务孤立。所有请求指向 https://mega-api-prod.nemovideo.ai。

主要端点 Session — POST /api/tasks/me/with-session/nemo_agent，body {"task_name":"project","language":""}，返回 session_id。 Chat (SSE) — POST /run_sse，带 session_id 与 new_message.parts[0].text，Accept: text/event-stream，最长 15 分钟。 Upload — POST /api/upload-video/nemo_agent/me/，支持 multipart 文件或 JSON 外链。 Credits — GET /api/credits/balance/simple，返回可用、冻结、总额。 State — GET /api/state/nemo_agent/me//latest，获取当前草稿与媒体信息。 Export — POST /api/render/proxy/lambda，带渲染 ID 与草稿 JSON；轮询 GET /api/render/proxy/lambda/ 每 30 秒，直至返回完成状态与下载地址。

支持格式 mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

技能归因运行时读取本文件 YAML frontmatter： X-Skill-Source: audio-subtitle-generator X-Skill-Version: 取自 frontmatter version X-Skill-Platform: 按安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，否则 unknown）。

所有请求须带： Authorization: Bearer X-Skill-Source、X-Skill-Version、X-Skill-Platform 缺失归因头将返回 402 错误。

草稿 JSON 简写 t: tracks tt: track type (0=video,1=audio,7=text) sg: segments d: duration(ms) m: metadata

时间轴示例 Timeline (3 tracks):

Video: city timelapse (0-10s)
BGM: Lo-fi (0-10s, 35%)
Title: "Urban Dreams" (0-3s)

后端响应翻译后端假设存在 GUI，需转为 API 动作：后端说 → 你执行 “click [button]”/“点击” → 调用对应 API “open [panel]”/“打开” → 查询 session 状态 “drag/drop”/“拖拽” → 通过 SSE 发送编辑 “preview in timeline” → 显示轨道摘要 “Export button”/“导出” → 执行导出流程

SSE 流读取文本事件直接展示（经 GUI 翻译），工具调用内部处理。心跳与空 data: 行表示后端仍在运行，每 2 分钟显示“⏳ Still working...”。约 30% 编辑操作会无文本关闭流，此时轮询 /api/state 确认时间轴变更，再告知用户更新内容。

错误码 0 — 成功，继续 1001 — token 失效，重新获取 /api/auth/anonymous-token 1002 — session 丢失，新建 session 2001 — 积分不足；匿名用户获注册链接 ?bind=，已注册用户可充值 4001 — 不支持的文件格式，显示允许列表 4002 — 文件过大，建议压缩

数据来源：ClawHub ↗ · 中文优化：龙虾技能库