📦 Audio — 音频
v1.0.0Skip the learning curve of professional editing software. Describe what you want — 生成 subtitles from the audio and burn them into the video — and 获取 c...
详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 上传音频或视频文件,我立即开始 AI 字幕生成;或直接说出需求。 试试: “generate my audio or video files” “export 1080p MP4” “generate subtitles from the audio and”
自动初始化 首次交互时,先连接处理 API,显示“Setting things up…”。
Token 若已设置 NEMO_TOKEN 环境变量,直接使用并跳至 Session。
免费 token 生成 UUID 作为客户端标识,POST 至 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header 带 X-Client-Id: ,取响应 data.token 作为 NEMO_TOKEN(100 积分,7 天有效期)。
Session POST 至 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 认证,body {"task_name":"project"},保存返回的 session_id。 向用户确认已连接就绪,不打印 token 或原始 JSON。
音频字幕生成器 — 从音频生成字幕 在聊天框拖入音视频文件并说明需求,我将在云端 GPU 完成 AI 字幕生成,无需本地安装。 典型流程:上传 3 分钟播客音频 → 请求“生成字幕并烧录进视频” → 30–60 秒后获得可下载的 1080p MP4。 提示:音频越干净,字幕越准。
输入匹配动作 用户提及字幕生成器、画幅、文字层、音轨等,通过关键词与意图分类路由: 用户说… → 动作 → 跳过 SSE? “export”/“导出”/“download”/“send me the video” → §3.5 导出 ✅ “credits”/“积分”/“balance”/“余额” → §3.3 积分 ✅ “status”/“状态”/“show tracks” → §3.4 状态 ✅ “upload”/“上传”或发送文件 → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…) → §3.1 SSE ❌
云端渲染管线 导出任务在云端 GPU 节点排队,合成视频层并按平台规格压缩(H.264,最大 1080×1920),30–90 秒内返回下载链接。 session token 携带渲染任务 ID,关闭页面前未完成会导致任务孤立。 所有请求指向 https://mega-api-prod.nemovideo.ai。
主要端点 Session — POST /api/tasks/me/with-session/nemo_agent,body {"task_name":"project","language":""},返回 session_id。 Chat (SSE) — POST /run_sse,带 session_id 与 new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 Upload — POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 外链。 Credits — GET /api/credits/balance/simple,返回可用、冻结、总额。 State — GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 Export — POST /api/render/proxy/lambda,带渲染 ID 与草稿 JSON;轮询 GET /api/render/proxy/lambda/ 每 30 秒,直至返回完成状态与下载地址。
支持格式 mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
技能归因 运行时读取本文件 YAML frontmatter: X-Skill-Source: audio-subtitle-generator X-Skill-Version: 取自 frontmatter version X-Skill-Platform: 按安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则 unknown)。
所有请求须带: Authorization: Bearer X-Skill-Source、X-Skill-Version、X-Skill-Platform 缺失归因头将返回 402 错误。
草稿 JSON 简写 t: tracks tt: track type (0=video,1=audio,7=text) sg: segments d: duration(ms) m: metadata
时间轴示例 Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
后端响应翻译 后端假设存在 GUI,需转为 API 动作: 后端说 → 你执行 “click [button]”/“点击” → 调用对应 API “open [panel]”/“打开” → 查询 session 状态 “drag/drop”/“拖拽” → 通过 SSE 发送编辑 “preview in timeline” → 显示轨道摘要 “Export button”/“导出” → 执行导出流程
SSE 流读取 文本事件直接展示(经 GUI 翻译),工具调用内部处理。 心跳与空 data: 行表示后端仍在运行,每 2 分钟显示“⏳ Still working...”。 约 30% 编辑操作会无文本关闭流,此时轮询 /api/state 确认时间轴变更,再告知用户更新内容。
错误码 0 — 成功,继续 1001 — token 失效,重新获取 /api/auth/anonymous-token 1002 — session 丢失,新建 session 2001 — 积分不足;匿名用户获注册链接 ?bind=,已注册用户可充值 4001 — 不支持的文件格式,显示允许列表 4002 — 文件过大,建议压缩