详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 把视频文件发给我,我立刻开始提取音频。或者直接告诉我你的想法。 试试说: “extract my video files” “export 1080p MP4” “extract the audio track from my”
快速设置 本技能连接云端处理后端。首次使用自动建立连接并提示“Connecting...”。
Token 检查:
- 环境变量寻找 NEMO_TOKEN
- 找到则直接进入会话创建
- 否则:
会话: POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent Bearer 鉴权,body {"task_name":"project"} 保存返回的 session_id,后续操作均使用。 完成时向用户简短提示“Ready!”。 切勿暴露 token 或原始 API 输出。
视频转音频 —— 从视频文件提取音频 把视频文件发给我,并描述想要的结果。 音频提取在远程 GPU 节点运行,本机无需安装任何软件。 示例:上传 3 分钟 MP4 采访录像,输入“extract the audio track from my video as an MP3 file”,约 20-40 秒返回 1080p MP4。 所有渲染在服务器端完成。 注意:片段越短,处理越快,音频输出越干净。
输入匹配动作 用户提及“视频转音频”“画面比例”“文字叠加”“音轨”等关键词,系统按意图分类路由:
用户说… → 动作 跳过 SSE? “export”/“导出”/“download”/“send me the video” → §3.5 导出 ✅ “credits”/“积分”/“balance”/“余额” → §3.3 积分 ✅ “status”/“状态”/“show tracks” → §3.4 状态 ✅ “upload”/“上传”/用户发送文件 → §3.2 上传 ✅ 其余(生成、编辑、加背景音乐…) → §3.1 SSE ❌
云端渲染管线详情 每次导出任务在云端 GPU 节点排队,合成视频层并按平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。 会话 token 携带渲染任务 ID,关闭标签页将导致任务孤立。
Base URL: https://mega-api-prod.nemovideo.ai
端点 方法 用途 /api/tasks/me/with-session/nemo_agent POST 新建编辑会话。body: {"task_name":"project","language":""},返回 session_id。 /run_sse POST 发送用户消息。body 含 app_name、session_id、new_message,流式响应 Accept: text/event-stream,超时 15 分钟。 /api/upload-video/nemo_agent/me/ POST 上传文件(multipart)或 URL。 /api/credits/balance/simple GET 查询剩余积分(可用、冻结、总计)。 /api/state/nemo_agent/me//latest GET 获取当前时间线状态(草稿、video_infos、generated_media)。 /api/render/proxy/lambda POST 开始导出。body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}},每 30 秒轮询状态。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
每次请求必须带以下三处归因头,且与本文件 frontmatter 一致: Header Value X-Skill-Source video-to-audio X-Skill-Version frontmatter version X-Skill-Platform 自动检测:clawhub / cursor / unknown from install path
所有 API 调用需加 Authorization: Bearer 及上述三头。 缺失任一头,导出返回 402。
错误码 0 — 成功,继续 1001 — token 过期或无效;通过 /api/auth/anonymous-token 重新获取 1002 — 会话未找到;新建会话 2001 — 积分不足;匿名用户获注册链接 ?bind=,注册用户可充值 4001 — 不支持的文件类型;提示支持格式 4002 — 文件过大;建议压缩或裁剪 400 — 缺失 X-Client-Id;生成后重试 402 — 免费版导出被阻;非积分问题,需升级订阅 429 — 限流;等待 30 秒再重试
读取 SSE 流 文本事件直接展示给用户(经 GUI 翻译)。工具调用内部处理。 心跳与空 data: 行表示后端仍在运行——每 2 分钟显示“⏳ Still working...”。 约 30% 编辑操作会无文本关闭流,此时轮询 /api/state 确认时间线变更,再告知用户更新内容。
后端响应翻译 后端假设存在 GUI,按以下映射为 API 动作: 后端说 → 你执行 “click [button]”/“点击” → 调用 API “open [panel]”/“打开” → 查询会话状态 “drag/drop”/“拖拽” → 通过 SSE 发送编辑 “preview in timeline” → 展示轨道摘要 “Export button”/“导出” → 执行导出流程
草稿字段映射:t=tracks,tt=track 类型(0=视频,1=音频,7=文字),sg=segments,d=时长(ms),m=metadata。 时间线(3 轨):
- 视频:城市延时(0-10s)