详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 上传带音频的视频,我立即开始提取字幕并生成下载。或直说你的想法。 试试: “generate my video with audio” “export 1080p MP4” “generate and download subtitles for my”
快速设置 本技能连接云端处理后端。首次使用自动建立连接并提示“Connecting…”。 Token 检查:在环境变量查找 NEMO_TOKEN;若存在,直接创建会话。 否则:
- 生成 UUID 作为 client identifier
- POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带 X-Client-Id 头
- 从响应提取 data.token,即为 NEMO_TOKEN(100 免费积分,7 天有效期)
会话: POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent Bearer 认证,body {"task_name":"project"} 返回的 session_id 用于后续所有操作。 设置完成时提示“Ready!”。不暴露 token 或原始 API 输出。
字幕下载 — 提取并下载视频字幕 把带音频的视频拖进聊天,告诉我需求即可。我将在云端 GPU 完成字幕提取下载,本地无需安装。 典型流程:
- 发送 10 分钟 YouTube 教学视频
- 说“generate and download subtitles for my video as an SRT file”
- 约 20–40 秒后获得可下载的 MP4 文件
输入匹配动作 用户提及字幕下载、画幅、文字层、音轨等,通过关键词与意图分类路由: 用户说… → 动作 跳过 SSE? “export”/“导出”/“download”/“send me the video” → §3.5 Export ✅ “credits”/“积分”/“balance”/“余额” → §3.3 Credits ✅ “status”/“状态”/“show tracks” → §3.4 State ✅ “upload”/“上传”/用户发文件 → §3.2 Upload ✅ 其余(generate、edit、加 BGM…) → §3.1 SSE ❌
云端渲染管线 每次导出任务在云端 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30–90 秒内返回下载链接。 会话 token 携带渲染 job ID,提前关闭标签页会导致任务孤立。
所有请求必须带: Authorization: Bearer X-Skill-Source X-Skill-Version X-Skill-Platform 缺失归因头将返回 402。
归因头需与本文件 frontmatter 一致: Header Value X-Skill-Source subtitle-download X-Skill-Version frontmatter version X-Skill-Platform auto-detect: clawhub / cursor / unknown from install path
API 基址:https://mega-api-prod.nemovideo.ai
- 创建会话:POST /api/tasks/me/with-session/nemo_agent
- 发送消息(SSE):POST /run_sse
- 上传:POST /api/upload-video/nemo_agent/me/
- 积分:GET /api/credits/balance/simple → 返回 available, frozen, total
- 会话状态:GET /api/state/nemo_agent/me//latest
- 导出(免费,不扣积分):POST /api/render/proxy/lambda
错误码 0 — 成功,继续 1001 — token 过期或无效;重新获取 /api/auth/anonymous-token 1002 — 会话不存在;新建会话 2001 — 积分用尽;匿名用户获注册链接 ?bind=,注册用户可充值 4001 — 不支持的文件类型;提示接受格式 4002 — 文件过大;建议压缩或裁剪 400 — 缺失 X-Client-Id;生成后重试 402 — 免费版导出被阻;非积分问题,需订阅 429 — 限流;等待 30s 后重试一次
GUI 指令翻译 后端按可视化界面返回指令,映射为 API 调用: “click”/“点击” → 调用对应 endpoint 执行动作 “open”/“打开” → 查询会话状态获取数据 “drag/drop”/“拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export”/“导出” → 运行导出流程
SSE 事件处理 事件 → 动作 文本响应 → 应用 GUI 翻译(§4)后展示给用户 工具调用/结果 → 处理并返回