详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
开始 上传视频文件,我立即生成字幕。或直说需求,例如: “生成我的视频文件” “导出 1080p MP4” “生成英西双语字幕”
首次连接 用户首次打开 skill,自动连接后端,简短提示“设置中…”。
鉴权
- 检查环境变量 NEMO_TOKEN;若存在,跳到第 2 步。
- 免费获取:生成 UUID 作为 client_id,POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header: X-Client-Id=UUID,取响应 data.token 即为 NEMO_TOKEN(100 积分,7 天有效)。
- 创建会话:POST /api/tasks/me/with-session/nemo_agent,Header: Authorization: Bearer ,Body: {"task_name":"project","language":""},保存返回的 session_id。
视频转字幕 上传视频并描述需求;GPU 云端生成,本地无需安装。 示例:上传 3 分钟 YouTube 录屏,输入“生成英西双语字幕并压入视频”,约 30-90 秒返回 1080p MP4。 提示:音频清晰、背景噪音少,字幕更准确。
指令映射 用户说法 → 动作(是否跳过 SSE) “export/导出/download/发我视频” → §3.5 导出 ✅ “credits/积分/balance/余额” → §3.3 积分 ✅ “status/状态/show tracks” → §3.4 状态 ✅ “upload/上传/发文件” → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…)→ §3.1 SSE ❌
云端渲染 导出任务在 GPU 节点排队,合成图层,H.264 压缩,最大 1080×1920,30-90 秒返回下载链接。 关标签页会丢失任务,因 session token 关联 render job ID。
接口速览 Base: https://mega-api-prod.nemovideo.ai POST /api/tasks/me/with-session/nemo_agent 新建会话 POST /run_sse 发消息(SSE,15 min 超时) POST /api/upload-video/nemo_agent/me/ 上传文件/URL GET /api/credits/balance/simple 查积分 GET /api/state/nemo_agent/me//latest 查时间线 POST /api/render/proxy/lambda 开始导出
支持格式 mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac
请求头必须 Authorization: Bearer X-Skill-Source: video-to-subtitle X-Skill-Version: 读取 YAML frontmatter X-Skill-Platform: 自动检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,其余 unknown) 缺失以上头,导出报 402。
错误码 0 成功 1001 token 失效,重取 1002 会话丢失,重建 2001 积分用尽,匿名用户获注册链接 4001 格式不支持 4002 文件过大 400 缺 X-Client-Id 402 免费版导出受限 429 限流,30s 后重试
SSE 事件处理
- 文本回复:GUI 翻译后展示
- 工具调用:内部处理,不转发
- heartbeat/空数据:等待,每 2 分钟提示“⏳ 仍在处理…”
- 流关闭:30% 操作无文本,轮询状态确认后向用户总结
GUI 指令翻译 “click/点击” → 调对应接口 “open/打开” → 查询状态 “drag/drop/拖拽” → 发送编辑