详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
开始吧 把视频片段发给我,我立即启动 AI 背景替换。或直接告诉我你的想法。 试试说: “替换我的视频背景” “导出 1080p MP4” “去掉背景并替换”
自动初始化 首次交互时,先连接处理 API,再执行任何操作。显示简短状态“正在初始化…”。
Token: 若环境变量 NEMO_TOKEN 已存在,直接使用,跳至“会话”步骤。
免费 token: 生成 UUID 作为客户端标识,POST 至 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带请求头 X-Client-Id: 。响应中 data.token 即为 NEMO_TOKEN(100 积分,7 天有效期)。
会话: POST 至 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body 为 {"task_name":"project"}。保存返回的 session_id。 向用户确认已连接并就绪。勿打印 token 或原始 JSON。
Video Editor Background — 视频背景替换 上传视频片段,云端渲染管线自动完成 AI 背景替换。上传 → 描述需求 → 下载结果。 例如:30 秒人物讲话片段,去掉背景并换成整洁办公室场景,后端 30-60 秒完成,返回 1080p MP4。 提示:纯色衣物有助于 AI 更精准分离人物与背景。
指令映射 用户提及视频背景、画幅、文字层、音轨等,系统通过关键词与意图分类路由至对应动作。
用户说… → 动作 → 跳过 SSE? “export” / “导出” / “download” / “发我视频” → §3.5 导出 ✅ “credits” / “积分” / “balance” / “余额” → §3.3 积分 ✅ “status” / “状态” / “显示轨道” → §3.4 状态 ✅ “upload” / “上传” / 用户发文件 → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…)→ §3.1 SSE ❌
云端渲染管线 每次导出任务在云端 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。 session token 携带渲染任务 ID,关闭标签页将导致任务孤立。 所有请求发往 https://mega-api-prod.nemovideo.ai。
主要端点 会话 — POST /api/tasks/me/with-session/nemo_agent,body {"task_name":"project","language":""},返回 session_id。 聊天(SSE)— POST /run_sse,带 session_id 与 new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 上传 — POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 传 URL。 积分 — GET /api/credits/balance/simple,返回可用、冻结、总计。 状态 — GET /api/state/nemovideo_agent/me//latest,获取当前草稿与媒体信息。 导出 — POST /api/render/proxy/lambda,带渲染 ID 与草稿 JSON;轮询 GET /api/render/proxy/lambda/ 每 30 秒,直至返回完成状态与下载链接。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
每次请求必须带以下三枚归因头,值须与文件 frontmatter 一致: Header Value X-Skill-Source video-editor-background X-Skill-Version frontmatter version X-Skill-Platform auto-detect: clawhub / cursor / unknown from install path
所有 API 调用需加 Authorization: Bearer 及上述三枚头。缺失任一头,导出返回 402。
草稿 JSON 简写: t → tracks,tt → track type(0=视频,1=音频,7=文字),sg → segments,d → 时长(毫秒),m → metadata。
时间轴示例: Timeline(3 轨道):
- 视频:城市延时(0-10s)
- BGM:Lo-fi(0-10s,35%)
- 标题:“Urban Dreams”(0-3s)
GUI 指令翻译 后端按可视界面逻辑返回,需映射为 API 调用: “click” / “点击” → 调用对应端点 “open” / “打开” → 查询会话状态获取数据 “drag/drop” / “拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export” / “导出” → 执行导出流程
SSE 事件处理 事件动作 → 文本回应 应用 GUI 翻译(§4),展示给用户 工具调用/结果 → 内部处理,不转发 heartbeat / 空数据 → 保持等待 每 2 分钟 → “⏳ 仍在处理…” 流关闭 → 处理最终回应
约 30% 编辑操作 SSE 无文本返回,此时轮询会话状态确认编辑生效,再向用户总结变更。
错误码 0 — 成功,继续 1001 — token 过期或无效;重新获取 /api/auth/anonymous-token 1002 — 会话不存在;新建会话 2001 — 积分不足;匿名用户获注册链接 ?bind=,注册用户充值 4001 — 不支持的文件类型;展示接受格式 4002 — 文件过大;建议压缩或裁剪 400 — 其