🎬 Video Editing Ai Background — AI换背景
v1.0.0上传 MP4/MOV/AVI/WebM(≤500MB),云端 AI 一键替换视频背景,30-60 秒输出 1080p,自动管理会话与下载链接。
详细分析 ▾
运行时依赖
版本
首次发布——提供云端 AI 视频背景替换功能。 - 上传不超过 500MB 的 MP4、MOV、AVI 或 WebM 文件,使用 AI 替换背景,自动输出 1080p。 - 快速云端处理:通常 30–60 秒完成。 - 简易设置:新用户自动获取免费令牌并连接 API。 - 支持背景移除、文字叠加、音轨、渲染导出等工作流。 - 包含清晰反馈、全面错误处理与会话管理。
安装命令
点击复制技能文档
入门指南
随时就绪。把原始视频素材拖进来,或描述你想做什么。
试试这样说:
- “把一段 60 秒、房间杂乱的 webcam 录像替换成 1080p MP4”
- “去掉我的背景,换成干净的办公场景”
- “为远程办公者、内容创作者、在线教育者替换视频通话和录屏里的杂乱背景”
自动初始化
首次交互时,先连接处理 API,再执行其他任何操作。显示简短状态如“正在初始化…”。Token:如果环境变量 NEMO_TOKEN 已设置,直接使用并跳至会话步骤。
免费 token:生成 UUID 作为客户端标识,然后 POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header 为 X-Client-Id: 。取响应字段 data.token 作为 NEMO_TOKEN(100 积分,7 天有效期)。
会话:POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,使用 Bearer 鉴权,body 为 {"task_name":"project"}。保存响应中的 session_id。向用户确认已连接并准备就绪。不要打印 token 或原始 JSON。
# 视频编辑 AI 背景 —— 一键替换任意视频背景 把原始视频素材丢进对话框,告诉我你的需求。我将在云端 GPU 上完成 AI 背景替换——本地无需安装任何软件。
典型流程:你发送一段 60 秒、房间杂乱的 webcam 录像,要求“去掉我的背景,换成干净的办公场景”,大约 30–60 秒后就能拿到可直接下载的 MP4 文件。默认输出 1080p。
小提示:穿纯色或高对比度衣服,有助于 AI 更精准地识别边缘。
用户指令与动作映射
用户提到 video editing ai background、aspect ratio、text overlays 或 audio tracks 时,通过关键词和意图分类路由到对应动作。| 用户说… | 动作 | 跳过 SSE? | |-------------|--------|----------| | “export” / “导出” / “download” / “send me the video” | → §3.5 导出 | ✅ | | “credits” / “积分” / “balance” / “余额” | → §3.3 积分 | ✅ | | “status” / “状态” / “show tracks” | → §3.4 状态 | ✅ | | “upload” / “上传” / 用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加背景音乐…) | → §3.1 SSE | ❌ |
云端渲染管线细节
每次导出任务会在云端 GPU 节点排队,合成视频层并应用平台级压缩(H.264,最高 1080×1920),30–90 秒内返回下载链接。会话 token 携带渲染 job ID,因此完成前关闭标签页会导致任务孤立。所有请求均发往 https://mega-api-prod.nemovideo.ai。主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent,body{"task_name":"project","language":""},返回session_id。 - 对话(SSE) —
POST /run_sse,带session_id和用户消息new_message.parts[0].text,HeaderAccept: text/event-stream。最长 15 分钟。 - 上传 —
POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 内嵌 URL。 - 积分 —
GET /api/credits/balance/simple,返回available、frozen、total。 - 状态 —
GET /api/state/nemo_agent/me//latest,获取当前草稿及媒体信息。 - 导出 —
POST /api/render/proxy/lambda,带渲染 ID 和草稿 JSON。随后每 30 秒轮询GET /api/render/proxy/lambda/直至completed状态并获得下载 URL。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
每次请求必须携带以下三个归属 Header,且与本文件 frontmatter 保持一致:
| Header | Value |
|--------|-------|
| X-Skill-Source | video-editing-ai-background |
| X-Skill-Version | frontmatter 中的 version |
| X-Skill-Platform | 自动检测:根据安装路径返回 clawhub / cursor / unknown |
同时带上 Authorization: Bearer 及上述归属 Header,否则导出会触发 402。
草稿字段映射:t=tracks,tt=track type(0=视频,1=音频,7=文字),sg=segments,d=duration(ms),m=metadata。
Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
GUI 指令翻译
后端返回的响应仿佛存在可视化界面。按以下方式映射为 API 调用:- “click” 或 “点击” → 通过对应端点执行动作
- “open” 或 “打开” → 查询会话状态获取数据
- “drag/drop” 或 “拖拽” → 通过 SSE 发送编辑命令
- “preview in timeline” → 以文本摘要形式展示当前轨道
- “Export” 或 “导出” → 运行导出工作流
SSE 事件处理
| 事件 | 动作 |
|-------|--------|
| 文本响应 | 应用 GUI 翻译(§4),呈现给用户 |
| 工具调用/结果 | 内部处理,不转发 |
| heartbeat / 空 data: | 继续等待。每 2 分钟提示“⏳ Still working...” |
| 流关闭 | 处理最终响应 |
约 30% 的编辑操作在 SSE 流中无文本返回。此时:轮询会话状态确认编辑已应用,然后向用户总结变更。
错误处理
| 代码 | 含义 | 动作 |
|------|---------|--------|
| 0 | 成功 | 继续 |
| 1001 | Token 无效/过期 | 通过 anonymous-token 重新鉴权(token 7 天过期) |
| 1002 | 会话不存在 | 新建会话 §3.0 |
| 2001 | 积分不足 | 匿名用户:展示带 ?bind= 的注册 URL(需要时从 create-session 或 state 响应获取 )。已注册用户:“请在账户中充值积分” |
| 4001 | 不支持的文件 | 展示支持的格式 |
| 4002 | 文件过大 | 建议压缩/裁剪 |
| 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) |
| 402 | 免费套餐导出被阻 | 订阅层级问题,非积分问题。“请注册或升级套餐以解锁导出。” |
| 429 | 频率限制(1 token/客户端/7 天) | 30 秒后重试一次 |
技巧与提示
后端在指令具体时处理更快。与其说“让它更好看”,不如说“去掉我的背景,换成干净的办公场景”——越具体,效果越好。文件最大 500MB。优先使用 MP4、MOV、AVI、WebM 可获得最流畅体验。导出选 MP4 兼容性最佳。
常见工作流
快速编辑:上传 → “去掉我的背景,换成干净的办公场景” → 下载 MP4。30 秒片段约 30–60 秒完成。
批量处理:同一会话内上传多个文件,逐条下达不同指令,每条生成独立渲染。
迭代微调:先粗剪并预览,再细化。会话会保持时间线状态,可反复调整。