运行时依赖
安装命令
点击复制技能文档
开始 请发送原始视频录像,我将处理自主AI视频编辑。或者,只需描述您想要的内容。尝试说:“创建一个3分钟未编辑的屏幕录像为1080p MP4”、“自动剪辑空白部分,添加转场,并生成摘要片段”、“为内容创作者和营销人员自主编辑和组装视频,需要最少的用户输入”。
首次连接 当用户首次打开此技能时,自动连接到处理后端。简要通知他们(例如“设置中...”)。
身份验证: 检查环境中是否设置了NEMO_TOKEN。如果已设置,则跳至步骤2。 获取免费令牌:生成一个随机UUID作为客户端标识符。 向https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求,设置X-Client-Id为该UUID。 响应数据中的token即为NEMO_TOKEN — 100个免费积分,有效期7天。 创建会话: 向https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送POST请求,设置Authorization:Bearer 、Content-Type:application/json和body {"task_name":"project","language":"" }。 存储返回的session_id以供后续请求使用。 保持设置通信简洁。不要向用户显示原始API响应或令牌值。
AI代理视频 — 自主AI视频编辑和导出 将原始视频录像放入聊天窗口并告诉我您需要什么。我将处理自主AI视频编辑,使用云GPU — 您无需在本地安装任何内容。 典型用法:您发送一个3分钟未编辑的屏幕录像,要求自动剪辑空白部分,添加转场,并生成摘要片段,大约1-2分钟后,您将得到一个可下载的MP4文件。 整个过程默认以1080p运行。 值得注意的一件事是 — 源片段越短,代理对节奏和剪辑的控制越精确。
输入与操作的匹配 用户提示引用ai代理视频、长宽比、文本叠加或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过SSE? “导出”/“导出”/“下载”/“发送给我视频”→ §3.5导出 “积分”/“积分”/“余额”/“余额”→ §3.3积分 “状态”/“状态”/“显示轨道”→ §3.4状态 “上传”/“上传”/用户发送文件→ §3.2上传 其他内容(生成、编辑、添加BGM...)→ §3.1 SSE
云渲染管道详细信息 每个导出作业都在云GPU节点上排队,合成视频层,应用平台特定的压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。 会话令牌携带渲染作业ID,因此在完成之前关闭标签页将使作业孤立。 所有调用都发送到https://mega-api-prod.nemovideo.ai。 主要端点: 会话 — 使用{"task_name":"project","language":""}向/api/tasks/me/with-session/nemo_agent发送POST请求。 聊天(SSE)— 使用session_id和您的消息在new_message.parts[0].text中向/run_sse发送POST请求。 上传 — 使用multipart文件或JSON中的URL向/api/upload-video/nemo_agent/me/发送POST请求。 积分 — 向/api/credits/balance/simple发送GET请求 — 返回可用、冻结和总积分。 状态 — 向/api/state/nemo_agent/me//latest发送GET请求 — 返回当前草稿和媒体信息。 导出 — 使用渲染ID和草稿JSON向/api/render/proxy/lambda发送POST请求。 每30秒轮询GET /api/render/proxy/lambda/以获取完成状态和下载URL。 格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
技能归属 — 在运行时从此文件的YAML前置内容中读取: X-Skill-Source:ai-agentic-video X-Skill-Version:从前置内容版本中获取 X-Skill-Platform:从安装路径中检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则为未知) 在每个请求中包含Authorization:Bearer 和所有归属头 — 省略它们将在导出时触发402。
草稿字段映射: t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=段,d=持续时间(ms),m=元数据。 时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:“城市梦”(0-3秒)
后端响应翻译 后端假设存在GUI。将这些翻译为API操作: 后端说 您执行“点击[按钮]”/“点击” 通过API执行“打开[面板]”/“打开” 查询会话状态“拖拽”/“拖拽” 通过SSE发送编辑“预览时间线” 显示轨道摘要“导出按钮”/“导出” 执行导出工作流
阅读SSE流 文本事件直接发送给用户(在GUI翻译后)。 工具调用保持内部。 心跳和空数据:行表示后端仍在工作 — 每2分钟显示“⏳仍在工作...”。 大约30%的编辑操作在没有任何文本的情况下关闭流。当这种情况发生时,轮询/api/state以确认时间线已更改,然后告诉用户更新了什么。
错误代码 0 — 成功,正常继续 1001 — 令牌过期或无效;通过/api/auth/anonymous-token重新获取 1002 — 未找到会话;创建一个新会话 2001 — 超出范围