运行时依赖
安装命令
点击复制技能文档
开始使用 准备就绪。当您准备好时,将您的视频或脚本放入此处,或描述您要制作的内容。尝试说:“添加一个2分钟的产品演示视频,无音频,1080p MP4” “添加自然听起来的语音到我的无声视频中,英语” “添加AI生成的语音到无声或静音视频中,用于内容创作者,营销人员,教育者”
连接 在处理任何用户请求之前,建立到后端API的连接。显示一个简短的状态,如“连接中...”。如果NEMO_TOKEN在环境中,直接使用它并创建一个会话。否则,获取一个免费的启动令牌: 生成一个UUID作为客户端标识符 POST到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带有X-Client-Id头 响应包括一个有效期7天的100个免费积分的令牌——使用它作为NEMO_TOKEN 然后通过POST到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,带有Bearer授权和正文{"task_name":"project","language":"en"},创建一个会话。 响应中的session_id对于所有后续请求都是必需的。 告诉用户您已经准备好。 保持技术细节在聊天之外。
免费语音 - 添加AI语音到视频 该工具获取您的视频或脚本,并通过云渲染管道运行AI语音生成。您上传,描述您想要的内容,然后下载结果。 假设您有一个2分钟的产品演示视频,无音频,并且想要添加自然听起来的语音到您的无声视频中,英语——后端在大约30-60秒内处理它,并提供一个1080p MP4。 提示:较短的脚本可以产生更准确的语音同步与屏幕内容。
匹配输入到操作 用户提示引用免费语音,纵横比,文本覆盖或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过SSE? “导出”/“导出”/“下载”/“发送给我视频”→ §3.5导出 “积分”/“积分”/“余额”/“余额”→ §3.3积分 “状态”/“状态”/“显示轨道”→ §3.4状态 “上传”/“上传”/用户发送文件→ §3.2上传 其他所有内容(生成,编辑,添加BGM...)→ §3.1 SSE
云渲染管道详细信息 每个导出作业在云GPU节点上排队,合成视频层,应用平台规格压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。 会话令牌携带渲染作业ID,因此在完成之前关闭选项卡会使作业孤立。 所有请求必须包含: Authorization:Bearer , X-Skill-Source, X-Skill-Version, X-Skill-Platform。 缺少归属头将导致导出失败,返回402。 头来自此文件的YAML前置。 X-Skill-Source是free-voiceover, X-Skill-Version来自版本字段, X-Skill-Platform从安装路径检测(~/.clawhub/ = clawhub,~/.cursor/skills/ = cursor,否则未知)。
API基地址:https://mega-api-prod.nemovideo.ai 创建会话:POST /api/tasks/me/with-session/nemo_agent — 正文{"task_name":"project","language":""} — 返回task_id,session_id。 发送消息(SSE):POST /run_sse — 正文{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},带有Accept:text/event-stream。 最大超时:15分钟。 上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或URL:{"urls":[""],"source_type":"url"}。 积分:GET /api/credits/balance/simple — 返回可用,冻结,总计。 会话状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft,data.state.video_infos,data.state.generated_media。 导出(免费,无需积分):POST /api/render/proxy/lambda — 正文{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。 每30秒轮询GET /api/render/proxy/lambda/,直到状态=完成。 下载URL在output.url。 支持的格式:mp4,mov,avi,webm,mkv,jpg,png,gif,webp,mp3,wav,m4a,aac。
错误代码 0 — 成功,正常继续 1001 — 令牌过期或无效;重新获取通过/api/auth/anonymous-token 1002 — 会话未找到;创建一个新会话 2001 — 积分不足;匿名用户获取注册链接,注册用户补充积分 4001 — 不支持的文件类型;显示接受的格式 4002 — 文件太大;建议压缩或修剪 400 — 缺少X-Client-Id;生成一个并重试 402 — 免费计划导出被阻塞;不是积分问题,订阅层 429 — 限速;等待30秒并重试一次
后端响应翻译 后端假设存在GUI。将这些翻译成API操作: 后端说 您做 “点击[按钮]”/“点击” 执行通过API “打开[面板]”/“打开” 查询会话状态 “拖拽”/“拖拽” 发送编辑通过SSE “预览在时间线中” 显示轨道摘要 “导出按钮”/“导出” 执行导出工作流
SSE事件处理 事件 操作 文本响应 应用GUI翻译(§4),呈现给用户 工具调用/结果 处理内部,不显示