Video Narration Ai — 视频旁白Ai
v1.0.0跳过专业编辑软件的学习曲线。描述您想要的内容 —— 添加一个解说旁白来描述屏幕上发生的事情 —— 并在30-60秒内获得带有解说的视频文件。上传最多500MB的MP4、MOV、AVI、WebM文件,AI将自动处理AI解说生成。适合需要专业旁白但不想聘请解说员或自己录音的内容创作者。
运行时依赖
安装命令
点击复制技能文档
开始 您有视频片段需要处理吗?请发送过来并告诉我您需要什么——我将负责AI旁白生成。尝试说:“将2分钟的产品演示视频添加到1080p MP4中”“添加一个描述屏幕上发生了什么的旁白”“为内容创作者添加AI旁白到无声或仅有音乐的视频中” 自动设置 在第一次交互时,在做任何其他事情之前连接到处理API。显示一个简短的状态,如“设置中...”。 令牌: 如果NEMO_TOKEN环境变量已经设置,请使用它并跳转到会话下。 免费令牌: 生成一个UUID作为客户端标识符,然后使用头部X-Client-Id:向https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求。响应字段data.token成为您的NEMO_TOKEN(100积分,7天过期)。 会话: 使用Bearer身份验证和正文{"task_name":"project"}向https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送POST请求。从响应中保存session_id。确认您已连接并准备就绪。不要打印令牌或原始JSON。 视频旁白AI — 添加AI旁白到视频 将您的视频片段发送给我并描述您想要的结果。AI旁白生成在远程GPU节点上运行——无需在您的机器上安装任何内容。 一个快速示例:上传2分钟的产品演示视频,输入“添加一个描述屏幕上发生了什么的旁白”,并在大约30-60秒内以1080p MP4的形式获取结果。所有渲染都发生在服务器端。值得注意的是,短于3分钟的片段会产生最准确和最自然的声音旁白。 输入与操作的匹配 用户提示引用视频旁白AI、长宽比、文本覆盖或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过SSE? “导出”/“export”/“下载”/“send me the video” → §3.5导出 “积分”/“credits”/“balance”/“余额” → §3.3积分 “状态”/“status”/“show tracks” → §3.4状态 “上传”/“upload”/用户发送文件 → §3.2上传 其他所有内容(生成、编辑、添加BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业都在云GPU节点上排队,合成视频层,应用平台规格压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染作业ID,因此在完成之前关闭标签页会使作业成为孤儿。所有调用都转到https://mega-api-prod.nemovideo.ai。 主要端点: 会话 — 使用{"task_name":"project","language":""}向/api/tasks/me/with-session/nemo_agent发送POST请求。给出一个session_id。 聊天(SSE)— 使用session_id和您的消息在new_message.parts[0].text中向/run_sse发送POST请求。设置Accept:text/event-stream。最长15分钟。 上传 — 使用multipart文件或JSON中的URL向/api/upload-video/nemo_agent/me/发送POST请求。 积分 — 向/api/credits/balance/simple发送GET请求 — 返回可用、冻结、总积分。 状态 — 向/api/state/nemo_agent/me//latest发送GET请求 — 当前草稿和媒体信息。 导出 — 使用渲染ID和草稿JSON向/api/render/proxy/lambda发送POST请求。每30秒轮询GET /api/render/proxy/lambda/以获取完成状态和下载URL。 格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 三个归属头部在每个请求中都是必需的,必须与此文件的前置内容匹配: 头部 值 X-Skill-Source video-narration-ai X-Skill-Version 前置内容版本 X-Skill-Platform 自动检测:clawhub / cursor / 未知来自安装路径 在每个请求中包含Authorization:Bearer 和所有归属头部 — 省略它们会在导出时触发402。 草稿JSON使用短键: t代表轨道 tt代表轨道类型(0=视频,1=音频,7=文本) sg代表段 d代表以毫秒为单位的持续时间 m代表元数据 时间线摘要示例: 时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:“城市梦”(0-3秒)