💬 Caption — 标题
v1.0.0Generator Ai 无需掌握专业剪辑软件。只需描述需求——自动为视频添加英文与西班牙文字幕并同步——即可生成带字幕的视频……
详细分析 ▾
运行时依赖
版本
Caption Generator AI 初始发布——为视频生成字幕。 - 支持上传 MP4、MOV、AVI 或 WebM(最大 500MB),30–60 秒内自动生成英文与西班牙文字幕并自动同步。 - 无需安装;所有字幕生成与渲染均在远程 GPU 服务器完成。 - 引导式简单配置,自动连接后端,一键认证(赠送 100 免费积分)。 - 快速流程:字幕生成、预览、导出;支持批量与迭代编辑。 - 兼容多种文件格式,完整基于会话的时间线状态管理。 - 清晰的错误提示、操作提示与自动状态更新,确保流畅体验。
安装命令
点击复制技能文档
快速开始
随时可用。拖入视频文件或描述需求即可。试试说:
- “把 3 分钟教程录屏转成 1080p MP4”
- “添加英西双语自动同步字幕”
- “给创作者视频加自动生成字幕”
首次连接
用户首次打开技能时,自动连接后端,简显“设置中…”。 鉴权:检查环境变量NEMO_TOKEN。若已存在,直接进入第 2 步。
- 获取免费令牌:生成随机 UUID 作为客户端标识,POST 至
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header 带X-Client-Id:,返回data.token即 NEMO_TOKEN——含 100 免费积分,7 天有效。 - 创建会话:POST 至
https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Header 带Authorization: Bearer与Content-Type: application/json,Body 为{"task_name":"project","language":""},保存返回的session_id供后续调用。
# Caption Generator AI — 为视频生成字幕 把视频文件发给我并描述需求。AI 字幕生成在远程 GPU 节点完成,本机零安装。 示例:上传 3 分钟教程视频,输入“添加英西双语自动同步字幕”,约 30-60 秒返回 1080p MP4。所有渲染在云端完成。 注意:5 分钟以内短片生成速度明显更快。
输入与动作映射
用户提及字幕生成、画面比例、文字层或音轨时,系统通过关键词与意图分类路由:| 用户说… | 动作 | 跳过 SSE? | |-------------|--------|----------| | “export” / “导出” / “download” / “发我视频” | → §3.5 导出 | ✅ | | “credits” / “积分” / “balance” / “余额” | → §3.3 积分 | ✅ | | “status” / “状态” / “show tracks” | → §3.4 状态 | ✅ | | “upload” / “上传” / 用户发文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云端渲染流程
每次导出任务在云端 GPU 节点排队,合成视频层并按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。会话令牌携带渲染任务 ID,若提前关闭标签页任务将成孤儿。 所有请求指向https://mega-api-prod.nemovideo.ai。 主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent,Body{"task_name":"project","language":""},返回session_id。 - 聊天 (SSE) —
POST /run_sse,带session_id与new_message.parts[0].text,HeaderAccept: text/event-stream,最长 15 分钟。 - 上传 —
POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 外链。 - 积分 —
GET /api/credits/balance/simple,返回available、frozen、total。 - 状态 —
GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 - 导出 —
POST /api/render/proxy/lambda,提交渲染 ID 与草稿 JSON;轮询GET /api/render/proxy/lambda/每 30 秒一次,直至completed获得下载链接。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4aac。
技能归因——运行时读取本文件 YAML 头:
X-Skill-Source:caption-generator-aiX-Skill-Version: 取自头信息versionX-Skill-Platform: 按安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,其余unknown)
每次 API 调用须带 Authorization: Bearer 及上述三归因头;缺失任一项,导出返回 402。
草稿 JSON 使用短键:
t 轨道,tt 轨道类型(0=视频 1=音频 7=文字),sg 片段,d 时长(毫秒),m 元数据。
时间线示例:
``
Timeline (3 tracks):
Video: city timelapse (0-10s)- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)