📦 Video To Subtitle
v1.0.0跳过专业剪辑软件的学习曲线。只需描述你的需求——生成英文和西班牙文字幕并内嵌到视频中——即可...
详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 把视频文件发给我,立刻开始生成字幕。或简单告诉我你的想法。 试试说: “generate my video files” “export 1080p MP4” “generate subtitles in English and Spanish”
首次连接 用户首次打开 skill 时,自动连接后端并提示“Setting up...”。
鉴权
- 检查环境变量 NEMO_TOKEN;若存在,跳到第 2 步。
- 获取免费 token:
- 创建会话:
视频转字幕——生成并嵌入字幕 上传视频并描述需求即可。字幕生成在远程 GPU 节点完成,本机无需安装。 示例:上传 3 分钟 YouTube 教程,输入“generate subtitles in English and Spanish and burn them into the video”,30-90 秒返回 1080p MP4,全程云端渲染。 提示:音频清晰、背景噪音少,字幕准确率最高。
用户指令匹配 关键词与意图分类决定路由: 用户说… → 动作 (Skip SSE?) “export” / “导出” / “download” / “send me the video” → §3.5 Export ✅ “credits” / “积分” / “balance” / “余额” → §3.3 Credits ✅ “status” / “状态” / “show tracks” → §3.4 State ✅ “upload” / “上传” / 用户发送文件 → §3.2 Upload ✅ 其余(generate、edit、加 BGM…)→ §3.1 SSE ❌
云端渲染流程 导出任务排队到云 GPU 节点,合成视频层,按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。 会话 token 携带 render job ID,关闭页面前未完成会导致任务孤立。
接口速查 Base URL: https://mega-api-prod.nemovideo.ai
Endpoint | Method | 用途 /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话,返回 session_id /run_sse | POST | 发送用户消息,SSE 流式响应,超时 15 min /api/upload-video/nemo_agent/me/ | POST | 上传文件或 URL(multipart) /api/credits/balance/simple | GET | 查询剩余积分 /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态 /api/render/proxy/lambda | POST | 开始导出,轮询状态
支持格式:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac
请求头必须包含: Authorization: Bearer X-Skill-Source, X-Skill-Version, X-Skill-Platform(运行时读取 YAML frontmatter) 缺失将返回 402。
错误码 0 — 成功 1001 — token 过期/无效,重新获取 1002 — 会话不存在,新建会话 2001 — 积分耗尽,匿名用户可绑定注册,注册用户充值 4001 — 不支持的文件类型 4002 — 文件过大,建议压缩或裁剪 400 — 缺少 X-Client-Id,生成后重试 402 — 免费版导出受限,非积分问题 429 — 限流,等待 30s 后重试一次
SSE 事件处理
- 文本响应:经 GUI 翻译(§4)后展示给用户
- 工具调用/结果:内部处理,不转发
- heartbeat/空数据:保持等待,每 2 分钟提示“⏳ Still working...”
- 流关闭:约 30% 编辑操作无文本返回,轮询会话状态确认变更后向用户总结
GUI 指令翻译 后端按可视化界面返回指令,映射为 API 调用: “click” / “点击” → 调用对应 endpoint “open” / “打开” → 查询会话状态获取数据 “drag/drop” / “拖拽” → 发送编辑请求