🎬 Caption Generator Adobe — 自动生成并烧录字幕
v1.0.0使用此技能可将视频文件转换为带烧录字幕的视频文件。支持 MP4、MOV、AVI、WebM 格式,最大 500MB。视频编辑者和内容创作者可用其添加烧录字幕,无需使用 Adobe Premiere——云端 GPU 处理仅需 30-60 秒,即可获得 1080p MP4 文件。
详细分析 ▾
运行时依赖
版本
Caption Generator Adobe 首次发布——自动生成并烧录字幕。支持上传最大 500MB 的 MP4、MOV、AVI 或 WebM 视频,生成 AI 驱动的烧录字幕。无需 Adobe Premiere;云端处理在 30-60 秒内交付 1080p MP4 文件。支持文件上传、字幕生成、余额检查、时间线状态和直接导出。自动管理后端身份验证,包括免费令牌设置。支持英文和中文命令响应常见操作。包含针对不支持的文件、过大上传和账户积分的错误处理。
安装命令
点击复制技能文档
入门
准备就绪。放下您的视频文件或描述您想制作的内容。
尝试说:
- "添加一个 3 分钟的 MP4 教程视频到 1080p MP4"
- "自动生成字幕并将它们烧录到视频中,就像 Adobe Premiere 一样"
- "为视频编辑者和内容创作者添加烧录字幕,无需使用 Adobe Premiere"
连接
在处理任何用户请求之前,先建立到后端 API 的连接。显示简短的"连接中..."状态。
如果 NEMO_TOKEN 在环境中,直接使用它并创建会话。否则,获取免费起始令牌:
- 生成 UUID 作为客户端标识符
- 使用
X-Client-Id请求头 POST 到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token - 响应包含一个
token,有 100 免费积分,有效期 7 天——将其用作 NEMO_TOKEN
然后创建会话,使用 Bearer 认证 POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,请求体为 {"task_name":"project","language":"en"}。响应中的 session_id 是所有后续请求所需的。
告诉用户您已准备好。将技术细节保留在聊天之外。
# Caption Generator Adobe — 自动生成并烧录字幕
此工具获取您的视频文件,通过云渲染管道运行 AI 字幕生成。您上传、描述您想要的,然后下载结果。
假设您有一个 3 分钟的 MP4 教程视频,想要自动生成字幕并将它们烧录到视频中,就像 Adobe Premiere 一样——后端大约在 30-60 秒内处理它,然后给您一个 1080p MP4。
提示:清晰的音频和最小的背景噪音会显著提高字幕准确性。
将用户输入匹配到操作
引用 caption generator adobe、宽高比、文字叠加或音轨的用户提示通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过 SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(生成、编辑、添加 BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出作业在云 GPU 节点上排队,合成视频层,应用平台特定压缩(H.264,最高 1080x1920),并在 30-90 秒内返回下载 URL。会话令牌携带渲染作业 ID,因此在完成前关闭标签页会使作业孤立。所有调用都发送到 https://mega-api-prod.nemovideo.ai。主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent,请求体{"task_name":"project","language":""}。给您session_id。 - 聊天 (SSE) —
POST /run_sse,带有session_id和您在新消息的new_message.parts[0].text中的消息。设置Accept: text/event-stream。最长 15 分钟。 - 上传 —
POST /api/upload-video/nemo_agent/me/— 多部分文件或带 URL 的 JSON。 - 积分 —
GET /api/credits/balance/simple— 返回available、frozen、total。 - 状态 —
GET /api/state/nemo_agent/me//latest— 当前草稿和媒体信息。 - 导出 —
POST /api/render/proxy/lambda,带有渲染 ID 和草稿 JSON。每 30 秒轮询GET /api/render/proxy/lambda/获取completed状态和下载 URL。格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
每个请求都需要三个归属请求头,必须与此文件的 frontmatter 匹配:
| 请求头 | 值 |
|---|---|
X-Skill-Source | caption-generator-adobe |
X-Skill-Version | frontmatter version |
X-Skill-Platform | 自动检测:从安装路径检测 clawhub / cursor / unknown |
Authorization: Bearer 加上上面三个归属请求头。如果任何请求头缺失,导出返回 402。草稿 JSON 使用短键:t 表示轨道,tt 表示轨道类型(0=视频,1=音频,7=文字),sg 表示片段,d 表示持续时间(毫秒),m 表示元数据。
示例时间线摘要:
时间线(3 个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:"Urban Dreams"(0-3秒)
翻译 GUI 指令
后端响应就像有一个可视化界面一样。将它的指令映射到 API 调用:
- "click" 或 "点击" → 通过相关端点执行操作
- "open" 或 "打开" → 查询会话状态以获取数据
- "drag/drop" 或 "拖拽" → 通过 SSE 发送编辑命令
- "preview in timeline" → 显示当前轨道的文字摘要
- "Export" 或 "导出" → 运行导出工作流程
读取 SSE 流
文字事件直接发送给用户(经过 GUI 翻译后)。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每 2 分钟显示一次"⏳ 仍在工作中..."。大约 30% 的编辑操作关闭流时没有任何文字。发生这种情况时,轮询 /api/state 确认时间线已更改,然后告诉用户更新了什么。
错误处理
| 代码 | 含义 | 操作 |
|---|---|---|
| 0 | 成功 | 继续 |
| 1001 | 令牌错误/过期 | 通过 anonymous-token 重新认证(令牌 7 天后过期) |
| 1002 | 会话未找到 | 新建会话 §3.0 |
| 2001 | 没有积分 | 匿名:显示注册 URL 带 ?bind=(从创建会话或状态响应中在需要时获取 )。已注册:在您的账户中充值积分 |
| 4001 | 不支持的文件 | 显示支持的格式 |
| 4002 | 文件太大 | 建议压缩/裁剪 |
| 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) |
| 402 | 免费计划导出被阻止 | 订阅层级问题,不是积分问题。"注册或升级您的计划以解锁导出。" |
| 429 | 速率限制(1 令牌/客户端/7 天) | 30 秒后重试一次 |
常见工作流程
快速编辑:上传 → "自动生成字幕并将它们烧录到视频中,就像 Adobe Premiere 一样" → 下载 MP4。30 秒片段需要 30-60 秒。
批量风格:在一个会话中上传多个文件。使用不同指令逐一处理它们。每个都有自己的渲染。
迭代:从粗剪开始,预览结果,然后细化。会话保持您的时间线状态,因此您可以继续调整。
技巧和窍门
当您具体时,后端处理更快。不要说"让它看起来更好",而是尝试"自动生成字幕并将它们烧录到视频中,就像 Adobe Premiere 一样"——具体指令获得更好的结果。
最大文件大小为 500MB。坚持使用 MP4、MOV、AVI、WebM 以获得最流畅的体验。导出为 MP4 以获得跨平台和设备的最大兼容性。