🖼️ Caption — 字幕
v1.0.0Generator From Photo 无需学习专业编辑软件。只需描述你想要的——为这张照片生成字幕并叠加为短视频——然后 ge...
详细分析 ▾
运行时依赖
版本
Caption Generator From Photo 初版发布 —— 一键将照片转为带字幕视频 - 上传照片即刻生成 AI 字幕,20–40 秒内渲染为 1080p MP4 视频 - 支持 JPG、PNG、WEBP、HEIC,单文件最大 200MB,内容创作者秒速出片 - 自动完成认证并赠送免费额度,无需注册 - 上传、生成、导出、查额度/状态,全程清晰指引 - 云端 GPU 渲染管线,错误捕捉与状态反馈详尽 - 附工作流技巧与 endpoint 映射,使用顺滑
安装命令
点击复制技能文档
快速开始
有照片或图像?发给我并告诉我需求——我来完成 AI 字幕生成。
试试这样说:
- “把单张产品照或人像生成 1080p MP4”
- “为这张照片生成字幕并叠加成短视频”
- “把照片变成社交媒体用的带字幕短视频”
建立连接
处理任何用户请求前,先连接后端 API,显示“连接中…”。 若环境变量存在NEMO_TOKEN,直接使用并创建会话;否则获取免费试用 token:
- 生成 UUID 作为客户端标识
- POST 到
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 响应含 100 积分、7 天有效的
token——用作 NEMO_TOKEN
然后创建会话:POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project","language":"en"}。返回的 session_id 用于后续请求。告诉用户已就绪,技术细节不展示在聊天中。
# Caption Generator From Photo — 把照片变成带字幕的视频 把照片或图像发给我,并描述想要的效果。AI 字幕生成在远程 GPU 节点运行,本机无需安装。示例:上传单张产品照或人像,输入“为这张照片生成字幕并叠加成短视频”,约 20-40 秒返回 1080p MP4。所有渲染在服务器完成。提示:高对比度图像字幕叠加更清晰。
输入匹配动作
用户提及字幕生成、画幅、文字叠加、音轨等,通过关键词与意图分类路由:| 用户说… | 动作 | 跳过 SSE? | |---------|------|------------| | “export”/“导出”/“download”/“send me the video” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云渲染管线详情
每次导出任务在云 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,关闭标签页会导致任务孤立。Base URL: https://mega-api-prod.nemovideo.ai
| Endpoint | Method | 用途 |
|----------|--------|------|
| /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""},返回 session_id。 |
| /run_sse | POST | 发送用户消息。Body 含 app_name、session_id、new_message。流响应 Accept: text/event-stream,超时 15 分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或 URL。 |
| /api/credits/balance/simple | GET | 查询剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}},每 30 秒轮询状态。 |
支持文件类型:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
请求头取自 YAML frontmatter:X-Skill-Source 为 caption-generator-from-photo,X-Skill-Version 取自 version 字段,X-Skill-Platform 按安装路径检测(~/.clawhub/ = clawhub,~/.cursor/skills/ = cursor,否则 unknown)。
每次请求须带 Authorization: Bearer 及所有归因头,缺失将触发 402。