🖼️ Caption — 字幕

v1.0.0

Generator From Photo 无需学习专业编辑软件。只需描述你想要的——为这张照片生成字幕并叠加为短视频——然后 ge...

0· 60·0 当前·0 累计

by @vcarolxhberger

开发工具代码生成系统工具视频处理图像处理

下载技能包

最后更新

2026/4/21

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

medium confidence

该技能的需求和运行时指令与基于云的字幕/视频渲染服务一致：它只需要一个服务令牌，SKILL.md 仅指示调用该后端并上传用户图像。

评估建议

该技能用于云端字幕/视频渲染集成，逻辑清晰，仅需 NEMO_TOKEN（若未提供，则从所列域名获取短期匿名 token）。安装或使用前请注意： 1) 确认信任 https://mega-api-prod.nemovideo.ai，并查阅其对上传图片的隐私/保留政策（你正在向第三方上传媒体）。 2) 优先使用限定范围的服务 token，而非长期凭证。 3) 询问实现者：agent 是否会读取本地安装路径以生成 X-Skill-Platform 头？如是，请要求其将文件读取限制在最小必要范围。 4) 留意 SKILL.md 中存在而注册元数据缺失的 configPaths 微小差异；请发布者澄清。若以上任一点未解决，视该技能为高风险。...

详细分析 ▾

✓ 用途与能力

名称/描述（生成字幕并叠加到照片上，制作短视频）须与声明的主凭证（NEMO_TOKEN）及 SKILL.md 端点（nemovideo API）保持一致。一处小不一致：注册元数据显示无需配置路径，而 SKILL.md 的 frontmatter 元数据提到 ~/.config/nemovideo/；可能是文档不匹配，但值得留意。

✓ 指令范围

指令严格限定于所述目的：与 nemovideo API 建立会话、上传用户提供的媒体、流式接收渲染事件并轮询导出结果。SKILL.md 并未指示读取任意本地文件或无关的环境变量。补充说明：文档称 X-Skill-Platform 是“从安装路径检测”（例如 ~/.clawhub/ 或 ~/.cursor/skills/）；未明确代理是否必须读取这些路径来构造该头——若实现，需确认不会尝试读取无关的用户文件。

✓ 安装机制

仅含指令的技能，无安装规范，无代码文件——风险最低的交付机制。技能规范本身不会下载或写入任何内容到磁盘。

✓ 凭证需求

仅请求一个凭证（NEMO_TOKEN），且明确用于对所述后端的授权。SKILL.md 文档在缺少 NEMO_TOKEN 时提供了匿名 token 的降级调用，与服务行为一致。此前关于 configPaths 出现在 frontmatter 却未出现在 registry 元数据的差异已注明，但本身并不表明存在多余的凭证请求。

✓ 持久化与权限

无 always:true，无持久化安装或对其他技能的修改。该技能仅管理与远程渲染器的短时会话；此行为属于功能预期。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

Caption Generator From Photo 初版发布 —— 一键将照片转为带字幕视频 - 上传照片即刻生成 AI 字幕，20–40 秒内渲染为 1080p MP4 视频 - 支持 JPG、PNG、WEBP、HEIC，单文件最大 200MB，内容创作者秒速出片 - 自动完成认证并赠送免费额度，无需注册 - 上传、生成、导出、查额度/状态，全程清晰指引 - 云端 GPU 渲染管线，错误捕捉与状态反馈详尽 - 附工作流技巧与 endpoint 映射，使用顺滑

● 无害

安装命令

点击复制

官方npx clawhub@latest install caption-generator-from-photo

镜像加速npx clawhub@latest install caption-generator-from-photo --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

快速开始

有照片或图像？发给我并告诉我需求——我来完成 AI 字幕生成。

试试这样说：

“把单张产品照或人像生成 1080p MP4”
“为这张照片生成字幕并叠加成短视频”
“把照片变成社交媒体用的带字幕短视频”

建立连接

处理任何用户请求前，先连接后端 API，显示“连接中…”。 若环境变量存在 NEMO_TOKEN，直接使用并创建会话；否则获取免费试用 token：

生成 UUID 作为客户端标识
POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，带 X-Client-Id 头
响应含 100 积分、7 天有效的 token——用作 NEMO_TOKEN

然后创建会话：POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，Bearer 鉴权，body {"task_name":"project","language":"en"}。返回的 session_id 用于后续请求。告诉用户已就绪，技术细节不展示在聊天中。

# Caption Generator From Photo — 把照片变成带字幕的视频把照片或图像发给我，并描述想要的效果。AI 字幕生成在远程 GPU 节点运行，本机无需安装。示例：上传单张产品照或人像，输入“为这张照片生成字幕并叠加成短视频”，约 20-40 秒返回 1080p MP4。所有渲染在服务器完成。提示：高对比度图像字幕叠加更清晰。

输入匹配动作

用户提及字幕生成、画幅、文字叠加、音轨等，通过关键词与意图分类路由：

| 用户说… | 动作 | 跳过 SSE？ | |---------|------|------------| | “export”/“导出”/“download”/“send me the video” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发送文件 | → §3.2 上传 | ✅ | | 其他（生成、编辑、加 BGM…） | → §3.1 SSE | ❌ |

云渲染管线详情

每次导出任务在云 GPU 节点排队，合成视频层，按平台规格压缩（H.264，最高 1080×1920），30-90 秒内返回下载链接。会话 token 携带渲染任务 ID，关闭标签页会导致任务孤立。

Base URL: https://mega-api-prod.nemovideo.ai

| Endpoint | Method | 用途 | |----------|--------|------| | /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""}，返回 session_id。 | | /run_sse | POST | 发送用户消息。Body 含 app_name、session_id、new_message。流响应 Accept: text/event-stream，超时 15 分钟。 | | /api/upload-video/nemo_agent/me/ | POST | 上传文件（multipart）或 URL。 | | /api/credits/balance/simple | GET | 查询剩余积分（available、frozen、total）。 | | /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态（draft、video_infos、generated_media）。 | | /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}，每 30 秒轮询状态。 |

支持文件类型：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

请求头取自 YAML frontmatter：X-Skill-Source 为 caption-generator-from-photo，X-Skill-Version 取自 version 字段，X-Skill-Platform 按安装路径检测（~/.clawhub/ = clawhub，~/.cursor/skills/ = cursor，否则 unknown）。

每次请求须带 Authorization: Bearer 及所有归因头，缺失将触发 402。

错误处理

| Code | 含义 | 操作 | |------|------|------| | 0 | 成功 | 继续 | | 100