🖼️ Caption — 字幕

v1.0.0

Generator From Photo 无需学习专业编辑软件。只需描述你想要的——为这张照片生成字幕并叠加为短视频——然后 ge...

0· 60·0 当前·0 累计
下载技能包
最后更新
2026/4/21
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
medium confidence
该技能的需求和运行时指令与基于云的字幕/视频渲染服务一致:它只需要一个服务令牌,SKILL.md 仅指示调用该后端并上传用户图像。
评估建议
该技能用于云端字幕/视频渲染集成,逻辑清晰,仅需 NEMO_TOKEN(若未提供,则从所列域名获取短期匿名 token)。安装或使用前请注意: 1) 确认信任 https://mega-api-prod.nemovideo.ai,并查阅其对上传图片的隐私/保留政策(你正在向第三方上传媒体)。 2) 优先使用限定范围的服务 token,而非长期凭证。 3) 询问实现者:agent 是否会读取本地安装路径以生成 X-Skill-Platform 头?如是,请要求其将文件读取限制在最小必要范围。 4) 留意 SKILL.md 中存在而注册元数据缺失的 configPaths 微小差异;请发布者澄清。 若以上任一点未解决,视该技能为高风险。...
详细分析 ▾
用途与能力
名称/描述(生成字幕并叠加到照片上,制作短视频)须与声明的主凭证(NEMO_TOKEN)及 SKILL.md 端点(nemovideo API)保持一致。一处小不一致:注册元数据显示无需配置路径,而 SKILL.md 的 frontmatter 元数据提到 ~/.config/nemovideo/;可能是文档不匹配,但值得留意。
指令范围
指令严格限定于所述目的:与 nemovideo API 建立会话、上传用户提供的媒体、流式接收渲染事件并轮询导出结果。SKILL.md 并未指示读取任意本地文件或无关的环境变量。补充说明:文档称 X-Skill-Platform 是“从安装路径检测”(例如 ~/.clawhub/ 或 ~/.cursor/skills/);未明确代理是否必须读取这些路径来构造该头——若实现,需确认不会尝试读取无关的用户文件。
安装机制
仅含指令的技能,无安装规范,无代码文件——风险最低的交付机制。技能规范本身不会下载或写入任何内容到磁盘。
凭证需求
仅请求一个凭证(NEMO_TOKEN),且明确用于对所述后端的授权。SKILL.md 文档在缺少 NEMO_TOKEN 时提供了匿名 token 的降级调用,与服务行为一致。此前关于 configPaths 出现在 frontmatter 却未出现在 registry 元数据的差异已注明,但本身并不表明存在多余的凭证请求。
持久化与权限
无 always:true,无持久化安装或对其他技能的修改。该技能仅管理与远程渲染器的短时会话;此行为属于功能预期。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

Caption Generator From Photo 初版发布 —— 一键将照片转为带字幕视频 - 上传照片即刻生成 AI 字幕,20–40 秒内渲染为 1080p MP4 视频 - 支持 JPG、PNG、WEBP、HEIC,单文件最大 200MB,内容创作者秒速出片 - 自动完成认证并赠送免费额度,无需注册 - 上传、生成、导出、查额度/状态,全程清晰指引 - 云端 GPU 渲染管线,错误捕捉与状态反馈详尽 - 附工作流技巧与 endpoint 映射,使用顺滑

无害

安装命令

点击复制
官方npx clawhub@latest install caption-generator-from-photo
镜像加速npx clawhub@latest install caption-generator-from-photo --registry https://cn.longxiaskill.com

技能文档

快速开始

有照片或图像?发给我并告诉我需求——我来完成 AI 字幕生成。

试试这样说:

  • “把单张产品照或人像生成 1080p MP4”
  • “为这张照片生成字幕并叠加成短视频”
  • “把照片变成社交媒体用的带字幕短视频”

建立连接

处理任何用户请求前,先连接后端 API,显示“连接中…”。 若环境变量存在 NEMO_TOKEN,直接使用并创建会话;否则获取免费试用 token:
  • 生成 UUID 作为客户端标识
  • POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带 X-Client-Id
  • 响应含 100 积分、7 天有效的 token——用作 NEMO_TOKEN

然后创建会话:POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project","language":"en"}。返回的 session_id 用于后续请求。告诉用户已就绪,技术细节不展示在聊天中。

# Caption Generator From Photo — 把照片变成带字幕的视频 把照片或图像发给我,并描述想要的效果。AI 字幕生成在远程 GPU 节点运行,本机无需安装。示例:上传单张产品照或人像,输入“为这张照片生成字幕并叠加成短视频”,约 20-40 秒返回 1080p MP4。所有渲染在服务器完成。提示:高对比度图像字幕叠加更清晰。

输入匹配动作

用户提及字幕生成、画幅、文字叠加、音轨等,通过关键词与意图分类路由:

| 用户说… | 动作 | 跳过 SSE? | |---------|------|------------| | “export”/“导出”/“download”/“send me the video” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |

云渲染管线详情

每次导出任务在云 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,关闭标签页会导致任务孤立。

Base URL: https://mega-api-prod.nemovideo.ai

| Endpoint | Method | 用途 | |----------|--------|------| | /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""},返回 session_id。 | | /run_sse | POST | 发送用户消息。Body 含 app_namesession_idnew_message。流响应 Accept: text/event-stream,超时 15 分钟。 | | /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或 URL。 | | /api/credits/balance/simple | GET | 查询剩余积分(availablefrozentotal)。 | | /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draftvideo_infosgenerated_media)。 | | /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}},每 30 秒轮询状态。 |

支持文件类型:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

请求头取自 YAML frontmatter:X-Skill-Sourcecaption-generator-from-photoX-Skill-Version 取自 version 字段,X-Skill-Platform 按安装路径检测(~/.clawhub/ = clawhub~/.cursor/skills/ = cursor,否则 unknown)。

每次请求须带 Authorization: Bearer 及所有归因头,缺失将触发 402。

错误处理

| Code | 含义 | 操作 | |------|------|------| | 0 | 成功 | 继续 | | 100

数据来源ClawHub ↗ · 中文优化:龙虾技能库