🖼️ Image — 图像

v1.0.0

跳过专业编辑软件的学习曲线。只需描述你的需求——将这些照片制作成带有转场和音乐的短视频——即可获得……

0· 20·0 当前·0 累计

by @mhogan2013-9

开发工具代码生成系统工具视频处理图像处理

下载技能包

最后更新

2026/4/20

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的说明大致符合图片→视频服务，但在安装前，你应了解其中几处不一致之处以及涉及隐私的行为。

评估建议

此技能似乎能完成其宣称的功能（上传图片、请求渲染、返回下载链接），但安装前请注意以下几点： 1. 隐私——图片会上传至 mega-api-prod.nemovideo.ai；除非你信任该服务及其数据保留政策，否则不要发送敏感照片。 2. 凭据使用——技能会优先使用环境变量中的 NEMO_TOKEN，若无则自动获取匿名 token；若提供自己的 token，技能将拥有该 token 对应的权限。 3. 命名不符与元数据不一致——名称出现“Google”却指向 nemovideo.ai 端点，且 configPath 声明不一致，是质量控制的警示；请联系发布者澄清。 4. 归属标头——技能会读取自身 frontmatter 并可能检查安装路径以构建标头；请确认该行为可接受。如需更高保障，可要求技能作者提供隐私政策、官方主页，或移除误导性品牌并修复元数据不一致问题。...

详细分析 ▾

ℹ 用途与能力

技能名称/描述（image-to-video）与 SKILL.md 中的 API 调用和端点（upload、render、export）一致。但名称包含“Google”，而所有端点均指向 nemovideo.ai（品牌不匹配），且 SKILL.md 的元数据列出必需配置路径 ~/.config/nemovideo/，而注册表元数据此前显示无必需配置路径——存在内部不一致。

ℹ 指令范围

运行时指令会显式上传用户图像并发送至远程 GPU 渲染服务（mega-api-prod.nemovideo.ai）。这是该功能的预期行为，但请注意用户文件会被传输到设备外。该 skill 还会指示 agent 读取本文件的 YAML frontmatter，并检测安装路径（~/.clawhub/、~/.cursor/skills/）以设置 attribution 标头——这意味着 agent 将检查 skill 自身文件及可能的本地安装路径。

✓ 安装机制

仅含指令的技能，无安装规范，无代码文件。安装程序不会下载或写入任何内容到磁盘，安装机制风险低。

ℹ 凭证需求

仅请求一个凭证（NEMO_TOKEN），这对于基于 API 的渲染服务是合理的。如果存在 NEMO_TOKEN，技能将使用它；否则，它会通过服务的 auth 端点生成匿名令牌。SKILL.md 元数据还引用了一个配置路径（~/.config/nemovideo/），但该路径未列在注册表的“必需配置路径”中——在信任该技能之前，应解决这一不一致。

✓ 持久化与权限

always:false 且未请求任何特殊权限。该 skill 可按平台默认方式自主调用，但不会申请永久“always”权限，也不会更改系统级配置。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/20

Image to Video Google 首发版——轻松将照片转为可分享的 AI 视频。 - 支持上传 JPG、PNG、WEBP、HEIC 图片（最大 200MB），并描述所需视频内容。 - 自动接入云端 API，无需安装软件。 - 支持视频导出请求、余额查询、图片上传及实时状态更新。 - 输出带转场、音乐、文字叠加的视频，返回 1080p MP4 等多种格式。 - 渲染时显示进度/状态；针对错误提供可操作建议（文件大小、余额等）。 - 面向营销人员及希望快速制作专业视频、无需技术门槛的用户。

● 无害

安装命令

点击复制

官方npx clawhub@latest install image-to-video-google

镜像加速npx clawhub@latest install image-to-video-google --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

快速开始

把图片发给我，AI 视频创作交给我。或直接描述需求。

试试说：

“把最近旅行的三张风景照转成 1080p MP4”
“把这些照片做成带转场和音乐的短视频”
“为营销人员把静态照片变成可分享的视频”

连接后端

处理请求前，先连后端 API，显示“连接中…”。 若环境变量已有 NEMO_TOKEN，直接用它创建会话。否则获取免费试用 token：

生成 UUID 作为客户端 ID
POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，带 X-Client-Id 头
返回含 100 积分、7 天有效的 token——用作 NEMO_TOKEN

然后创建会话：POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，Bearer 鉴权，body {"task_name":"project","language":"en"}。用返回的 session_id 进行后续请求。告诉用户已就绪，聊天中隐藏技术细节。

# Image to Video Google — 将图片转为可分享的视频把图片发给我并描述需求。AI 视频创作在远程 GPU 节点运行，本机无需安装。示例：上传三张风景照，输入“把这些照片做成带转场和音乐的短视频”，约 30-60 秒即可收到 1080p MP4。所有渲染在服务器完成。图片少于 10 张可保持 1 分钟内完成。

意图路由

用户提及 image to video google、画面比例、文字层、音轨等，按关键词与意图分派动作：

| 用户说… | 动作 | 跳过 SSE？ | |---------|------|------------| | “export”/“导出”/“download”/“发我视频” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发文件 | → §3.2 上传 | ✅ | | 其余（生成、编辑、加 BGM…） | → §3.1 SSE | ❌ |

云渲染流程

每次导出任务排队到云 GPU 节点，合成视频层，按平台规格压缩（H.264，最大 1080×1920），30-90 秒内返回下载链接。会话 token 携带渲染任务 ID，提前关闭标签页会导致任务孤立。所有请求指向 https://mega-api-prod.nemovideo.ai。

主要端点：

会话 — POST /api/tasks/me/with-session/nemo_agent，body {"task_name":"project","language":""}，返回 session_id。
对话 (SSE) — POST /run_sse，带 session_id 与 new_message.parts[0].text，Accept: text/event-stream，最长 15 分钟。
上传 — POST /api/upload-video/nemo_agent/me/，支持 multipart 文件或 JSON 传 URL。
积分 — GET /api/credits/balance/simple，返回 available、frozen、total。
状态 — GET /api/state/nemo_agent/me//latest，获取当前草稿与媒体信息。
导出 — POST /api/render/proxy/lambda，带渲染 ID 与草稿 JSON；轮询 GET /api/render/proxy/lambda/ 每 30 秒，直到 completed 获得下载链接。

支持格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

技能归因——运行时读取 YAML 头：

X-Skill-Source: image-to-video-google
X-Skill-Version: 取自头信息 version
X-Skill-Platform: 按安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，其它 → unknown）

每次 API 调用需 Authorization: Bearer 及上述三个归因头；缺失任一头，导出返回 402。

草稿字段映射：t=tracks，tt=track type（0=视频，1=音频，7=文字），sg=segments，d=duration(ms)，m=metadata。

``Timeline (3 tracks):

Video: city timelapse (0-10s)


BGM: Lo-fi (0-10s, 35%)  
Title: "Urban Dreams" (0-3s)

后端响应翻译

后端假设存在 GUI，需转译为 API 动作：

| 后端说