🎞️ Image — 图像
v1.0.0使用此技能将静态图像转换为动态视频片段。支持 JPG、PNG、WEBP、HEIC 格式,最大 200MB。社交媒体创作者常用它将...
详细分析 ▾
运行时依赖
版本
- 首发版本:将照片动画化为 1080p 社交媒体视频片段。 - 支持 JPG、PNG、WEBP、HEIC,单文件最大 200MB。 - 自动连接云端,新用户赠送免费额度,一键完成配置。 - 上传图片,描述效果(缩放、平移、文字叠加、音频),导出 MP4。 - 云端 GPU 快速处理(30–60 秒),结果立即可下载。 - 内置完善的错误处理、额度检查与操作指引。
安装命令
点击复制技能文档
快速开始
上传静图,我立刻开始 AI 视频创作。或直接说出想法。试试说:
- “convert my still images”
- “export 1080p MP4”
- “animate this photo with a zoom”
一键初始化
本技能连接云端渲染后端。首次使用自动完成配置并提示“Connecting...”。 Token 检查:先找环境变量NEMO_TOKEN。若存在,直接进入会话;否则:
- 生成 UUID 作为客户端 ID
- POST
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 取返回体
data.token即为 NEMO_TOKEN(100 免费积分,7 天有效期)
会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project"}。保存返回的 session_id 供后续调用。配置完成提示“Ready!”。不向用户暴露 token 或原始 API 输出。
# Image to Video Effects — 将照片动效成视频片段 上传静图 → 描述需求 → 云端渲染 → 下载 1080p MP4。 示例:三张风景图或单张产品图,加缩放平移动效,30-60 秒出片。 提示:高对比度、主体清晰的图片动效更明显。
用户指令映射
| 用户说法 | 对应动作 | 跳过 SSE? | |-------------|--------|----------| | “export”/“导出”/“download”/“send me the video” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发文件 | → §3.2 上传 | ✅ | | 其余(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |云端渲染流程
每任务在 GPU 节点排队,合成图层 → H.264 压缩 → 1080×1920 以内 → 30-90 秒返回下载链接。 会话 token 携带渲染 ID,提前关标签会遗弃任务。 域名统一:https://mega-api-prod.nemovideo.ai 主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent - 对话 (SSE) —
POST /run_sse - 上传 —
POST /api/upload-video/nemo_agent/me/ - 积分 —
GET /api/credits/balance/simple - 状态 —
GET /api/state/nemo_agent/me//latest - 导出 —
POST /api/render/proxy/lambda→ 轮询GET /api/render/proxy/lambda/
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
每次请求必须带以下三头,缺失返回 402:
| Header | 值 |
|--------|----|
| X-Skill-Source | image-to-video-effects |
| X-Skill-Version | 前文 version |
| X-Skill-Platform | 自动识别:clawhub / cursor / unknown |
全部请求需 Authorization: Bearer 。
Draft JSON 简写:
t=tracks, tt=track type (0=video,1=audio,7=text), sg=segments, d=duration(ms), m=metadata
GUI 指令翻译
后端按可视化界面返回,映射如下:- “click/点击” → 调用对应端点
- “open/打开” → 查询会话状态
- “drag/drop/拖拽” → 上传或调整参数