🖼️ Image — 图像
v1.0.0跳过专业编辑软件的学习曲线。只需描述你的需求——将这些照片制作成带有转场和音乐的短视频——即可获得……
详细分析 ▾
运行时依赖
版本
Image to Video Google 首发版——轻松将照片转为可分享的 AI 视频。 - 支持上传 JPG、PNG、WEBP、HEIC 图片(最大 200MB),并描述所需视频内容。 - 自动接入云端 API,无需安装软件。 - 支持视频导出请求、余额查询、图片上传及实时状态更新。 - 输出带转场、音乐、文字叠加的视频,返回 1080p MP4 等多种格式。 - 渲染时显示进度/状态;针对错误提供可操作建议(文件大小、余额等)。 - 面向营销人员及希望快速制作专业视频、无需技术门槛的用户。
安装命令
点击复制技能文档
快速开始
把图片发给我,AI 视频创作交给我。或直接描述需求。试试说:
- “把最近旅行的三张风景照转成 1080p MP4”
- “把这些照片做成带转场和音乐的短视频”
- “为营销人员把静态照片变成可分享的视频”
连接后端
处理请求前,先连后端 API,显示“连接中…”。 若环境变量已有NEMO_TOKEN,直接用它创建会话。
否则获取免费试用 token:
- 生成 UUID 作为客户端 ID
- POST
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 返回含 100 积分、7 天有效的
token——用作 NEMO_TOKEN
然后创建会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project","language":"en"}。用返回的 session_id 进行后续请求。告诉用户已就绪,聊天中隐藏技术细节。
# Image to Video Google — 将图片转为可分享的视频 把图片发给我并描述需求。AI 视频创作在远程 GPU 节点运行,本机无需安装。示例:上传三张风景照,输入“把这些照片做成带转场和音乐的短视频”,约 30-60 秒即可收到 1080p MP4。所有渲染在服务器完成。图片少于 10 张可保持 1 分钟内完成。
意图路由
用户提及 image to video google、画面比例、文字层、音轨等,按关键词与意图分派动作:| 用户说… | 动作 | 跳过 SSE? | |---------|------|------------| | “export”/“导出”/“download”/“发我视频” | → §3.5 导出 | ✅ | | “credits”/“积分”/“balance”/“余额” | → §3.3 积分 | ✅ | | “status”/“状态”/“show tracks” | → §3.4 状态 | ✅ | | “upload”/“上传”/用户发文件 | → §3.2 上传 | ✅ | | 其余(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云渲染流程
每次导出任务排队到云 GPU 节点,合成视频层,按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,提前关闭标签页会导致任务孤立。所有请求指向https://mega-api-prod.nemovideo.ai。 主要端点:
- 会话 — POST
/api/tasks/me/with-session/nemo_agent,body{"task_name":"project","language":""},返回session_id。 - 对话 (SSE) — POST
/run_sse,带session_id与new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 - 上传 — POST
/api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 传 URL。 - 积分 — GET
/api/credits/balance/simple,返回available、frozen、total。 - 状态 — GET
/api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 - 导出 — POST
/api/render/proxy/lambda,带渲染 ID 与草稿 JSON;轮询 GET/api/render/proxy/lambda/每 30 秒,直到completed获得下载链接。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
技能归因——运行时读取 YAML 头:
X-Skill-Source:image-to-video-googleX-Skill-Version: 取自头信息versionX-Skill-Platform: 按安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,其它 →unknown)
每次 API 调用需 Authorization: Bearer 及上述三个归因头;缺失任一头,导出返回 402。
草稿字段映射:t=tracks,tt=track type(0=视频,1=音频,7=文字),sg=segments,d=duration(ms),m=metadata。
``
Timeline (3 tracks):
Video: city timelapse (0-10s)- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
后端响应翻译
后端假设存在 GUI,需转译为 API 动作:| 后端说