🖼️ Ai Image To Video Models — 图片转视频模型
v1.0.0通过远程 GPU 服务将静态产品图片或插画场景转换为 1080p 动画视频片段。用户只需上传图片并描述期望的视频效果,AI 即可在 30-90 秒内生成视频。无需本地安装,所有处理均在云端 GPU 节点完成。支持直接上传图片或通过描述性请求生成或转换各种视频格式(MP4、MOV、GIF 等)。
详细分析 ▾
运行时依赖
版本
- 「AI Image to Video Models」初始版本——在 30-90 秒内将单张图片转换为 1080p 动画视频片段。 - 自动设置:使用匿名 token(如需要)即时连接到远程视频处理 API 并建立会话。 - 支持直接图片上传和描述性请求,将图片动画化或转换为各种视频格式(MP4、MOV、GIF 等)。 - 云端 GPU 渲染管线;所有导出和编辑均在服务端处理,无需本地安装。 - 根据用户提示进行上传、导出、积分和时间线编辑的操作路由。 - 内置会话管理、积分、支持的格式和错误代码处理。
安装命令
点击复制技能文档
入门
发送您的静态图片,我会处理 AI 视频生成。或者只需描述您的需求。
请尝试说:
- "将单张产品图片或插画场景转换为 1080p MP4"
- "将这张图片动画化为 5 秒的流畅运动视频"
- "将静态图片转化为面向营销人员、社交媒体创作者、设计师的短动画视频"
自动设置
首次交互时,先连接到处理 API,然后再执行其他操作。显示简短状态如「正在设置...」。
Token:如果 NEMO_TOKEN 环境变量已设置,直接使用并跳到下面的会话。
免费 token:生成 UUID 作为客户端标识符,然后 POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,请求头为 X-Client-Id: 。响应字段 data.token 成为您的 NEMO_TOKEN(100 积分,7 天有效期)。
会话:POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,使用 Bearer 认证,请求体为 {"task_name":"project"}。保存响应中的 session_id。向用户确认已连接并准备就绪。不要打印 token 或原始 JSON。
# AI Image to Video Models — 将图片转换为视频片段
发送您的静态图片并描述您想要的结果。AI 视频生成在远程 GPU 节点上运行——无需在您的机器上安装任何东西。
一个快速示例:上传单张产品图片或插画场景,输入「将这张图片动画化为 5 秒的流畅运动视频」,您将在大约 30-90 秒后收到 1080p MP4。所有渲染都在服务端进行。
值得注意的是:高对比度且主体清晰的照片能产生最流畅的运动效果。
将用户输入匹配到操作
引用 ai image to video models、宽高比、文字叠加或音轨的用户提示会通过关键词和意图分类路由到相应的操作。
| 用户说... | 操作 | 跳过 SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(生成、编辑、添加 BGM…) | → §3.1 SSE | ❌ |
云端渲染管线详情
每个导出任务在云端 GPU 节点上排队,该节点合成视频层、应用平台特定压缩(H.264,最高 1080x1920),并在 30-90 秒内返回下载 URL。会话 token 携带渲染任务 ID,因此在完成前关闭标签页会使任务孤立。头部信息从此文件的 YAML frontmatter 派生。X-Skill-Source 是 ai-image-to-video-models,X-Skill-Version 来自 version 字段,X-Skill-Platform 从安装路径检测(~/.clawhub/ = clawhub,~/.cursor/skills/ = cursor,否则为 unknown)。
每个 API 调用都需要 Authorization: Bearer 加上上述三个归属头部。如果任何头部缺失,导出将返回 402。
API 基础 URL:https://mega-api-prod.nemovideo.ai
创建会话:POST /api/tasks/me/with-session/nemo_agent — 请求体 {"task_name":"project","language":""} — 返回 task_id、session_id。
发送消息(SSE):POST /run_sse — 请求体 {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},请求头 Accept: text/event-stream。最大超时:15 分钟。
上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或 URL:{"urls":[""],"source_type":"url"}
积分:GET /api/credits/balance/simple — 返回 available、frozen、total
会话状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft、data.state.video_infos、data.state.generated_media
导出(免费,不消耗积分):POST /api/render/proxy/lambda — 请求体 {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询 GET /api/render/proxy/lambda/ 直到 status = completed。下载 URL 在 output.url。支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
读取 SSE 流
文本事件直接发送给用户(经过 GUI 翻译后)。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每 2 分钟显示「⏳ 仍在处理中...」。约 30% 的编辑操作会关闭流而不发送任何文本。发生这种情况时,轮询 /api/state 确认时间线已更改,然后告诉用户更新了什么。
后端响应翻译
后端假设存在 GUI。将这些翻译成 API 操作:
| 后端说 | 您执行 |
|---|---|
| "click [button]" / "点击" | 通过 API 执行 |
| "open [panel]" / "打开" | 查询会话状态 |
| "drag/drop" / "拖拽" | 通过 SSE 发送编辑 |
| "preview in timeline" | 显示轨道摘要 |
| "Export button" / "导出" | 执行导出工作流 |
t 表示轨道,tt 表示轨道类型(0=视频,1=音频,7=文字),sg 表示片段,d 表示持续时间(毫秒),m 表示元数据。示例时间线摘要:
时间线(3 个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:「城市梦想」(0-3秒)
错误处理
| 代码 | 含义 | 操作 |
|---|---|---|
| 0 | 成功 | 继续 |
| 1001 | Token 无效/过期 | 通过 anonymous-token 重新认证(token 7 天后过期) |
| 1002 | 会话未找到 | 新建会话 §3.0 |
| 2001 | 积分不足 | 匿名用户:显示注册 URL 带 ?bind=(从创建会话或状态响应中获取 )。已注册用户:「请在您的账户中充值积分」 |
| 4001 | 不支持的文件 | 显示支持的格式 |
| 4002 | 文件太大 | 建议压缩/裁剪 |
| 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) |
| 402 | 免费计划导出被阻止 | 订阅等级问题,不是积分问题。「请注册或升级您的计划以解锁导出」。 |
| 429 | 速率限制(1 token/客户端/7 天) | 30 秒后重试一次 |
技巧和窍门
后端在您具体描述时处理更快。不要说「让它看起来更好」,而要说「将这张图片动画化为 5 秒的流畅运动视频」——具体的指令能得到更好的结果。
最大文件大小为 200MB。坚持使用 JPG、PNG、WEBP、HEIC 以获得最流畅的体验。背景干净的 PNG 图片能让 AI 生成更准确的运动。
常见工作流
快速编辑:上传 →「将这张图片动画化为 5 秒的流畅运动视频」→ 下载 MP4。30 秒片段需要 30-90 秒。
批量风格:在一个会话中上传多个文件。用不同的指令逐一处理。每个文件都有独立的渲染任务。
迭代:从粗剪开始,预览结果,然后细化。会话会保留您的时间线状态,让您可以继续调整。