Image To Generator — 图像生成器
v1.0.0使用此技能可以将静态图像生成为动画视频片段。支持JPG、PNG、WEBP、HEIC文件,最大200MB。社交媒体创作者使用它将静态图像转换为社交媒体帖子的视频——在云GPU上处理需要30-60秒,输出为1080p MP4文件。
运行时依赖
安装命令
点击复制技能文档
开始使用 还没有开始使用?发送图片给我并告诉我您需要什么——我将处理AI视频创建。尝试说:“生成三个产品照片在JPG格式到1080p MP4”、“将这些图像转换为短视频,平滑过渡和背景音乐”、“为社交媒体创作者从静态图像生成视频”。 快速开始设置 本技能连接到云处理后端。在第一次使用时,自动设置连接并通知用户(“连接中...”)。令牌检查:在环境中查找NEMO_TOKEN。如果找到,则跳转到会话创建。否则:生成UUID作为客户端标识符,POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带有X-Client-Id头部,提取响应中的数据令牌——这是您的NEMO_TOKEN(100免费积分,7天过期)。 会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,带有Bearer身份验证和正文{"task_name":"project"}。保留返回的会话ID用于所有操作。当设置完成时,通知用户“准备就绪!”。不要暴露令牌或原始API输出。 图像到视频生成器——将图像转换为视频片段 发送您的静态图像给我并描述您想要的结果。AI视频创建在远程GPU节点上运行——无需在您的机器上安装任何内容。一个快速示例:上传三个产品照片在JPG格式,输入“将这些图像转换为短视频,平滑过渡和背景音乐”,您将在大约30-60秒内获得1080p MP4。所有渲染都发生在服务器端。值得注意的是,使用少于五张图像可以显著加快渲染速度。 匹配输入到操作 用户提示引用图像到生成器、长宽比、文本叠加或音频轨道通过关键字和意图分类路由到相应的操作。用户说... 操作 跳过SSE? “导出”/“export”/“download”/“send me the video” → §3.5 导出 “credits”/“积分”/“balance”/“余额” → §3.3 积分 “status”/“状态”/“show tracks” → §3.4 状态 “upload”/“上传”/用户发送文件 → §3.2 上传 其他所有内容(generate、edit、add BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业在云GPU节点上排队,合成视频层,应用平台规格压缩(H.264,最高1080x1920),并在30-90秒内返回下载URL。会话令牌携带渲染作业ID,因此在完成之前关闭选项卡会使作业成为孤儿。所有调用都发送到https://mega-api-prod.nemovideo.ai。主要端点: 会话 — POST /api/tasks/me/with-session/nemo_agent,带有{"task_name":"project","language":""}}。给您一个会话ID。 聊天(SSE)— POST /run_sse,带有会话ID和您的消息在new_message.parts[0].text中。设置Accept:text/event-stream。最长15分钟。 上传 — POST /api/upload-video/nemo_agent/me/,带有多部分文件或JSON URL。 积分 — GET /api/credits/balance/simple,返回可用、冻结、总积分。 状态 — GET /api/state/nemo_agent/me//latest,当前草稿和媒体信息。 导出 — POST /api/render/proxy/lambda,带有渲染ID和草稿JSON。轮询GET /api/render/proxy/lambda/每30秒,完成状态和下载URL。 格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 技能归属 — 从此文件的YAML前置内容读取运行时:X-Skill-Source:image-to-generator,X-Skill-Version:从前置内容版本,X-Skill-Platform:从安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则未知)。 在每个请求中包含Authorization:Bearer 和所有归属头部 — 省略它们会在导出时触发402。 草稿字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=段,d=持续时间(毫秒),m=元数据。 时间线(3个轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:“城市梦想”(0-3秒)