Image To Generator — 图像生成器

v1.0.0

使用此技能可以将静态图像生成为动画视频片段。支持JPG、PNG、WEBP、HEIC文件，最大200MB。社交媒体创作者使用它将静态图像转换为社交媒体帖子的视频——在云GPU上处理需要30-60秒，输出为1080p MP4文件。

0· 0·0 当前·0 累计

by @linmillsd7·MIT-0

开发工具代码生成网络工具浏览器自动化文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install image-to-generator

镜像加速npx clawhub@latest install image-to-generator --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

开始使用还没有开始使用？发送图片给我并告诉我您需要什么——我将处理AI视频创建。尝试说：“生成三个产品照片在JPG格式到1080p MP4”、“将这些图像转换为短视频，平滑过渡和背景音乐”、“为社交媒体创作者从静态图像生成视频”。快速开始设置本技能连接到云处理后端。在第一次使用时，自动设置连接并通知用户（“连接中...”）。令牌检查：在环境中查找NEMO_TOKEN。如果找到，则跳转到会话创建。否则：生成UUID作为客户端标识符，POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，带有X-Client-Id头部，提取响应中的数据令牌——这是您的NEMO_TOKEN（100免费积分，7天过期）。会话：POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，带有Bearer身份验证和正文{"task_name":"project"}。保留返回的会话ID用于所有操作。当设置完成时，通知用户“准备就绪！”。不要暴露令牌或原始API输出。图像到视频生成器——将图像转换为视频片段发送您的静态图像给我并描述您想要的结果。AI视频创建在远程GPU节点上运行——无需在您的机器上安装任何内容。一个快速示例：上传三个产品照片在JPG格式，输入“将这些图像转换为短视频，平滑过渡和背景音乐”，您将在大约30-60秒内获得1080p MP4。所有渲染都发生在服务器端。值得注意的是，使用少于五张图像可以显著加快渲染速度。匹配输入到操作用户提示引用图像到生成器、长宽比、文本叠加或音频轨道通过关键字和意图分类路由到相应的操作。用户说... 操作跳过SSE？ “导出”/“export”/“download”/“send me the video” → §3.5 导出 “credits”/“积分”/“balance”/“余额” → §3.3 积分 “status”/“状态”/“show tracks” → §3.4 状态 “upload”/“上传”/用户发送文件 → §3.2 上传其他所有内容（generate、edit、add BGM...）→ §3.1 SSE 云渲染管道详细信息每个导出作业在云GPU节点上排队，合成视频层，应用平台规格压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成之前关闭选项卡会使作业成为孤儿。所有调用都发送到https://mega-api-prod.nemovideo.ai。主要端点：会话 — POST /api/tasks/me/with-session/nemo_agent，带有{"task_name":"project","language":""}}。给您一个会话ID。聊天（SSE）— POST /run_sse，带有会话ID和您的消息在new_message.parts[0].text中。设置Accept：text/event-stream。最长15分钟。上传 — POST /api/upload-video/nemo_agent/me/，带有多部分文件或JSON URL。积分 — GET /api/credits/balance/simple，返回可用、冻结、总积分。状态 — GET /api/state/nemo_agent/me//latest，当前草稿和媒体信息。导出 — POST /api/render/proxy/lambda，带有渲染ID和草稿JSON。轮询GET /api/render/proxy/lambda/每30秒，完成状态和下载URL。格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。技能归属 — 从此文件的YAML前置内容读取运行时：X-Skill-Source：image-to-generator，X-Skill-Version：从前置内容版本，X-Skill-Platform：从安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，否则未知）。在每个请求中包含Authorization：Bearer 和所有归属头部 — 省略它们会在导出时触发402。草稿字段映射：t=轨道，tt=轨道类型（0=视频，1=音频，7=文本），sg=段，d=持续时间（毫秒），m=元数据。时间线（3个轨道）：

视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题：“城市梦想”（0-3秒）

翻译GUI说明后端响应就像有一个可视化界面。将其说明映射到API调用： “点击”或“点击”→通过相关端点执行操作 “打开”或“打开”→查询会话状态以获取数据 “拖拽”或“拖拽”→通过SSE发送编辑命令 “预览时间线”→显示当前轨道的文本摘要 “导出”或“导出”→运行导出工作流 SSE事件处理事件操作文本响应应用GUI翻译（§4），呈现给用户工具调用/结果处理内部，不转发心跳/空数据：继续等待。每2分钟：“⏳仍在工作...” 流关闭处理最终响应大约30%的编辑操作在SSE流中返回没有文本。当这种情况发生时：轮询会话状态以验证编辑是否已应用，然后将更改总结给用户。错误代码 0 — 成功，正常继续 1001 — 令牌过期或无效；重新获取通过/api/auth/anonymous-token 1002 — 会话未找到；创建一个新会话 2001 — 积分不足；匿名用户获取注册链接，注册用户获取？bind=

数据来源：ClawHub ↗ · 中文优化：龙虾技能库