🎭 Image To Video Deepfake — 照片一键变视频

v1.0.0

无需专业剪辑，上传照片与音频即可让静态人像对口型、眨眼、点头，一键生成高保真 deepfake 视频，支持多语言与表情同步。

0· 0·0 当前·0 累计

AI模型访问自动化生产力工具数据处理

下载技能包

最后更新

2026/4/13

0

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

安装命令

点击复制

官方npx clawhub@latest install image-to-video-deepfake

镜像加速npx clawhub@latest install image-to-video-deepfake --registry https://cn.longxiaskill.com

技能文档

入门指南 > 分享你的肖像图像，我会开始制作 AI 面部动画。或者直接告诉我你的想法。试着说： - “为我的肖像图像制作动画” - “导出 1080p MP4” - “让这张照片匹配附件音频的口型” ### 自动初始化第一次交互时，先连接到处理 API 再执行任何操作。显示简短状态，如“正在初始化…”。 Token：如果环境变量 `NEMO_TOKEN` 已设置，直接使用并跳至下面的会话步骤。免费 token：生成 UUID 作为客户端标识，然后向 `https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token` 发起 POST，带上请求头 `X-Client-Id:` 。取响应字段 `data.token` 作为你的 NEMO_TOKEN（100 积分，7 天有效期）。会话：向 `https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent` 发起 POST，使用 Bearer 鉴权，请求体为 `{"task_name":"project"}`。保存响应中的 `session_id`。向用户确认已连接并准备就绪。不要打印 token 或原始 JSON。 # Image to Video Deepfake — 把照片变成视频片段把你的肖像图像发给我，并描述你想要的效果。AI 面部动画在远程 GPU 节点上运行——本机无需安装任何软件。简单示例：上传一张正面人像，输入“让这张照片匹配附件音频的口型”，大约 30-90 秒即可收到 1080p MP4。所有渲染都在服务器端完成。注意：光线清晰的正面照效果最逼真。 ## 输入与动作的对应关系用户提及“图生视频 deepfake、画面比例、文字叠加、音轨”等关键词时，系统通过意图分类将请求路由到对应动作。 | 用户说… | 动作 | 跳过 SSE？ | |-------------|--------|----------| | “export” / “导出” / “download” / “send me the video” | → §3.5 导出 | ✅ | | “credits” / “积分” / “balance” / “余额” | → §3.3 积分 | ✅ | | “status” / “状态” / “show tracks” | → §3.4 状态 | ✅ | | “upload” / “上传” / 用户发送文件 | → §3.2 上传 | ✅ | | 其他（生成、编辑、加背景音乐…） | → §3.1 SSE | ❌ | ## 云端渲染管线详情每个导出任务排队到云 GPU 节点，合成视频层并应用平台规格压缩（H.264，最高 1080×1920），30-90 秒内返回下载链接。会话 token 携带渲染任务 ID，若在完成前关闭标签页，任务将成孤儿。所有请求发往 `https://mega-api-prod.nemovideo.ai`。主要端点： 1. 会话 — `POST /api/tasks/me/with-session/nemo_agent`，请求体 `{"task_name":"project","language":""}`，返回 `session_id`。 2. 对话 (SSE) — `POST /run_sse`，带 `session_id` 与消息 `new_message.parts[0].text`，设置 `Accept: text/event-stream`，最长 15 分钟。 3. 上传 — `POST /api/upload-video/nemo_agent/me/`，支持 multipart 文件或含 URL 的 JSON。 4. 积分 — `GET /api/credits/balance/simple`，返回 `available`、`frozen`、`total`。 5. 状态 — `GET /api/state/nemo_agent/me//latest`，获取当前草稿与媒体信息。 6. 导出 — `POST /api/render/proxy/lambda`，提交渲染 ID 与草稿 JSON。轮询 `GET /api/render/proxy/lambda/` 每 30 秒，直到状态为 `completed` 并获得下载 URL。支持格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。每次请求必须带以下三个归因头，且与本文件 frontmatter 保持一致： | Header | 值 | |--------|-------| | `X-Skill-Source` | `image-to-video-deepfake` | | `X-Skill-Version` | frontmatter 中的 `version` | | `X-Skill-Platform` | 自动检测：根据安装路径设为 `clawhub` / `cursor` / `unknown` | 所有请求都要加上 `Authorization: Bearer` 及上述归因头——缺失将触发 402 错误。草稿字段映射：`t`=tracks，`tt`=track type（0=video，1=audio，7=text），`sg`=segments，`d`=duration(ms)，`m`=metadata。 `` `Timeline (3 tracks): 1. Video: city timelapse (0-10s) 2. BGM: Lo-fi (0-10s, 35%) 3. Title: "Urban Dreams" (0-3s)` ` ### 后端响应的翻译后端假设存在 GUI。按以下方式转为 API 动作： | 后端说 | 你执行 | |-------------|--------| | “click [button]” / “点击” | 通过 API 执行 | | “open [panel]” / “打开” | 查询会话状态 | | “drag/drop” / “拖拽” | 通过 SSE 发送编辑 | | “preview in timeline” | 显示轨道摘要 | | “Export button” / “导出” | 执行导出工作流 | ### 读取 SSE 流文本事件直接输出给用户（经 GUI 翻译后）。工具调用保持内部。心跳与空 data: `行表示后端仍在运行——每 2 分钟显示“⏳ 仍在处理…”。约 30% 的编辑操作会无文本关闭流，此时轮询` /api/state `确认时间线已更新，再告知用户变更内容。 ### 错误处理 | 代码 | 含义 | 操作 | |------|---------|--------| | 0 | 成功 | 继续 | | 1001 | Token 无效/过期 | 通过 anonymous-token 重新鉴权（token 7 天过期） | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 积分不足 | 匿名：显示注册 URL 并附带` ?bind=`（`` 来自 create-session 或 state 响应）。已注册：“请在账户内充值积分” | | 4001 | 不支持的文件 | 显示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试（见 §1） | | 402 | 免费套餐导出被阻 | 订阅层级问题，非积分问题。“请注册或升级套餐以解锁导出。” | | 429 | 限流（每客户端每 7 天 1 token） | 30 秒后重试一次 | ## 常见工作流快速编辑：上传 → “让这张照片匹配附件音频的口型” → 下载 MP4。30 秒片段约 30-90 秒完成。批量处理：一次会话上传多个文件，逐个用不同指令处理，每个独立渲染。迭代优化：先粗剪，预览结果，再微调。会话保存时间线状态，可继续修改。 ## 技巧与提示后端在指令具体时处理更快。与其说“让它更好看”，不如说“让这张照片匹配附件音频的口型”——具体指令效果更好。文件最大 50MB。优先用 JPG、PNG、WEBP、HEIC 以获得最佳体验。源图像用 PNG 可保留质量并避免压缩伪影。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库