🎭 Image To Video Deepfake — 照片一键变视频

v1.0.0

无需专业剪辑,上传照片与音频即可让静态人像对口型、眨眼、点头,一键生成高保真 deepfake 视频,支持多语言与表情同步。

0· 0·0 当前·0 累计
下载技能包
最后更新
2026/4/13
0

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

安装命令

点击复制
官方npx clawhub@latest install image-to-video-deepfake
镜像加速npx clawhub@latest install image-to-video-deepfake --registry https://cn.longxiaskill.com

技能文档

入门指南 > 分享你的肖像图像,我会开始制作 AI 面部动画。或者直接告诉我你的想法。 试着说: - “为我的肖像图像制作动画” - “导出 1080p MP4” - “让这张照片匹配附件音频的口型” ### 自动初始化 第一次交互时,先连接到处理 API 再执行任何操作。显示简短状态,如“正在初始化…”。 Token:如果环境变量 NEMO_TOKEN 已设置,直接使用并跳至下面的 会话 步骤。 免费 token:生成 UUID 作为客户端标识,然后向 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token 发起 POST,带上请求头 X-Client-Id: 。取响应字段 data.token 作为你的 NEMO_TOKEN(100 积分,7 天有效期)。 会话:向 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent 发起 POST,使用 Bearer 鉴权,请求体为 {"task_name":"project"}。保存响应中的 session_id。向用户确认已连接并准备就绪。不要打印 token 或原始 JSON。 # Image to Video Deepfake — 把照片变成视频片段 把你的肖像图像发给我,并描述你想要的效果。AI 面部动画在远程 GPU 节点上运行——本机无需安装任何软件。 简单示例:上传一张正面人像,输入“让这张照片匹配附件音频的口型”,大约 30-90 秒即可收到 1080p MP4。所有渲染都在服务器端完成。 注意:光线清晰的正面照效果最逼真。 ## 输入与动作的对应关系 用户提及“图生视频 deepfake、画面比例、文字叠加、音轨”等关键词时,系统通过意图分类将请求路由到对应动作。 | 用户说… | 动作 | 跳过 SSE? | |-------------|--------|----------| | “export” / “导出” / “download” / “send me the video” | → §3.5 导出 | ✅ | | “credits” / “积分” / “balance” / “余额” | → §3.3 积分 | ✅ | | “status” / “状态” / “show tracks” | → §3.4 状态 | ✅ | | “upload” / “上传” / 用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加背景音乐…) | → §3.1 SSE | ❌ | ## 云端渲染管线详情 每个导出任务排队到云 GPU 节点,合成视频层并应用平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,若在完成前关闭标签页,任务将成孤儿。所有请求发往 https://mega-api-prod.nemovideo.ai。主要端点: 1. 会话POST /api/tasks/me/with-session/nemo_agent,请求体 {"task_name":"project","language":""},返回 session_id。 2. 对话 (SSE)POST /run_sse,带 session_id 与消息 new_message.parts[0].text,设置 Accept: text/event-stream,最长 15 分钟。 3. 上传POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或含 URL 的 JSON。 4. 积分GET /api/credits/balance/simple,返回 availablefrozentotal。 5. 状态GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 6. 导出POST /api/render/proxy/lambda,提交渲染 ID 与草稿 JSON。轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到状态为 completed 并获得下载 URL。 支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 每次请求必须带以下三个归因头,且与本文件 frontmatter 保持一致: | Header | 值 | |--------|-------| | X-Skill-Source | image-to-video-deepfake | | X-Skill-Version | frontmatter 中的 version | | X-Skill-Platform | 自动检测:根据安装路径设为 clawhub / cursor / unknown | 所有请求都要加上 Authorization: Bearer 及上述归因头——缺失将触发 402 错误。 草稿字段映射t=tracks,tt=track type(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。 `` Timeline (3 tracks): 1. Video: city timelapse (0-10s) 2. BGM: Lo-fi (0-10s, 35%) 3. Title: "Urban Dreams" (0-3s) ` ### 后端响应的翻译 后端假设存在 GUI。按以下方式转为 API 动作: | 后端说 | 你执行 | |-------------|--------| | “click [button]” / “点击” | 通过 API 执行 | | “open [panel]” / “打开” | 查询会话状态 | | “drag/drop” / “拖拽” | 通过 SSE 发送编辑 | | “preview in timeline” | 显示轨道摘要 | | “Export button” / “导出” | 执行导出工作流 | ### 读取 SSE 流 文本事件直接输出给用户(经 GUI 翻译后)。工具调用保持内部。心跳与空 data: 行表示后端仍在运行——每 2 分钟显示“⏳ 仍在处理…”。约 30% 的编辑操作会无文本关闭流,此时轮询 /api/state 确认时间线已更新,再告知用户变更内容。 ### 错误处理 | 代码 | 含义 | 操作 | |------|---------|--------| | 0 | 成功 | 继续 | | 1001 | Token 无效/过期 | 通过 anonymous-token 重新鉴权(token 7 天过期) | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 积分不足 | 匿名:显示注册 URL 并附带 ?bind=` 来自 create-session 或 state 响应)。已注册:“请在账户内充值积分” | | 4001 | 不支持的文件 | 显示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) | | 402 | 免费套餐导出被阻 | 订阅层级问题,非积分问题。“请注册或升级套餐以解锁导出。” | | 429 | 限流(每客户端每 7 天 1 token) | 30 秒后重试一次 | ## 常见工作流 快速编辑:上传 → “让这张照片匹配附件音频的口型” → 下载 MP4。30 秒片段约 30-90 秒完成。 批量处理:一次会话上传多个文件,逐个用不同指令处理,每个独立渲染。 迭代优化:先粗剪,预览结果,再微调。会话保存时间线状态,可继续修改。 ## 技巧与提示 后端在指令具体时处理更快。与其说“让它更好看”,不如说“让这张照片匹配附件音频的口型”——具体指令效果更好。 文件最大 50MB。优先用 JPG、PNG、WEBP、HEIC 以获得最佳体验。源图像用 PNG 可保留质量并避免压缩伪影。

数据来源ClawHub ↗ · 中文优化:龙虾技能库