运行时依赖
安装命令
点击复制技能文档
入门 把音频文件发给我,我来搞定 AI 视频生成。或者直接描述需求。 试试这样说: “把 45 分钟 MP3 播客转成 1080p MP4” “给播客音频加波形动画和字幕” “把播客音频做成可分享到 YouTube 或社交平台的视频”
快速设置 本技能连接云端处理后端。首次使用自动建立连接并提示“Connecting...”。 Token 检查:查找环境变量 NEMO_TOKEN。若存在,直接进入会话创建;否则:
- 生成 UUID 作为客户端标识
- POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带 X-Client-Id 头
- 从响应提取 data.token,即 NEMO_TOKEN(100 免费积分,7 天有效期)
会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project"}。保存返回的 session_id 供后续调用。 设置完成时提示“Ready!”。不暴露 token 或原始 API 输出。
播客转视频 — 把播客音频变成视频 把音频文件拖进聊天并告诉我需求。我将在云端 GPU 完成 AI 视频生成,本地无需安装。 典型流程:上传 45 分钟 MP3 播客 → 要求“加波形动画和字幕” → 约 1–3 分钟后可下载 1080p MP4。 提示:先剪出高光片段再上传,可提速并提升质量。
输入匹配动作 用户提及播客转视频、画幅、文字层、音轨时,通过关键词与意图分类路由: 用户说法 → 动作 → 跳过 SSE? “export/导出/download/发视频” → §3.5 导出 ✅ “credits/积分/balance/余额” → §3.3 积分 ✅ “status/状态/show tracks” → §3.4 状态 ✅ “upload/上传/发文件” → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…)→ §3.1 SSE ❌
云端渲染管线 每次导出任务在云端 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30–90 秒内返回下载链接。 会话 token 携带渲染任务 ID,关闭页面前未完成会导致任务孤儿。
每次请求必须带以下三端头,值与本文件 frontmatter 一致: Header Value X-Skill-Source podcast-to-video X-Skill-Version frontmatter version X-Skill-Platform 自动检测:clawhub/cursor/unknown
所有请求须含: Authorization: Bearer X-Skill-Source / X-Skill-Version / X-Skill-Platform 缺失将返回 402。
API 基址:https://mega-api-prod.nemovideo.ai 创建会话:POST /api/tasks/me/with-session/nemo_agent body {"task_name":"project","language":""} → 返回 task_id, session_id
SSE 发消息:POST /run_sse body {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} Accept: text/event-stream,最大 15 分钟
上传:POST /api/upload-video/nemo_agent/me/ 文件:multipart -F "files=@/path",或 URL:{"urls":[""],"source_type":"url"}
积分:GET /api/credits/balance/simple → 返回 available, frozen, total
会话状态:GET /api/state/nemo_agent/me//latest 关键字段:data.state.draft, data.state.video_infos, data.state.generated_media
导出(免费,不扣积分):POST /api/render/proxy/lambda body {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}} 轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到 status=completed,下载链接在 output.url
支持格式:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac
SSE 事件处理 事件 → 动作 文本响应 → 应用 GUI 翻译(§4) 并展示给用户 工具调用/结果 → 内部处理,不转发 heartbeat/空数据 → 保持等待,每 2 分钟提示“⏳ Still working...” 流关闭 → 处理最终响应
约 30% 编辑操作 SSE 无文本返回,此时轮询会话状态确认编辑生效,再向用户总结变更。
GUI 指令翻译 后端按可视化界面返回,需映射为 API 调用: “click/点击” → 调用对应端点 “open/打开” → 查询会话状态取数 “drag/drop/拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export/导出” → 执行导出流程
Draft JSON 简写:t=tracks, tt=track type (0=video,1=audio,7=字幕)