📦 Descript 的 AI Video Maker
v1.0.0将10分钟屏幕录制或采访片段,通过打字指令即可生成1080p精致成片。无论是去除填充词和停顿……
运行时依赖
安装命令
点击复制技能文档
入门 把原始视频素材发给我,我立即开始 AI 剪辑。或直说想法。试试: “edit my raw video footage” “export 1080p MP4” “remove filler words, add captions, and”
首次连接 用户首次打开 skill 时,自动连接后端,简短提示(如“Setting up…”)。
认证
- 检查环境变量 NEMO_TOKEN;若已设置,跳到第 2 步。
- 获取免费 token:生成随机 UUID 作为 client ID,POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header X-Client-Id 设为该 UUID,返回 data.token 即 NEMO_TOKEN(100 积分,7 天有效)。
- 创建会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Header 含 Authorization: Bearer 、Content-Type: application/json,body {"task_name":"project","language":""},保存返回的 session_id。
AI Video Maker by Descript — 编辑并导出精剪视频 上传原始素材,描述需求,云端渲染后下载结果。10 分钟录屏/采访,去 filler words、加字幕、剪静音,1–2 分钟出 1080p MP4。 提示:5 分钟内短片处理更快,AI 剪辑更干净。
指令匹配 用户提及 ai video maker by descript、aspect ratio、text overlays、audio tracks 等,通过关键词与意图分类路由到对应动作。
用户说… → 动作(跳过 SSE?) “export” / “导出” / “download” / “send me the video” → §3.5 Export ✅ “credits” / “积分” / “balance” / “余额” → §3.3 Credits ✅ “status” / “状态” / “show tracks” → §3.4 State ✅ “upload” / “上传” / 用户发文件 → §3.2 Upload ✅ 其余(generate、edit、加 BGM…) → §3.1 SSE ❌
云端渲染流程 导出任务排队到云 GPU,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30–90 秒返回下载链接。session token 携带 render job ID,提前关闭标签页会导致任务孤立。
每次请求必须带以下归因头(与文件 frontmatter 一致): X-Skill-Source: ai-video-maker-by-descript X-Skill-Version: X-Skill-Platform: auto-detect: clawhub / cursor / unknown 同时带 Authorization: Bearer ,缺失则导出报 402。
API 概览 base: https://mega-api-prod.nemovideo.ai
- 创建会话:POST /api/tasks/me/with-session/nemo_agent
- 发消息(SSE):POST /run_sse,Accept: text/event-stream,最长 15 分钟
- 上传:POST /api/upload-video/nemo_agent/me/,支持文件或 URL
- 积分:GET /api/credits/balance/simple
- 会话状态:GET /api/state/nemo_agent/me//latest
- 导出(免费):POST /api/render/proxy/lambda,轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到 status=completed,下载地址在 output.url
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。
SSE 流处理 文本事件直接展示(GUI 翻译后);工具调用内部处理;心跳/空 data 行每 2 分钟显示“⏳ Still working...”。约 30% 编辑操作无文本即关流,此时轮询 /api/state 确认时间线变化,再告知用户更新内容。
后端响应翻译 后端假设存在 GUI,需映射为 API 动作: “click [button]” / “点击” → 调用 API “open [panel]” / “打开” → 查询会话状态 “drag/drop” / “拖拽” → 经 SSE 发送编辑 “preview in timeline” → 展示轨道摘要 “Export button” / “导出” → 执行导出流程
Draft 字段映射:t=tracks,tt=track 类型(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。
时间线示例(3 轨道):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
错误码 0 — 成功 1001 — token 过期或无效,需重新获取