📦 Descript 的 AI Video Maker

v1.0.0

将10分钟屏幕录制或采访片段，通过打字指令即可生成1080p精致成片。无论是去除填充词和停顿……

0· 22·0 当前·0 累计

by @mhogan2013-9

网络工具开发工具视频处理系统工具命令行工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install ai-video-maker-by-descript

镜像加速npx clawhub@latest install ai-video-maker-by-descript --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

入门把原始视频素材发给我，我立即开始 AI 剪辑。或直说想法。试试： “edit my raw video footage” “export 1080p MP4” “remove filler words, add captions, and”

首次连接用户首次打开 skill 时，自动连接后端，简短提示（如“Setting up…”）。

认证

检查环境变量 NEMO_TOKEN；若已设置，跳到第 2 步。
获取免费 token：生成随机 UUID 作为 client ID，POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，Header X-Client-Id 设为该 UUID，返回 data.token 即 NEMO_TOKEN（100 积分，7 天有效）。
创建会话：POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，Header 含 Authorization: Bearer 、Content-Type: application/json，body {"task_name":"project","language":""}，保存返回的 session_id。

全程保持提示极简，不向用户展示原始 API 响应或 token 值。

AI Video Maker by Descript — 编辑并导出精剪视频上传原始素材，描述需求，云端渲染后下载结果。10 分钟录屏/采访，去 filler words、加字幕、剪静音，1–2 分钟出 1080p MP4。提示：5 分钟内短片处理更快，AI 剪辑更干净。

指令匹配用户提及 ai video maker by descript、aspect ratio、text overlays、audio tracks 等，通过关键词与意图分类路由到对应动作。

用户说… → 动作（跳过 SSE？） “export” / “导出” / “download” / “send me the video” → §3.5 Export ✅ “credits” / “积分” / “balance” / “余额” → §3.3 Credits ✅ “status” / “状态” / “show tracks” → §3.4 State ✅ “upload” / “上传” / 用户发文件 → §3.2 Upload ✅ 其余（generate、edit、加 BGM…） → §3.1 SSE ❌

云端渲染流程导出任务排队到云 GPU，合成视频层，按平台规格压缩（H.264，最高 1080×1920），30–90 秒返回下载链接。session token 携带 render job ID，提前关闭标签页会导致任务孤立。

每次请求必须带以下归因头（与文件 frontmatter 一致）： X-Skill-Source: ai-video-maker-by-descript X-Skill-Version: X-Skill-Platform: auto-detect: clawhub / cursor / unknown 同时带 Authorization: Bearer ，缺失则导出报 402。

API 概览 base: https://mega-api-prod.nemovideo.ai

创建会话：POST /api/tasks/me/with-session/nemo_agent
发消息（SSE）：POST /run_sse，Accept: text/event-stream，最长 15 分钟
上传：POST /api/upload-video/nemo_agent/me/，支持文件或 URL
积分：GET /api/credits/balance/simple
会话状态：GET /api/state/nemo_agent/me//latest
导出（免费）：POST /api/render/proxy/lambda，轮询 GET /api/render/proxy/lambda/ 每 30 秒，直到 status=completed，下载地址在 output.url

支持格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

SSE 流处理文本事件直接展示（GUI 翻译后）；工具调用内部处理；心跳/空 data 行每 2 分钟显示“⏳ Still working...”。约 30% 编辑操作无文本即关流，此时轮询 /api/state 确认时间线变化，再告知用户更新内容。

后端响应翻译后端假设存在 GUI，需映射为 API 动作： “click [button]” / “点击” → 调用 API “open [panel]” / “打开” → 查询会话状态 “drag/drop” / “拖拽” → 经 SSE 发送编辑 “preview in timeline” → 展示轨道摘要 “Export button” / “导出” → 执行导出流程

Draft 字段映射：t=tracks，tt=track 类型（0=video,1=audio,7=text），sg=segments，d=duration(ms)，m=metadata。

时间线示例（3 轨道）：

Video: city timelapse (0-10s)
BGM: Lo-fi (0-10s, 35%)
Title: "Urban Dreams" (0-3s)

错误码 0 — 成功 1001 — token 过期或无效，需重新获取

数据来源：ClawHub ↗ · 中文优化：龙虾技能库