📦 播客转视频

v1.0.0

跳过专业编辑软件的学习曲线。只需描述你的需求——将我的播客音频转换为带有波形动画和字幕的视频……

0· 36·0 当前·0 累计

by @whitejohnk-26

网络工具开发工具视频处理音频处理教育学习

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install podcast-to-video

镜像加速npx clawhub@latest install podcast-to-video --registry https://cn.longxiaskill.com✓ 镜像可用

需要定制？告诉我你的需求 →

技能文档

入门把音频文件发给我，我来搞定 AI 视频生成。或者直接描述需求。试试这样说： “把 45 分钟 MP3 播客转成 1080p MP4” “给播客音频加波形动画和字幕” “把播客音频做成可分享到 YouTube 或社交平台的视频”

快速设置本技能连接云端处理后端。首次使用自动建立连接并提示“Connecting...”。 Token 检查：查找环境变量 NEMO_TOKEN。若存在，直接进入会话创建；否则：

生成 UUID 作为客户端标识
POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，带 X-Client-Id 头
从响应提取 data.token，即 NEMO_TOKEN（100 免费积分，7 天有效期）

会话：POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，Bearer 鉴权，body {"task_name":"project"}。保存返回的 session_id 供后续调用。设置完成时提示“Ready！”。不暴露 token 或原始 API 输出。

播客转视频 — 把播客音频变成视频把音频文件拖进聊天并告诉我需求。我将在云端 GPU 完成 AI 视频生成，本地无需安装。典型流程：上传 45 分钟 MP3 播客 → 要求“加波形动画和字幕” → 约 1–3 分钟后可下载 1080p MP4。提示：先剪出高光片段再上传，可提速并提升质量。

输入匹配动作用户提及播客转视频、画幅、文字层、音轨时，通过关键词与意图分类路由：用户说法 → 动作 → 跳过 SSE？ “export/导出/download/发视频” → §3.5 导出 ✅ “credits/积分/balance/余额” → §3.3 积分 ✅ “status/状态/show tracks” → §3.4 状态 ✅ “upload/上传/发文件” → §3.2 上传 ✅ 其余（生成、编辑、加 BGM…）→ §3.1 SSE ❌

云端渲染管线每次导出任务在云端 GPU 节点排队，合成视频层，按平台规格压缩（H.264，最高 1080×1920），30–90 秒内返回下载链接。会话 token 携带渲染任务 ID，关闭页面前未完成会导致任务孤儿。

每次请求必须带以下三端头，值与本文件 frontmatter 一致： Header Value X-Skill-Source podcast-to-video X-Skill-Version frontmatter version X-Skill-Platform 自动检测：clawhub/cursor/unknown

所有请求须含： Authorization: Bearer X-Skill-Source / X-Skill-Version / X-Skill-Platform 缺失将返回 402。

API 基址：https://mega-api-prod.nemovideo.ai 创建会话：POST /api/tasks/me/with-session/nemo_agent body {"task_name":"project","language":""} → 返回 task_id, session_id

SSE 发消息：POST /run_sse body {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} Accept: text/event-stream，最大 15 分钟

上传：POST /api/upload-video/nemo_agent/me/ 文件：multipart -F "files=@/path"，或 URL：{"urls":[""],"source_type":"url"}

积分：GET /api/credits/balance/simple → 返回 available, frozen, total

会话状态：GET /api/state/nemo_agent/me//latest 关键字段：data.state.draft, data.state.video_infos, data.state.generated_media

导出（免费，不扣积分）：POST /api/render/proxy/lambda body {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}} 轮询 GET /api/render/proxy/lambda/ 每 30 秒，直到 status=completed，下载链接在 output.url

支持格式：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac

SSE 事件处理事件 → 动作文本响应 → 应用 GUI 翻译(§4) 并展示给用户工具调用/结果 → 内部处理，不转发 heartbeat/空数据 → 保持等待，每 2 分钟提示“⏳ Still working...” 流关闭 → 处理最终响应

约 30% 编辑操作 SSE 无文本返回，此时轮询会话状态确认编辑生效，再向用户总结变更。

GUI 指令翻译后端按可视化界面返回，需映射为 API 调用： “click/点击” → 调用对应端点 “open/打开” → 查询会话状态取数 “drag/drop/拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export/导出” → 执行导出流程

Draft JSON 简写：t=tracks, tt=track type (0=video,1=audio,7=字幕)

数据来源：ClawHub ↗ · 中文优化：龙虾技能库