Voiceover Generator — 语音生成器

v1.0.0

准备好语音视频文件，发布时无需调整单个滑块。上传您的文本或脚本（MP4、MOV、TXT、DOCX，最高200MB），输入类似“ge...”的内容，

0· 0·0 当前·0 累计

by @whitejohnk-26

开发工具代码生成文档工具文件处理系统工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install voiceover-generator

镜像加速npx clawhub@latest install voiceover-generator --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

开始分享您的文本或脚本，我将开始生成AI语音。或者，只需告诉我您在想什么。尝试说：“生成我的文本或脚本”、“导出1080p MP4”、“生成一个自然听起来的语音在一个” 自动设置在第一次交互时，在做任何其他事情之前，连接到处理API。显示一个简短的状态，如“设置中...”。令牌：如果NEMO_TOKEN环境变量已经设置，使用它并跳转到会话下。免费令牌：生成一个UUID作为客户端标识符，然后将其发布到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，头部为X-Client-Id：。响应字段data.token成为您的NEMO_TOKEN（100积分，7天过期）。会话：将POST发送到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，带有Bearer身份验证和正文{"task_name":"project"}。从响应中保存session_id。确认用户已连接并准备就绪。不要打印令牌或原始JSON。语音生成器——生成AI语音该工具获取您的文本或脚本，并通过云渲染管道运行AI语音生成。您上传，描述您想要的内容，然后下载结果。假设您有一个200字的产品描述脚本，并希望生成一个自然听起来的语音在一个女性英语语音中——后端处理大约需要20-40秒，并提供一个1080p MP4。提示：少于150字的脚本可以产生最自然听起来的结果。输入与操作的匹配用户提示引用语音生成器、长宽比、文本覆盖或音频轨道，通过关键字和意图分类路由到相应的操作。用户说... 操作跳过SSE？ “导出”/“导出”/“下载”/“发送给我视频”→ §3.5导出 “积分”/“积分”/“余额”/“余额”→ §3.3积分 “状态”/“状态”/“显示轨道”→ §3.4状态 “上传”/“上传”/用户发送文件→ §3.2上传其他所有内容（生成、编辑、添加BGM...）→ §3.1 SSE 云渲染管道详细信息每个导出作业在云GPU节点上排队，合成视频层，应用平台规格压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成之前关闭选项卡会使作业成为孤儿。技能归属——从此文件的YAML前置内容中读取： X-Skill-Source：voiceover-generator X-Skill-Version：来自前置内容版本 X-Skill-Platform：从安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，否则未知）每个API调用都需要Authorization：Bearer 加上上述三个归属头。如果缺少任何头，导出将返回402。 API基地址：https://mega-api-prod.nemovideo.ai 创建会话：POST /api/tasks/me/with-session/nemo_agent —正文{"task_name":"project","language":""} —返回task_id，session_id。发送消息（SSE）：POST /run_sse —正文{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}}，Accept：text/event-stream。最大超时：15分钟。上传：POST /api/upload-video/nemo_agent/me/ —文件：multipart -F "files=@/path"，或URL：{"urls":[""],"source_type":"url"}。积分：GET /api/credits/balance/simple —返回可用、冻结、总计。会话状态：GET /api/state/nemo_agent/me//latest —关键字段：data.state.draft，data.state.video_infos，data.state.generated_media。导出（免费，无需积分）：POST /api/render/proxy/lambda —正文{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询GET /api/render/proxy/lambda/，直到状态=完成。下载URL在output.url中。支持的格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 SSE事件处理事件操作文本响应应用GUI翻译（§4），呈现给用户工具调用/结果处理内部，不转发心跳/空数据：继续等待。每2分钟：“⏳仍在工作...” 流关闭处理最终响应大约30%的编辑操作不会在SSE流中返回文本。当这种情况发生时：轮询会话状态以验证编辑是否已应用，然后将更改总结给用户。后端响应翻译后端假设存在GUI。将以下内容翻译为API操作：后端说您执行“点击[按钮]”/“点击” 通过API执行“打开[面板]”/“打开” 查询会话状态 “拖拽”/“拖拽” 通过SSE发送编辑 “预览在时间轴中” 显示轨道摘要 “导出按钮”/“导出” 执行导出工作流草稿JSON使用短键： t用于轨道， tt用于轨道类型（0=视频，1=音频，7=文本）， sg用于段， d用于持续时间（毫秒）， m用于元数据。时间轴摘要示例：时间轴（3个轨道）：

视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题：“城市梦”（0-3秒）

错误代码 0 —成功，正常继续 1001 —令牌过期或无效；通过/api/auth/anonymous-token重新获取 1002 —会话未找到；创建一个新会话

数据来源：ClawHub ↗ · 中文优化：龙虾技能库