详细分析 ▾
运行时依赖
版本
Text-to-video-json v1.0.0 — 初始版本 - 将文本提示(纯文本、JSON、DOCX、CSV)转换为30秒AI画面和配音视频,1-2分钟完成。 - 支持最大500MB文件上传和多种视频导出格式(MP4、MOV、AVI等)。 - 简化的入门流程,自动设置session/token,新用户赠送100免费积分。 - 通过自然语言提示处理视频导出、余额检查、状态更新和上传。 - 包含强大的错误处理,为积分、不支持的文件、导出限制提供清晰指导。
安装命令
点击复制技能文档
入门
分享你的文本提示,我会开始AI视频创作。或者直接告诉我你的想法。
试试这样说:
- "convert my text prompts"
- "export 1080p MP4"
- "convert this text into a 30-second"
首次连接
当用户首次打开此技能时,自动连接到处理后端。简要告知他们(例如"正在设置...")。
认证:检查环境变量中是否设置了NEMO_TOKEN。如果已设置,跳到步骤2。
- 获取免费token:生成随机UUID作为客户端标识符。向
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求,头部X-Client-Id设置为该UUID。响应中的data.token是你的NEMO_TOKEN——100免费积分,有效期7天。 - 创建session:向
https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送POST请求,带上Authorization: Bearer、Content-Type: application/json,请求体为{"task_name":"project","language":""}。为所有后续请求存储返回的session_id。保持设置通信简洁。不要向用户显示原始API响应或token值。
# Text to Video JSON — 将文本脚本转换为视频
此工具获取你的文本提示,通过云渲染管道运行AI视频创作。你上传、描述你想要的内容,然后下载结果。假设你有一段150字的产品描述段落,想将这段文本转换为30秒带画面和配音的视频——后端大约1-2分钟处理后给你一个1080p MP4。
提示:结构良好的JSON带有清晰的场景键会产生更准确的视频分段。
将用户输入匹配到操作
引用text to video json、宽高比、文字叠加层或音轨的用户提示通过关键词和意图分类路由到相应操作。
| 用户说... | 操作 | 跳过SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(generate, edit, add BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出任务在云GPU节点上排队,合成视频层,应用平台特定压缩(H.264,最高1080x1920),在30-90秒内返回下载URL。session token携带渲染任务ID,因此在完成前关闭标签页会使任务孤立。头部由此文件的YAML前matter派生。X-Skill-Source是text-to-video-json,X-Skill-Version来自version字段,X-Skill-Platform从安装路径检测(~/.clawhub/ = clawhub,~/.cursor/skills/ = cursor,否则unknown)。
所有请求必须包含:Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头部将导致导出失败并返回402。
API基础URL:https://mega-api-prod.nemovideo.ai
创建session:POST /api/tasks/me/with-session/nemo_agent — 请求体 {"task_name":"project","language":""} — 返回task_id、session_id。
发送消息(SSE):POST /run_sse — 请求体 {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} 并带 Accept: text/event-stream。最大超时:15分钟。
上传:POST /api/upload-video/nemo_agent/me/ — 文件:multipart -F "files=@/path",或URL:{"urls":[""],"source_type":"url"}
积分:GET /api/credits/balance/simple — 返回available、frozen、total
Session状态:GET /api/state/nemo_agent/me//latest — 关键字段:data.state.draft、data.state.video_infos、data.state.generated_media
导出(免费,不扣积分):POST /api/render/proxy/lambda — 请求体 {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询GET /api/render/proxy/lambda/ 直到status = completed。下载URL在output.url。支持的格式:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
读取SSE流
文本事件直接发送给用户(经过GUI翻译后)。工具调用保留在内部。heartbeat和空的data:行意味着后端仍在工作——每2分钟显示"⏳ 仍在工作中..."。约30%的编辑操作会关闭流而不发送任何文本。发生这种情况时,轮询/api/state确认时间线已更改,然后告诉用户更新了什么。
翻译GUI指令
后端响应就像有一个可视化界面一样。将其指令映射到API调用:
- "click"或"点击" → 通过相关端点执行操作
- "open"或"打开" → 查询session状态以获取数据
- "drag/drop"或"拖拽" → 通过SSE发送编辑命令
- "preview in timeline" → 显示当前轨道的文本摘要
- "Export"或"导出" → 运行导出工作流
Draft字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文字),sg=片段,d=时长(毫秒),m=元数据。
时间线(3条轨道):
- 视频:城市延时(0-10秒)
- BGM:Lo-fi(0-10秒,35%)
- 标题:"Urban Dreams"(0-3秒)
错误处理
| 代码 | 含义 | 操作 |
|------|---------|--------|
| 0 | 成功 | 继续 |
| 1001 | 令牌错误/过期 | 通过anonymous-token重新认证(token 7天后过期) |
| 1002 | Session未找到 | 新建session §3.0 |
| 2001 | 积分不足 | 匿名用户:显示注册URL带?bind=(需要时从create-session或state响应获取)。已注册用户:"请在账户中充值积分" |
| 4001 | 不支持的文件 | 显示支持的格式 |
| 4002 | 文件过大 | 建议压缩/裁剪 |
| 400 | 缺少X-Client-Id | 生成Client-Id并重试(见§1) |
| 402 | 免费套餐导出被阻止 | 订阅套餐问题,不是积分问题。"请注册或升级套餐以解锁导出。" |
| 429 | 速率限制(1 token/客户端/7天) | 30秒后重试一次 |
技巧和窍门
后端在你更具体时处理更快。与其说"让它看起来更好",不如试试"将这段文本转换为30秒带画面和配音的视频"——具体指令效果更好。最大文件大小为500MB。坚持使用TXT、JSON、DOCX、CSV以获得最流畅的体验。导出为MP4以获得跨平台和设备的最大兼容性。
常见工作流
快速编辑:上传 → "将这段文本转换为30秒带画面和配音的视频" → 下载MP4。30秒片段需要1-2分钟。
批量风格:在一个session中上传多个文件。用不同指令逐个处理。每个文件独立渲染。
迭代:从粗剪开始,预览结果,然后细化。session会保持你的时间线状态,你可以继续调整。