🎬 Text To Video Json — Text To Video JSON — 文字转视频

v1.0.0

跳过专业视频编辑软件的学习曲线。描述你的需求——将文本转换为30秒带画面和配音的视频——并在1-2分钟内获得渲染好的视频文件。支持上传TXT、JSON、DOCX、CSV文件（最大500MB），AI自动处理视频生成。适合希望自动化视频创作的开发者和内容创作者。

0· 29·0 当前·0 累计

by @tk8544-b·MIT-0

生产力工具

下载技能包

License

MIT-0

最后更新

2026/4/15

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的请求和运行时指令基本符合文本转视频服务的特征，但存在不一致性和需要谨慎对待的行为（自动生成/存储token以及任意文件上传指令），安装前需注意。

评估建议

该技能似乎实现了一个云端文本转视频工作流，只要求一个服务token（NEMO_TOKEN），这很合理——但在安装前请采取以下预防措施： - 验证后端域名（mega-api-prod.nemovideo.ai）和服务的信誉，发送任何敏感内容前请三思。上传的文件会被发送到该外部服务。 - 了解token处理方式：技能会接受用户提供的NEMO_TOKEN，或通过调用API本身创建匿名token。任何token/session都可能被持久化（SKILL.md前matter提到~/.config/nemovideo/）。请询问token/session_id的存储位置以及如何撤销/删除。 -除非信任该服务及其隐私政策，否则避免上传敏感或私人文件。指令明确允许从本地路径进行multipart上传；确保agent只上传你故意提供的文件。 -如需测试，优先使用临时或最小权限token，并在使用后删除任何存储的session/token。 -澄清元数据不一致：注册表元数据列出无需配置路径，而SKILL.md前matter引用了配置目录。请发布者确认具体会写入什么内容（如果有）。如果无法确认这些要点或不信...

详细分析 ▾

ℹ 用途与能力

名称/描述对应云端文本转视频服务，单个所需凭证（NEMO_TOKEN）符合该用途。然而，SKILL.md前matter声明了配置路径（~/.config/nemovideo/），而注册表元数据列出无需配置路径——这是内部不一致。如果NEMO_TOKEN不存在，该技能还会自动创建匿名token，这虽出于可用性考虑，但与仅要求用户提供凭证的模型不同。

⚠ 指令范围

运行时指令指示agent：联系外部API创建匿名token，存储session_id用于后续请求，以及上传文件（multipart表单含文件路径或URL上传）。上传用户指定的文件是预期行为，但指令允许发送文件路径（例如'-F "files=@/path"'），如果滥用可能导致窃取任意本地文件。'不要显示原始API响应或token值'的指导表明密钥有被处理，但session/token的持久化位置和方式未指定。总体而言，指令集授予agent创建token、持久化它们和读取本地文件的自由裁量权——这对该技能来说是正常的，但如果被滥用则影响重大。

✓ 安装机制

未包含安装步骤或代码（仅指令），因此安装程序不会写入磁盘，也没有包下载风险。

ℹ 凭证需求

仅NEMO_TOKEN声明为必需，且与所述服务相关。该技能能够自动请求匿名token，意味着它可以在没有预置密钥的情况下运行。元数据提及的配置路径表明该技能可能会将token或session数据持久化到磁盘（出于便利性考虑，但涉及隐私）。没有请求无关凭证。

ℹ 持久化与权限

always:false和自主调用是正常的。SKILL.md指示存储session_id（可能还有token）用于后续调用，前matter引用~/.config/nemovideo/，意味着它可能将状态持久化到磁盘。这种持久化对于长时间运行的云渲染session是合理的，但注册表元数据与SKILL.md的不一致含糊不清，应该澄清。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/15

Text-to-video-json v1.0.0 — 初始版本 - 将文本提示（纯文本、JSON、DOCX、CSV）转换为30秒AI画面和配音视频，1-2分钟完成。 - 支持最大500MB文件上传和多种视频导出格式（MP4、MOV、AVI等）。 - 简化的入门流程，自动设置session/token，新用户赠送100免费积分。 - 通过自然语言提示处理视频导出、余额检查、状态更新和上传。 - 包含强大的错误处理，为积分、不支持的文件、导出限制提供清晰指导。

● 无害

安装命令

点击复制

官方npx clawhub@latest install text-to-video-json

镜像加速npx clawhub@latest install text-to-video-json --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

入门

分享你的文本提示，我会开始AI视频创作。或者直接告诉我你的想法。

试试这样说：

"convert my text prompts"
"export 1080p MP4"
"convert this text into a 30-second"

首次连接

当用户首次打开此技能时，自动连接到处理后端。简要告知他们（例如"正在设置..."）。

认证：检查环境变量中是否设置了NEMO_TOKEN。如果已设置，跳到步骤2。

获取免费token：生成随机UUID作为客户端标识符。向https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求，头部X-Client-Id设置为该UUID。响应中的data.token是你的NEMO_TOKEN——100免费积分，有效期7天。
创建session：向https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送POST请求，带上Authorization: Bearer 、Content-Type: application/json，请求体为{"task_name":"project","language":""}。为所有后续请求存储返回的session_id。保持设置通信简洁。不要向用户显示原始API响应或token值。

# Text to Video JSON — 将文本脚本转换为视频

此工具获取你的文本提示，通过云渲染管道运行AI视频创作。你上传、描述你想要的内容，然后下载结果。假设你有一段150字的产品描述段落，想将这段文本转换为30秒带画面和配音的视频——后端大约1-2分钟处理后给你一个1080p MP4。

提示：结构良好的JSON带有清晰的场景键会产生更准确的视频分段。

将用户输入匹配到操作

引用text to video json、宽高比、文字叠加层或音轨的用户提示通过关键词和意图分类路由到相应操作。

用户说...	操作	跳过SSE？
"export" / "导出" / "download" / "send me the video"	→ §3.5 导出	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 积分	✅
"status" / "状态" / "show tracks"	→ §3.4 状态	✅
"upload" / "上传" / 用户发送文件	→ §3.2 上传	✅
其他一切（generate, edit, add BGM…）	→ §3.1 SSE	❌

云渲染管道详情

每个导出任务在云GPU节点上排队，合成视频层，应用平台特定压缩（H.264，最高1080x1920），在30-90秒内返回下载URL。session token携带渲染任务ID，因此在完成前关闭标签页会使任务孤立。头部由此文件的YAML前matter派生。X-Skill-Source是text-to-video-json，X-Skill-Version来自version字段，X-Skill-Platform从安装路径检测（~/.clawhub/ = clawhub，~/.cursor/skills/ = cursor，否则unknown）。

所有请求必须包含：Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头部将导致导出失败并返回402。

API基础URL：https://mega-api-prod.nemovideo.ai

创建session：POST /api/tasks/me/with-session/nemo_agent — 请求体 {"task_name":"project","language":""} — 返回task_id、session_id。

发送消息（SSE）：POST /run_sse — 请求体 {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} 并带 Accept: text/event-stream。最大超时：15分钟。

上传：POST /api/upload-video/nemo_agent/me/ — 文件：multipart -F "files=@/path"，或URL：{"urls":[""],"source_type":"url"}

积分：GET /api/credits/balance/simple — 返回available、frozen、total

Session状态：GET /api/state/nemo_agent/me//latest — 关键字段：data.state.draft、data.state.video_infos、data.state.generated_media

导出（免费，不扣积分）：POST /api/render/proxy/lambda — 请求体 {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询GET /api/render/proxy/lambda/ 直到status = completed。下载URL在output.url。支持的格式：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。

读取SSE流

文本事件直接发送给用户（经过GUI翻译后）。工具调用保留在内部。heartbeat和空的data:行意味着后端仍在工作——每2分钟显示"⏳ 仍在工作中..."。约30%的编辑操作会关闭流而不发送任何文本。发生这种情况时，轮询/api/state确认时间线已更改，然后告诉用户更新了什么。

翻译GUI指令

后端响应就像有一个可视化界面一样。将其指令映射到API调用：

"click"或"点击" → 通过相关端点执行操作
"open"或"打开" → 查询session状态以获取数据
"drag/drop"或"拖拽" → 通过SSE发送编辑命令
"preview in timeline" → 显示当前轨道的文本摘要
"Export"或"导出" → 运行导出工作流

Draft字段映射：t=轨道，tt=轨道类型（0=视频，1=音频，7=文字），sg=片段，d=时长(毫秒)，m=元数据。

时间线（3条轨道）：
视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题："Urban Dreams"（0-3秒）

错误处理

| 代码 | 含义 | 操作 | |------|---------|--------| | 0 | 成功 | 继续 | | 1001 | 令牌错误/过期 | 通过anonymous-token重新认证（token 7天后过期） | | 1002 | Session未找到 | 新建session §3.0 | | 2001 | 积分不足 | 匿名用户：显示注册URL带?bind=（需要时从create-session或state响应获取）。已注册用户："请在账户中充值积分" | | 4001 | 不支持的文件 | 显示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少X-Client-Id | 生成Client-Id并重试（见§1） | | 402 | 免费套餐导出被阻止 | 订阅套餐问题，不是积分问题。"请注册或升级套餐以解锁导出。" | | 429 | 速率限制（1 token/客户端/7天） | 30秒后重试一次 |

技巧和窍门

后端在你更具体时处理更快。与其说"让它看起来更好"，不如试试"将这段文本转换为30秒带画面和配音的视频"——具体指令效果更好。最大文件大小为500MB。坚持使用TXT、JSON、DOCX、CSV以获得最流畅的体验。导出为MP4以获得跨平台和设备的最大兼容性。

常见工作流

快速编辑：上传 → "将这段文本转换为30秒带画面和配音的视频" → 下载MP4。30秒片段需要1-2分钟。

批量风格：在一个session中上传多个文件。用不同指令逐个处理。每个文件独立渲染。

迭代：从粗剪开始，预览结果，然后细化。session会保持你的时间线状态，你可以继续调整。

License

运行时依赖

版本

安装命令

技能文档

入门

首次连接

将用户输入匹配到操作

云渲染管道详情

读取SSE流

翻译GUI指令

错误处理

技巧和窍门

常见工作流

相关技能推荐