🎬 Text To Video Models — 文本生成视频

v1.0.0

无需学习专业视频编辑软件。描述你想要的场景——生成一段10秒的城市天际线日落视频，带有电影级镜头运动——AI将在1-3分钟内返回生成的视频片段。支持上传TXT、DOCX、PDF、CSV文件（最大500MB），AI自动处理视频生成。非常适合希望无需摄像设备和编辑软件就能创建视频内容的营销人员、内容创作者和电影制作人。

0· 0·0 当前·0 累计

by @francemichaell-15·MIT-0

生产力工具

下载技能包

License

MIT-0

最后更新

2026/4/15

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的运行时指令总体上与文本转视频服务相符，但存在元数据不一致问题，并且会上传用户文件并针对外部API获取/使用令牌——安装前请审查或避免上传敏感数据。

评估建议

该技能会将你的提示、上传的文件（最大500MB）和会话令牌发送到外部API mega-api-prod.nemovideo.ai，如果你未提供NEMO_TOKEN，可能会创建临时匿名令牌。安装前：(1) 确认技能的来源/主页以及上传文件的隐私/保留政策，(2) 避免上传敏感或专有文件，(3) 如果信任提供商，优先使用自己的API令牌，(4) 询问为什么技能frontmatter提到~/.config/nemovideo/（而注册表元数据没有）——这可能表明它需要本地配置访问权限，(5) 验证任何费用/积分以及令牌的使用/过期方式。如果你无法验证来源或数据处理方式，考虑不安装或仅使用虚拟/测试内容。...

详细分析 ▾

ℹ 用途与能力

声明的用途（文本转视频生成）与SKILL.md中描述的API端点和流程以及单一所需凭证（NEMO_TOKEN）相符。然而，SKILL.md frontmatter列出了所需配置路径（~/.config/nemovideo/），而注册表元数据报告没有所需配置路径——这是包装和运行时指令之间应该澄清的不一致。

⚠ 指令范围

指令告诉代理创建或使用bearer令牌，上传用户文件（最大500MB）并发送到https://mega-api-prod.nemovideo.ai，启动渲染作业，读取SSE流并轮询状态。将任意用户文件和会话状态上传到外部服务对于这类技能来说是预期的，但这是敏感的：用户的上传和生成的令牌将被发送到平台外。该文档还要求自动检测安装路径以进行X-Skill-Platform归属（模糊）并在每个请求上要求特定的归属头部——这在操作上没问题，但强制执行识别技能的传出请求。指令不要求无关的本地文件或密钥，但文件上传和令牌创建行为是主要的隐私/风险面。

✓ 安装机制

没有安装规范和代码文件——该技能仅包含指令。这最大程度降低了磁盘/安装风险，因为安装程序不会下载或写入任何内容。

ℹ 凭证需求

只有一个环境变量（NEMO_TOKEN）被声明为必需/主要，这对云API客户端来说是相称的。SKILL.md还记录了备用匿名令牌流程（生成UUID并获取临时令牌），这意味着该技能可以在没有用户提供的密钥的情况下运行。注册表的"无配置路径"与frontmatter的configPaths条目（~/.config/nemovideo/）之间的差异应该被解决——请求访问用户的配置目录会更敏感，需要说明理由。

✓ 持久化与权限

always为false，该技能不请求持久的平台级权限。允许自主调用（平台默认）——结合出站网络访问，这会增加爆炸半径，但对于基于API的生成器来说是正常的。该技能不声称要修改其他技能或系统级设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/15

● 无害

安装命令

点击复制

官方npx clawhub@latest install text-to-video-models

镜像加速npx clawhub@latest install text-to-video-models --registry https://cn.longxiaskill.com

技能文档

入门

发送你的文本提示，我会处理AI视频生成。或者只需描述你想要的内容。

尝试说：

"将两句话的场景描述生成1080p MP4"
"生成一段10秒的城市天际线日落视频，带有电影级镜头运动"
"为营销人员、内容创作者、电影制作人从书面场景描述生成视频片段"

连接

在处理任何用户请求之前，先建立与后端API的连接。显示简短的"连接中..."状态。

如果环境中有 NEMO_TOKEN，直接使用它创建会话。否则，获取免费起始令牌：

生成UUID作为客户端标识符
使用 X-Client-Id 头部 POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token
响应包含一个有效期7天、100免费积分的 token ——将其用作NEMO_TOKEN

然后创建会话，使用Bearer授权POST到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，请求体为 {"task_name":"project","language":"en"}。响应中的 session_id 是后续所有请求需要的。

告诉用户你已准备好。把技术细节留在聊天之外。

# 文本转视频模型 — 从文本提示生成视频

这个工具获取你的文本提示，通过云渲染管道运行AI视频生成。你上传、描述你想要的内容，然后下载结果。

假设你有一个两句话的场景描述，想要生成一段10秒的城市天际线日落视频，带有电影级镜头运动——后端会在大约1-3分钟内处理它，并给你一个1080p MP4。

提示：更短更具体的提示往往能产生更准确和一致的结果。

将输入匹配到操作

引用文本转视频模型、宽高比、文本叠加或音频轨道的用户提示通过关键词和意图分类路由到相应操作。

用户说...	操作	跳过SSE?
"export" / "导出" / "download" / "send me the video"	→ §3.5 导出	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 积分	✅
"status" / "状态" / "show tracks"	→ §3.4 状态	✅
"upload" / "上传" / 用户发送文件	→ §3.2 上传	✅
其他一切（生成、编辑、添加BGM…）	→ §3.1 SSE	❌

云渲染管道详情

每个导出作业在云GPU节点上排队，合成视频层，应用平台特定压缩（H.264，最高1080x1920），在30-90秒内返回下载链接。会话令牌携带渲染作业ID，所以在完成前关闭标签会使作业孤立。所有调用都发送到 https://mega-api-prod.nemovideo.ai。主要端点：

会话 — POST /api/tasks/me/with-session/nemo_agent，带 {"task_name":"project","language":""}。给你 session_id。
聊天（SSE） — POST /run_sse，带 session_id 和 new_message.parts[0].text 中的消息。设置 Accept: text/event-stream。最长15分钟。
上传 — POST /api/upload-video/nemo_agent/me/ — multipart文件或带URL的JSON。
积分 — GET /api/credits/balance/simple — 返回 available、frozen、total。
状态 — GET /api/state/nemo_agent/me//latest — 当前草稿和媒体信息。
导出 — POST /api/render/proxy/lambda，带渲染ID和草稿JSON。每30秒轮询 GET /api/render/proxy/lambda/ 获取 completed 状态和下载链接。格式：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。

每个请求需要三个归属头部，必须与此文件的frontmatter匹配：

头部	值
`X-Skill-Source`	`text-to-video-models`
`X-Skill-Version`	frontmatter `version`
`X-Skill-Platform`	自动检测：从安装路径检测 `clawhub` / `cursor` / `unknown`

所有请求必须包含：Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头部将导致导出失败并返回402。

草稿JSON使用短键：t 表示轨道，tt 表示轨道类型（0=视频，1=音频，7=文本），sg 表示片段，d 表示持续时间（毫秒），m 表示元数据。

示例时间线摘要：

时间线（3个轨道）：
视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题："Urban Dreams"（0-3秒）

后端响应翻译

后端假设存在GUI。将这些翻译成API操作：

后端说	你执行
"click [button]" / "点击"	通过API执行
"open [panel]" / "打开"	查询会话状态
"drag/drop" / "拖拽"	通过SSE发送编辑
"preview in timeline"	显示轨道摘要
"Export button" / "导出"	执行导出工作流

读取SSE流

文本事件直接发送给用户（GUI翻译后）。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每2分钟显示"⏳ 仍在工作中..."。大约30%的编辑操作关闭流时没有任何文本。当发生这种情况时，轮询 /api/state 确认时间线已更改，然后告诉用户更新了什么。

错误代码

0 — 成功，正常继续
1001 — 令牌过期或无效；通过 /api/auth/anonymous-token 重新获取
1002 — 会话未找到；创建新会话
2001 — 积分不足；匿名用户获得带 ?bind= 的注册链接，注册用户充值
4001 — 不支持的文件类型；显示接受的格式
4002 — 文件太大；建议压缩或裁剪
400 — 缺少 X-Skill-Id；生成一个并重试
402 — 免费计划导出被阻止；不是积分问题，是订阅等级
429 — 速率限制；等待30秒并重试一次

常见工作流

快速编辑：上传 → "生成一段10秒的城市天际线日落视频，带有电影级镜头运动" → 下载MP4。30秒片段需要1-3分钟。

批量风格：在一个会话中上传多个文件。用不同指令逐个处理。每个都有自己的渲染。

迭代：从粗剪开始，预览结果，然后细化。会话保持你的时间线状态，所以你可以继续调整。

技巧和窍门

后端在你具体时处理得更快。与其说"让它看起来更好"，不如说"生成一段10秒的城市天际线日落视频，带有电影级镜头运动"——具体指令得到更好的结果。

最大文件大小是500MB。坚持使用TXT、DOCX、PDF、CSV以获得最流畅的体验。

导出为MP4以获得社交和网络平台的最大兼容性。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库