🎬 Free — 免费
v1.0.0Text To Video API 只需输入需求,即可将50字产品描述段落一键生成1080p AI视频,自动完成……
详细分析 ▾
运行时依赖
版本
初始版本——通过 API 将文本提示转为 AI 生成的 1080p 视频。 - 用户可提交最多 50 字的产品描述,1–2 分钟内获得 1080p MP4 视频。 - 后端全自动:匿名认证与会话管理透明完成。 - 支持上传、视频编辑(音频、叠加层、画幅比例)、草稿管理及积分查询,全部通过聊天完成。 - 提供清晰的状态/进度更新与健壮的错误处理,含重新认证与积分提示。 - 导出支持 MP4 等常见格式,最大 500MB。 - 文档内含优化技巧与云 GPU 渲染管线详情。
安装命令
点击复制技能文档
快速开始
发送文本提示,我立即开始 AI 视频生成。或直接告诉我你的想法。试试说:
- "convert my text prompts"
- "export 1080p MP4"
- "convert this product description into a"
一键配置
本技能连接云端处理后端。首次使用自动建立连接并提示(“Connecting...”)。 Token 检查:查找环境变量NEMO_TOKEN。若存在,直接进入会话;否则:
- 生成 UUID 作为客户端 ID
- POST
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带X-Client-Id头 - 取响应
data.token即为 NEMO_TOKEN(100 免费积分,7 天过期)
会话:POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body {"task_name":"project"}。保存返回的 session_id 用于后续操作。配置完成提示“Ready!”。不向用户暴露 token 或原始 API 输出。
# Free Text to Video API — 将文本转为生成视频 在聊天框输入文本提示并告诉我需求。我负责在云端 GPU 完成 AI 视频生成,本地无需安装。典型流程:发送 50 字产品描述,要求“转成 30 秒宣传视频”,约 1-2 分钟后即可下载 MP4,默认 1080p。提示越短越清晰,视频越精准。
输入与动作映射
用户提及免费文本转视频 API、画幅、文字层、音轨等,系统按关键词与意图分发:| 用户说法 | 动作 | 跳过 SSE? | |-------------|------|------------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ |
云端渲染管线
每次导出任务在云端 GPU 节点排队,合成视频层,按平台规格压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,提前关闭标签页会导致任务孤立。所有请求指向https://mega-api-prod.nemovideo.ai。 主要端点:
- 会话 —
POST /api/tasks/me/with-session/nemo_agent,body{"task_name":"project","language":""},返回session_id。 - 对话 (SSE) —
POST /run_sse,带session_id与消息new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 - 上传 —
POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 传 URL。 - 积分 —
GET /api/credits/balance/simple,返回available、frozen、total。 - 状态 —
GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息。 - 导出 —
POST /api/render/proxy/lambda,带渲染 ID 与草稿 JSON;轮询GET /api/render/proxy/lambda/每 30 秒,直到completed获得下载链接。
技能归因 — 运行时读取本文件 YAML 头:
X-Skill-Source:free-text-to-video-apiX-Skill-Version: 取自头信息versionX-Skill-Platform: 按安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,其余unknown)
每次请求需带 Authorization: Bearer 及上述归因头,缺失将触发 402。
草稿字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文字),sg=片段,d=时长(ms),m=元数据。
``
时间轴(3 轨道):
视频:城市延时(0-10s)- BGM:Lo-fi(0-10s,35%)
- 标题:"Urban Dreams"(0-3s)
GUI 指令转 API
后端以可视化界面方式响应,按以下映射执行:- "click" 或 "点击" → 调用对应端点完成动作
- "open" 或 "打开" → 查询会话状态