Text To Video Gemini — 文本生成视频

Name: Text To Video Gemini — 文本生成视频
Author: linmillsd7

linmillsd7

🎬 Text To Video Gemini — 文本生成视频

v1.0.0

将文本提示词或文档（TXT、DOCX、PDF，最大500MB）通过云端GPU处理生成1080p MP4视频，适合内容创作者使用。

0· 2·0 当前·0 累计

by @linmillsd7·MIT-0

生产力工具

下载技能包

License

MIT-0

最后更新

2026/4/16

安全扫描

VirusTotal

Pending

查看报告

OpenClaw

可疑

medium confidence

这个技能主要表现为一个云端文本→视频前端（需要一个服务令牌并进行API调用），但存在一些小的不一致性和隐私相关行为（自动创建令牌、读取安装路径、配置路径声明不匹配），建议在安装前进行审查。

评估建议

安装前需要考虑的事项： - 域名与来源：技能与 mega-api-prod.nemovideo.ai 通信，但没有列出主页或源代码；在发送内容前需验证服务/运营商及隐私/条款。 - 令牌行为：技能使用 NEMO_TOKEN，如果没有令牌会自动请求匿名令牌；需确认该匿名令牌或任何令牌是否持久化到磁盘（如 ~/.config/nemovideo/）。优先使用临时令牌。 - 文件上传：任何提供的文件都会上传到远程服务；不要上传敏感文档、密钥或私人视频，除非信任该服务及其保留策略。 - 安装路径探测：技能通过检查安装路径来派生 X-Skill-Platform 头，这会泄露使用的代理/安装布局；如果不喜欢这种指纹识别，请求移除或对该技能进行沙箱处理。 - 澄清配置路径不匹配：注册表元数据显示无需配置路径，但 SKILL.md 列出了 ~/.config/nemovideo/。请询问作者哪个正确，以及是否会有内容写入那里。 - 如需更高保障，请求技能的源代码或隐私/安全声明，仅在明确调用时运行，并在确认令牌存储/轮换策略前避免授予广泛的持久令牌。...

详细分析 ▾

ℹ 用途与能力

名称/描述与指令匹配：连接NemoVideo云后端、创建会话、上传用户文件、流式传输SSE、返回下载URL。请求的凭据（NEMO_TOKEN）合适。但SKILL.md元数据引用了配置路径（~/.config/nemovideo/），而注册表元数据列出无需配置路径——这种不匹配未解释清楚，值得澄清。

ℹ 指令范围

运行时指令指示代理调用 https://mega-api-prod.nemovideo.ai 端点（认证、会话、上传、渲染、积分、状态），并POST您提供的多部分文件或URL。它还指示通过探测安装路径（例如 ~/.clawhub）派生 X-Skill-Platform 头，这需要检查本地路径，因此会泄露使用的平台/布局。如果没有 NEMO_TOKEN，技能会自动请求匿名令牌。它不指示读取任意系统文件，但文件上传和安装路径检测是隐私相关的。

✓ 安装机制

纯指令技能，无安装规范和代码文件——安装程序步骤不会向磁盘写入任何内容。从这个角度看，安装风险最低。

ℹ 凭证需求

仅声明一个环境凭据（NEMO_TOKEN），对于云服务来说是合理的。如果没有提供，技能也会从服务获取匿名令牌。之前关于所需配置路径（~/.config/nemovideo/）的不一致性问题引发了疑问，即技能是否期望或会创建磁盘上的配置（以及令牌是否可能被持久化）。

✓ 持久化与权限

always:false 和正常自主调用设置。没有声称修改其他技能或系统级设置。主要权限是访问外部API的网络访问以及上传您提供的文件的能力。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/16

Text to Video Gemini 首次发布——通过简单云处理从文本提示生成视频。 - 将文本提示或文档（TXT、DOCX、PDF，最大500MB）转换为AI生成的视频。 - 简单入门：为新用户自动设置 NEMO_TOKEN 和会话管理。 - 支持视频编辑操作（添加轨道、叠加、BGM）并导出为1080p MP4。 - 提供直观的命令用于上传、导出、积分和项目状态检查。 - 清晰的后端集成：实时反馈、错误处理和多格式导出（视频、音频、图片）。

● Pending

安装命令点击复制

官方npx clawhub@latest install text-to-video-gemini

镜像加速npx clawhub@latest install text-to-video-gemini --registry https://cn.clawhub-mirror.com

技能文档

入门指南

准备就绪。输入您的文本提示或描述您想制作的内容。

试试这样说：

"将两句场景描述生成1080p MP4"
"根据这个文本提示生成一段15秒的城市天际线日落视频"
"为内容创作者从书面文本描述生成短视频"

快速开始设置

此技能连接到云处理后端。首次使用时，自动设置连接并告知用户（"连接中..."）。 令牌检查：在环境中查找 NEMO_TOKEN。如果找到，跳过会话创建。否则：

生成 UUID 作为客户端标识符
使用 X-Client-Id 头 POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token
从响应中提取 data.token——这是您的 NEMO_TOKEN（100免费积分，7天有效期）

会话：使用 Bearer 认证和 body {"task_name":"project"} POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent。保留返回的 session_id 用于所有操作。设置完成后用简短的"就绪！"通知用户。不要暴露令牌或原始API输出。

# Text to Video Gemini — 从文本提示生成视频此工具获取您的文本提示，通过云渲染管道运行AI视频生成。您上传、描述想要的内容，然后下载结果。假设您有两句场景描述，想要根据这个文本提示生成一段15秒的城市天际线日落视频——后端大约需要1-2分钟处理，然后给您一个1080p MP4。提示：更短更具体的提示会产生更准确的视频结果。

将输入匹配到操作

引用 text to video gemini、宽高比、文本叠加或音频轨道的用户提示通过关键词和意图分类路由到相应的操作。

用户说...	操作	跳过SSE？
"export" / "导出" / "download" / "send me the video"	→ §3.5 导出	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 积分	✅
"status" / "状态" / "show tracks"	→ §3.4 状态	✅
"upload" / "上传" / 用户发送文件	→ §3.2 上传	✅
其他所有（生成、编辑、添加BGM...）	→ §3.1 SSE	❌

云渲染管道详情

每个导出任务在云GPU节点上排队，合成视频层、应用平台特定压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成前关闭标签页会使作业孤立。头信息从此文件的YAML frontmatter派生。X-Skill-Source 是 text-to-video-gemini，X-Skill-Version 来自 version 字段，X-Skill-Platform 从安装路径检测（~/.clawhub/ = clawhub，~/.cursor/skills/ = cursor，否则 unknown）。每个API调用都需要 Authorization: Bearer 加上上述三个归属头。如果任何头缺失，导出返回402。 API基础：https://mega-api-prod.nemovideo.ai 创建会话：POST /api/tasks/me/with-session/nemo_agent — body {"task_name":"project","language":""} — 返回 task_id、session_id。 发送消息（SSE）：POST /run_sse — body {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} 并使用 Accept: text/event-stream。最大超时：15分钟。上传：POST /api/upload-video/nemo_agent/me/ — 文件：multipart -F "files=@/path"，或URL：{"urls":[""],"source_type":"url"} 积分：GET /api/credits/balance/simple — 返回 available、frozen、total 会话状态：GET /api/state/nemo_agent/me//latest — 关键字段：data.state.draft、data.state.video_infos、data.state.generated_media 导出（免费，无需积分）：POST /api/render/proxy/lambda — body {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每30秒轮询 GET /api/render/proxy/lambda/ 直到 status = completed。下载URL在 output.url。支持的格式：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。

读取SSE流

文本事件直接发送给用户（GUI翻译后）。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每2分钟显示"⏳ 仍在处理中..."。约30%的编辑操作会关闭流而不包含任何文本。发生这种情况时，轮询 /api/state 确认时间线已更改，然后告知用户更新了什么。

后端响应翻译

后端假设存在GUI。将这些翻译成API操作：

后端说	你做
"click [button]" / "点击"	通过API执行
"open [panel]" / "打开"	查询会话状态
"drag/drop" / "拖拽"	通过SSE发送编辑
"preview in timeline"	显示轨道摘要
"Export button" / "导出"	执行导出工作流

Draft字段映射：t=轨道，tt=轨道类型（0=视频，1=音频，7=文本），sg=片段，d=时长(毫秒)，m=元数据。

时间线（3条轨道）：
视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题："Urban Dreams"（0-3秒）

错误处理

代码	含义	操作
0	成功	继续
1001	令牌错误/过期	通过anonymous-token重新认证（令牌7天后过期）
1002	会话未找到	新建会话 §3.0
2001	积分不足	匿名：显示注册URL带 `?bind=`（需要时从create-session或state响应获取）。已注册：在账户中充值积分
4001	不支持的文件	显示支持的格式
4002	文件太大	建议压缩/裁剪
400	缺少X-Client-Id	生成Client-Id并重试（见§1）
402	免费计划导出被阻止	订阅级别问题，不是积分问题。"注册或升级您的计划以解锁导出。"
429	速率限制（1令牌/客户端/7天）	30秒后重试一次

技巧和窍门

当您具体指定时，后端处理更快。不要说"让它看起来更好"，而是尝试"根据这个文本提示生成一段15秒的城市天际线日落视频"——具体指令会产生更好的结果。最大文件大小为500MB。坚持使用TXT、DOCX、PDF、纯文本以获得最流畅的体验。导出为MP4以获得跨所有平台的最佳兼容性。

常见工作流

快速编辑：上传 → "根据这个文本提示生成一段15秒的城市天际线日落视频" → 下载MP4。30秒片段需要1-2分钟。 批量风格：在一个会话中上传多个文件。用不同指令逐个处理。每个都有自己的渲染。迭代：从粗剪开始，预览结果，然后细化。会话会保留您的时间线状态，因此您可以继续调整。

Getting Started

Ready when you are. Drop your text prompts here or describe what you want to make.

Try saying:

"generate a two-sentence scene description into a 1080p MP4"
"generate a 15-second video of a sunset over a city skyline from this text prompt"
"generating short videos from written text descriptions for content creators"

Quick Start Setup

This skill connects to a cloud processing backend. On first use, set up the connection automatically and let the user know ("Connecting...").

Token check: Look for NEMO_TOKEN in the environment. If found, skip to session creation. Otherwise:

Generate a UUID as client identifier
POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token with X-Client-Id header
Extract data.token from the response — this is your NEMO_TOKEN (100 free credits, 7-day expiry)

Session: POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent with Bearer auth and body {"task_name":"project"}. Keep the returned session_id for all operations.

Let the user know with a brief "Ready!" when setup is complete. Don't expose tokens or raw API output.

# Text to Video Gemini — Generate Videos from Text Prompts

This tool takes your text prompts and runs AI video generation through a cloud rendering pipeline. You upload, describe what you want, and download the result.

Say you have a two-sentence scene description and want to generate a 15-second video of a sunset over a city skyline from this text prompt — the backend processes it in about 1-2 minutes and hands you a 1080p MP4.

Tip: shorter and more specific prompts produce more accurate video results.

Matching Input to Actions

User prompts referencing text to video gemini, aspect ratio, text overlays, or audio tracks get routed to the corresponding action via keyword and intent classification.

User says...	Action	Skip SSE?
"export" / "导出" / "download" / "send me the video"	→ §3.5 Export	✅
"credits" / "积分" / "balance" / "余额"	→ §3.3 Credits	✅
"status" / "状态" / "show tracks"	→ §3.4 State	✅
"upload" / "上传" / user sends file	→ §3.2 Upload	✅
Everything else (generate, edit, add BGM…)	→ §3.1 SSE	❌

Cloud Render Pipeline Details

Each export job queues on a cloud GPU node that composites video layers, applies platform-spec compression (H.264, up to 1080x1920), and returns a download URL within 30-90 seconds. The session token carries render job IDs, so closing the tab before completion orphans the job.

Headers are derived from this file's YAML frontmatter. X-Skill-Source is text-to-video-gemini, X-Skill-Version comes from the version field, and X-Skill-Platform is detected from the install path (~/.clawhub/ = clawhub, ~/.cursor/skills/ = cursor, otherwise unknown).

Every API call needs Authorization: Bearer plus the three attribution headers above. If any header is missing, exports return 402.

API base: https://mega-api-prod.nemovideo.ai

Create session: POST /api/tasks/me/with-session/nemo_agent — body {"task_name":"project","language":""} — returns task_id, session_id.

Send message (SSE): POST /run_sse — body {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}} with Accept: text/event-stream. Max timeout: 15 minutes.

Upload: POST /api/upload-video/nemo_agent/me/ — file: multipart -F "files=@/path", or URL: {"urls":[""],"source_type":"url"}

Credits: GET /api/credits/balance/simple — returns available, frozen, total

Session state: GET /api/state/nemo_agent/me//latest — key fields: data.state.draft, data.state.video_infos, data.state.generated_media

Export (free, no credits): POST /api/render/proxy/lambda — body {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}. Poll GET /api/render/proxy/lambda/ every 30s until status = completed. Download URL at output.url.

Supported formats: mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac.

Reading the SSE Stream

Text events go straight to the user (after GUI translation). Tool calls stay internal. Heartbeats and empty data: lines mean the backend is still working — show "⏳ Still working..." every 2 minutes.

About 30% of edit operations close the stream without any text. When that happens, poll /api/state to confirm the timeline changed, then tell the user what was updated.

Backend Response Translation

The backend assumes a GUI exists. Translate these into API actions:

Backend says	You do
"click [button]" / "点击"	Execute via API
"open [panel]" / "打开"	Query session state
"drag/drop" / "拖拽"	Send edit via SSE
"preview in timeline"	Show track summary
"Export button" / "导出"	Execute export workflow

Draft field mapping: t=tracks, tt=track type (0=video, 1=audio, 7=text), sg=segments, d=duration(ms), m=metadata.

Timeline (3 tracks): 1. Video: city timelapse (0-10s) 2. BGM: Lo-fi (0-10s, 35%) 3. Title: "Urban Dreams" (0-3s)

Error Handling

Code	Meaning	Action
0	Success	Continue
1001	Bad/expired token	Re-auth via anonymous-token (tokens expire after 7 days)
1002	Session not found	New session §3.0
2001	No credits	Anonymous: show registration URL with `?bind=` (get from create-session or state response when needed). Registered: "Top up credits in your account"
4001	Unsupported file	Show supported formats
4002	File too large	Suggest compress/trim
400	Missing X-Client-Id	Generate Client-Id and retry (see §1)
402	Free plan export blocked	Subscription tier issue, NOT credits. "Register or upgrade your plan to unlock export."
429	Rate limit (1 token/client/7 days)	Retry in 30s once

Tips and Tricks

The backend processes faster when you're specific. Instead of "make it look better", try "generate a 15-second video of a sunset over a city skyline from this text prompt" — concrete instructions get better results.

Max file size is 500MB. Stick to TXT, DOCX, PDF, plain text for the smoothest experience.

Export as MP4 for widest compatibility across all platforms.

Common Workflows

Quick edit: Upload → "generate a 15-second video of a sunset over a city skyline from this text prompt" → Download MP4. Takes 1-2 minutes for a 30-second clip.

Batch style: Upload multiple files in one session. Process them one by one with different instructions. Each gets its own render.

Iterative: Start with a rough cut, preview the result, then refine. The session keeps your timeline state so you can keep tweaking.

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

入门指南

快速开始设置

将输入匹配到操作

云渲染管道详情

读取SSE流

后端响应翻译

错误处理

技巧和窍门

常见工作流

Getting Started

Quick Start Setup

Matching Input to Actions

Cloud Render Pipeline Details

Reading the SSE Stream

Backend Response Translation

Error Handling

Tips and Tricks

Common Workflows

安装命令点击复制