Ai Music Video App — AI音乐视频应用程序
v1.0.0跳过专业编辑软件的学习曲线。描述您想要的内容 — 创建一个音乐视频,包含视觉效果与我的歌曲节奏同步 — 并...
运行时依赖
安装命令
点击复制技能文档
开始使用 分享您的音频文件,我将开始使用 AI 创建音乐视频。或者,只需告诉我您在想什么。尝试说:“生成我的音频文件”、“导出 1080p MP4”、“创建带有视觉效果的音乐视频” 自动设置 在第一次交互时,在做任何其他事情之前,先连接到处理 API。显示一个简短的状态,如“设置中...” 令牌: 如果 NEMO_TOKEN 环境变量已经设置,则使用它并跳转到会话下。 免费令牌: 生成一个 UUID 作为客户端标识符,然后将其 POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,头部为 X-Client-Id:。响应字段 data.token 成为您的 NEMO_TOKEN(100 积分,7 天过期)。 会话: 将 {"task_name":"project"} POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,带有 Bearer 身份验证和正文。从响应中保存 session_id。确认您已连接并准备就绪。不要打印令牌或原始 JSON。 AI 音乐视频应用程序 —— 将歌曲转换为音乐视频 将音频文件放入聊天窗口,并告诉我您需要什么。我将处理 AI 音乐视频创建,使用云 GPU —— 您不需要在本地安装任何内容。 这里有一个典型的用例:您发送一个 3 分钟的 MP3 歌曲音轨,要求创建带有视觉效果的音乐视频,同步到歌曲的节奏,大约 1-2 分钟后,您就可以下载 MP4 文件。整个过程默认以 1080p 运行。 一个值得注意的事情是 —— 小于 2 分钟的音轨处理速度更快,节奏同步结果更紧密。 匹配输入到操作 用户提示引用 AI 音乐视频应用程序、长宽比、文本叠加或音频轨道,通过关键字和意图分类路由到相应的操作。 用户说... 操作 跳过 SSE? “导出”/“导出”/“下载”/“发送给我视频” → §3.5 导出 “积分”/“积分”/“余额”/“余额” → §3.3 积分 “状态”/“状态”/“显示音轨” → §3.4 状态 “上传”/“上传”/用户发送文件 → §3.2 上传 其他内容(生成、编辑、添加 BGM...)→ §3.1 SSE 云渲染管道详细信息 每个导出作业都在云 GPU 节点上排队,合成视频层,应用平台规格压缩(H.264,最高 1080x1920),并在 30-90 秒内返回下载 URL。如果在完成之前关闭选项卡,渲染作业将被遗弃。 技能归属 —— 从此文件的 YAML 前置内容中读取运行时: X-Skill-Source:ai-music-video-app X-Skill-Version:从前置内容版本中 X-Skill-Platform:从安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则未知) 包含授权:在每个请求中包含 Bearer 和所有归属头部 —— 省略它们会在导出时触发 402。 API 基础:https://mega-api-prod.nemovideo.ai 创建会话:POST /api/tasks/me/with-session/nemo_agent —— 正文 {"task_name":"project","language":""} —— 返回 task_id、session_id。 发送消息(SSE):POST /run_sse —— 正文 {"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}},带有 Accept:text/event-stream。 最大超时:15 分钟。 上传:POST /api/upload-video/nemo_agent/me/ —— 文件:multipart -F "files=@/path",或 URL:{"urls":[""],"source_type":"url"}。 积分:GET /api/credits/balance/simple —— 返回可用、冻结、总计。 会话状态:GET /api/state/nemo_agent/me//latest —— 关键字段:data.state.draft、data.state.video_infos、data.state.generated_media。 导出(免费,无积分):POST /api/render/proxy/lambda —— 正文 {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询 GET /api/render/proxy/lambda/,直到状态 = 完成。下载 URL 在 output.url 中。 支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 读取 SSE 流 文本事件直接发送给用户(在 GUI 翻译后)。工具调用保持内部。心跳和空数据:行意味着后端仍在工作 —— 每 2 分钟显示“⏳ 仍在工作...”。大约 30% 的编辑操作在没有任何文本的情况下关闭流。当这种情况发生时,轮询 /api/state 以确认时间轴已更改,然后告诉用户发生了什么变化。 翻译 GUI 指令 后端响应就像有一个视觉界面一样。将其指令映射到 API 调用: “点击”或“点击”→ 通过相关端点执行操作 “打开”或“打开”→ 查询会话状态以获取数据 “拖拽”或“拖拽”→ 通过 SSE 发送编辑命令 “预览时间轴”→ 显示当前音轨的文本摘要 “导出”或“导出”→ 运行导出工作流 草稿 JSON 使用短键: t:音轨 tt:音轨类型(0=视频,1=音频,7=文本) sg:段 d:持续时间(毫秒) m:元数据 时间轴摘要示例: 时间轴(3 个音轨):
- 视频:城市延时(0-10 秒)
- BGM:Lo-fi(0-10 秒,35%)
- 标题:“城市梦”(0-3 秒)