📦 Audio Visualizer Generator — 音频可视化生成器

v1.0.0

跳过专业编辑软件的学习曲线。描述您想要的内容 — 为我的音乐曲目创建一个波形可视化视频，具有黑暗的背景...

0· 0·0 当前·0 累计

by @linmillsd7

开发工具代码生成数据与API 数据库视频处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install audio-visualizer-generator

镜像加速npx clawhub@latest install audio-visualizer-generator --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

开始使用您有音频文件需要处理吗？请发送过来并告诉我您需要什么——我将负责创建可视化视频。尝试说：“生成一个3分钟的MP3播客介绍音轨到1080p MP4”、“为我的音乐音轨创建一个波形可视化视频，背景为黑色”、“将音频音轨转换为可在YouTube或Spotify Canvas上分享的可视化视频，适用于音乐家、播客作者、内容创作者”

快速启动设置此技能连接到云处理后端。在首次使用时，自动设置连接并通知用户（“连接中...”）。令牌检查：查找环境中的NEMO_TOKEN。如果找到，则跳转到会话创建。否则：生成UUID作为客户端标识符，POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，包含X-Client-Id头部，提取响应中的data.token——这是您的NEMO_TOKEN（100个免费积分，7天过期）。会话：POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，包含Bearer认证和正文{"task_name":"project"}。保留返回的session_id以进行所有操作。当设置完成时，通知用户“准备就绪！”。不要暴露令牌或原始API输出。

音频可视化生成器——将音频转换为可视化视频此工具获取您的音频文件并通过云渲染管道运行可视化视频创建。您上传、描述您想要的内容，然后下载结果。假设您有一个3分钟的MP3播客介绍音轨，想要创建一个波形可视化视频，背景为黑色——后端处理大约30-60秒，然后提供一个1080p MP4。提示：短音频片段（小于2分钟）渲染速度明显更快，非常适合社交媒体预览。

输入与操作的匹配用户提示引用音频可视化生成器、长宽比、文本覆盖或音频音轨，通过关键字和意图分类路由到相应的操作。用户说... 操作跳过SSE？“导出”/“export”/“下载”/“发送给我视频”→ §3.5 导出 “积分”/“credits”/“余额”/“balance”→ §3.3 积分 “状态”/“status”/“显示音轨”→ §3.4 状态 “上传”/“upload”/用户发送文件→ §3.2 上传其他所有内容（生成、编辑、添加BGM...）→ §3.1 SSE

云渲染管道详细信息每个导出作业在云GPU节点上排队，合成视频层，应用平台特定压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成之前关闭标签页会使作业成为孤儿。所有调用都转到https://mega-api-prod.nemovideo.ai。主要端点：会话——POST /api/tasks/me/with-session/nemo_agent，包含{"task_name":"project","language":""》。提供session_id。聊天（SSE）——POST /run_sse，包含session_id和您的消息在new_message.parts[0].text中。设置Accept：text/event-stream。最高15分钟。上传——POST /api/upload-video/nemo_agent/me/，包含multipart文件或JSON URL。积分——GET /api/credits/balance/simple，返回可用、冻结、总积分。状态——GET /api/state/nemo_agent/me//latest，返回当前草稿和媒体信息。导出——POST /api/render/proxy/lambda，包含渲染ID和草稿JSON。轮询GET /api/render/proxy/lambda/每30秒，检查完成状态和下载URL。格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。头部从此文件的YAML前置内容中派生。X-Skill-Source是audio-visualizer-generator，X-Skill-Version来自版本字段，X-Skill-Platform从安装路径中检测（~/.clawhub/ = clawhub，~/.cursor/skills/ = cursor，否则为未知）。所有请求必须包含：Authorization：Bearer ，X-Skill-Source，X-Skill-Version，X-Skill-Platform。缺少归属头部将导致导出失败，返回402。草稿字段映射：t=音轨，tt=音轨类型（0=视频，1=音频，7=文本），sg=段，d=持续时间（毫秒），m=元数据。时间线（3个音轨）：1. 视频：城市延时（0-10秒）2. 背景音乐：Lo-fi（0-10秒，35%）3. 标题：“城市梦想”（0-3秒）

翻译GUI指令后端响应就像有一个可视化界面一样。将其指令映射到API调用：“点击”或“点击”→通过相关端点执行操作“打开”或“打开”→查询会话状态以获取数据“拖拽/放置”或“拖拽”→通过SSE发送编辑命令“预览时间线”→显示当前音轨的文本摘要“导出”或“导出”→运行导出工作流

阅读SSE流文本事件直接转发给用户（在GUI翻译后）。工具调用保持内部。心跳和空数据：行意味着后端仍在工作——每2分钟显示“⏳仍在工作...”。大约30%的编辑操作在没有任何文本的情况下关闭流。当这种情况发生时，轮询/api/state以确认时间线已更改，然后告诉用户更新了什么内容。

错误代码 0 — 成功，正常继续 1001 — 令牌过期或无效；通过/api/auth/anonymous-token重新获取 1002 — 会话未找到；重新连接会话 ...

数据来源：ClawHub ↗ · 中文优化：龙虾技能库