📦 Visual models analyze video — 视频分析生成报告

v1.0.1

上传 MP4/MOV/AVI 视频,自动提取关键帧,调用视觉模型识别主题,生成结构化报告并返回 3 张代表性截图,全程由 Vidu API 驱动。

0· 136·1 当前·1 累计
x-jihua 头像by @x-jihua (Vidu AI)
下载技能包
最后更新
2026/3/21
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
技能代码与描述大体一致,但存在明显不匹配:脚本依赖 ffmpeg/ffprobe 并引用飞书消息/文件,却未在元数据中声明所需二进制或凭证,安装前需谨慎。
评估建议
安装或启用前请: - 确认已安装可信来源的 ffmpeg/ffprobe(脚本依赖但元数据未声明)。 - 核查飞书集成方式:若技能需通过飞书发消息,确保相关凭证已配置且为有意授权——元数据未列出任何飞书环境变量。 - 了解“image”视觉分析会把提取帧发送至代理配置的模型后端,勿分析敏感/私密视频,除非信任该后端。 - 在隔离环境运行附带的 extract_keyframes.sh 验证行为(脚本仅校验输入、创建输出目录、清空关键帧并调用 ffmpeg,看似无害)。 - 建议联系技能作者或注册中心更新元数据,补全所需二进制(ffmpeg/ffprobe)并澄清平台凭证(飞书)后再用于生产。...
详细分析 ▾
用途与能力
SKILL.md 及附带脚本依赖 ffmpeg/ffprobe 提取帧,并引用飞书入站路径及通过飞书发送输出,但技能元数据未列出所需二进制、环境变量或配置路径。ffmpeg/ffprobe 用于视频处理属合理,飞书集成也可接受,然元数据遗漏会导致运行时失败或对平台集成的隐藏假设。
指令范围
运行时指令仅围绕声明目的(下载视频、提取关键帧、分析图像、发送报告)。它们引用特定代理文件系统路径(~/.openclaw/media/inbound 与 ~/.openclaw/media/keyframes)并指示通过飞书发送结果。指令未要求读取无关文件或向未知网络端点导出数据,但隐式依赖平台级飞书消息能力与“image”视觉工具(会把帧发送至代理配置的模型后端)。
安装机制
仅含指令与小助手脚本,无安装规范,降低供应链风险。然而技能要求 PATH 中存在 ffmpeg/ffprobe;该依赖未在元数据中声明。由于 extract_keyframes.sh 直接调用 ffmpeg,操作者应确保从可信源安装 ffmpeg。
凭证需求
技能未声明所需环境变量或凭证,但 SKILL.md 提及通过飞书发送输出。若飞书发送需凭证或令牌,则此处未声明。此外,分析步骤使用“image”视觉工具——处理关键帧会把图像数据发送至已配置的模型后端,可能暴露敏感视觉内容;此风险对该类技能属预期,但应确认与已声明策略/凭证匹配。
持久化与权限
技能未请求 always:true,不修改其他技能或系统级设置,仅写入自身输出目录(~/.openclaw/media/keyframes)。脚本仅清空该目录下的 keyframe_*.jpg 文件,不尝试更改其他配置文件或凭证。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/20

- 用详细分步工作流改进文档,涵盖关键帧提取、视觉分析与报告生成。 - 新增使用 I 帧检测的令牌效率优化说明。 - 明确支持的视频格式与用户场景。 - 补充附带脚本与飞书工作流的使用说明。 - 提供令牌消耗估算与高效分析实用技巧。

无害

安装命令

点击复制
官方npx clawhub@latest install vidu-video-analyzer
镜像加速npx clawhub@latest install vidu-video-analyzer --registry https://cn.longxiaskill.com

技能文档

# 视频分析器 ## 概述 从视频中提取关键帧,使用视觉模型分析内容,并生成包含 3 张代表性截图的综合报告。通过 I 帧检测优化 token 使用效率。 ## 工作流程 `` Video Input → Extract Keyframes → Vision Analysis → Select Top 3 → Generate Report → Send Output ` ## 逐步流程 ### 1. 下载视频(若来自飞书) 当用户通过飞书发送视频时,文件会自动保存至: ` ~/.openclaw/media/inbound/.mp4 ` ### 2. 提取视频元数据 `bash ffmpeg -i 2>&1 | grep -E "(Duration|Video)" ` 返回:时长、分辨率、码率、编解码器信息。 ### 3. 提取关键帧 使用提供的脚本进行最佳关键帧提取: `bash bash ~/.openclaw/workspace/skills/video-analyzer/scripts/extract_keyframes.sh [output_dir] ` 参数: - video_path:视频文件路径(必填) - output_dir:输出目录(可选,默认为 ~/.openclaw/media/keyframes/输出: 宽度 640px 的 JPEG 图片,命名为 keyframe_XX.jpg Token 效率: 使用 I 帧检测仅提取有意义帧,相比均匀采样可减少约 7% 的 token 消耗。 ### 4. 使用视觉模型分析 使用 image 工具分析所有提取的关键帧: ` prompt: "Analyze these keyframes from a video. Please: 1. Describe the video's theme and content 2. Select 3 most representative frames (explain why)" ` ### 5. 生成报告 结构化分析报告: `markdown ## 📌 视频主题 [描述] ## 🖼️ 代表性截图 | 帧 | 理由 | |-------|--------| | frame_XX | [为何具有代表性] | ` ### 6. 发送输出 通过飞书发送: 1. 分析报告(文本消息) 2. 3 张代表性截图(图片消息) ## Token 消耗参考 | 视频长度 | 关键帧数 | 预估 Token | |--------------|-----------|------------------| | 5 秒 | 5-8 | ~8,000-14,000 | | 15 秒 | 12-16 | ~20,000-28,000 | | 30 秒 | 20-30 | ~35,000-50,000 | 优化提示: - 图片占 Token 的 95% 以上 - 视频越短,Token 越少 - 低运动视频产生更少关键帧 ## 资源 ### scripts/ - extract_keyframes.sh - 使用 ffmpeg I 帧检测提取关键帧 ### references/ - ffmpeg_reference.md` - 视频处理的高级 ffmpeg 命令

数据来源ClawHub ↗ · 中文优化:龙虾技能库