Visual models analyze video — 视频分析生成报告

v1.0.1

上传 MP4/MOV/AVI 视频，自动提取关键帧，调用视觉模型识别主题，生成结构化报告并返回 3 张代表性截图，全程由 Vidu API 驱动。

0· 136·1 当前·1 累计

by @x-jihua (Vidu AI)

AI模型访问

使用场景：使用Visual models analyze video — 视频分析生成报告进行AI模型访问使用Visual models analyze video — 视频分析生成报告

下载技能包

最后更新

2026/3/21

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

技能代码与描述大体一致，但存在明显不匹配：脚本依赖 ffmpeg/ffprobe 并引用飞书消息/文件，却未在元数据中声明所需二进制或凭证，安装前需谨慎。

评估建议

安装或启用前请： - 确认已安装可信来源的 ffmpeg/ffprobe（脚本依赖但元数据未声明）。 - 核查飞书集成方式：若技能需通过飞书发消息，确保相关凭证已配置且为有意授权——元数据未列出任何飞书环境变量。 - 了解“image”视觉分析会把提取帧发送至代理配置的模型后端，勿分析敏感/私密视频，除非信任该后端。 - 在隔离环境运行附带的 extract_keyframes.sh 验证行为（脚本仅校验输入、创建输出目录、清空关键帧并调用 ffmpeg，看似无害）。 - 建议联系技能作者或注册中心更新元数据，补全所需二进制（ffmpeg/ffprobe）并澄清平台凭证（飞书）后再用于生产。...

详细分析 ▾

⚠ 用途与能力

SKILL.md 及附带脚本依赖 ffmpeg/ffprobe 提取帧，并引用飞书入站路径及通过飞书发送输出，但技能元数据未列出所需二进制、环境变量或配置路径。ffmpeg/ffprobe 用于视频处理属合理，飞书集成也可接受，然元数据遗漏会导致运行时失败或对平台集成的隐藏假设。

ℹ 指令范围

运行时指令仅围绕声明目的（下载视频、提取关键帧、分析图像、发送报告）。它们引用特定代理文件系统路径（~/.openclaw/media/inbound 与 ~/.openclaw/media/keyframes）并指示通过飞书发送结果。指令未要求读取无关文件或向未知网络端点导出数据，但隐式依赖平台级飞书消息能力与“image”视觉工具（会把帧发送至代理配置的模型后端）。

ℹ 安装机制

仅含指令与小助手脚本，无安装规范，降低供应链风险。然而技能要求 PATH 中存在 ffmpeg/ffprobe；该依赖未在元数据中声明。由于 extract_keyframes.sh 直接调用 ffmpeg，操作者应确保从可信源安装 ffmpeg。

⚠ 凭证需求

技能未声明所需环境变量或凭证，但 SKILL.md 提及通过飞书发送输出。若飞书发送需凭证或令牌，则此处未声明。此外，分析步骤使用“image”视觉工具——处理关键帧会把图像数据发送至已配置的模型后端，可能暴露敏感视觉内容；此风险对该类技能属预期，但应确认与已声明策略/凭证匹配。

✓ 持久化与权限

技能未请求 always:true，不修改其他技能或系统级设置，仅写入自身输出目录（~/.openclaw/media/keyframes）。脚本仅清空该目录下的 keyframe_*.jpg 文件，不尝试更改其他配置文件或凭证。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/20

- 用详细分步工作流改进文档，涵盖关键帧提取、视觉分析与报告生成。 - 新增使用 I 帧检测的令牌效率优化说明。 - 明确支持的视频格式与用户场景。 - 补充附带脚本与飞书工作流的使用说明。 - 提供令牌消耗估算与高效分析实用技巧。

● 无害

安装命令

点击复制

官方npx clawhub@latest install vidu-video-analyzer

镜像加速npx clawhub@latest install vidu-video-analyzer --registry https://cn.longxiaskill.com镜像同步中

本土化适配说明

Visual models analyze video — 视频分析生成报告安装说明：安装命令：npx clawhub@latest install vidu-video-analyzer

需要定制？告诉我你的需求 →

技能文档

# 视频分析器 ## 概述从视频中提取关键帧，使用视觉模型分析内容，并生成包含 3 张代表性截图的综合报告。通过 I 帧检测优化 token 使用效率。 ## 工作流程 `` Video Input → Extract Keyframes → Vision Analysis → Select Top 3 → Generate Report → Send Output ` ## 逐步流程 ### 1. 下载视频（若来自飞书）当用户通过飞书发送视频时，文件会自动保存至： ` ~/.openclaw/media/inbound/.mp4 ` ### 2. 提取视频元数据 `bash ffmpeg -i 2>&1 | grep -E "(Duration|Video)" ` 返回：时长、分辨率、码率、编解码器信息。 ### 3. 提取关键帧使用提供的脚本进行最佳关键帧提取： `bash bash ~/.openclaw/workspace/skills/video-analyzer/scripts/extract_keyframes.sh [output_dir] ` 参数： - video_path：视频文件路径（必填） - output_dir：输出目录（可选，默认为 ~/.openclaw/media/keyframes/）输出：宽度 640px 的 JPEG 图片，命名为 keyframe_XX.jpg Token 效率：使用 I 帧检测仅提取有意义帧，相比均匀采样可减少约 7% 的 token 消耗。 ### 4. 使用视觉模型分析使用 image 工具分析所有提取的关键帧： ` prompt: "Analyze these keyframes from a video. Please: 1. Describe the video's theme and content 2. Select 3 most representative frames (explain why)" ` ### 5. 生成报告结构化分析报告： `markdown ## 📌 视频主题 [描述] ## 🖼️ 代表性截图 | 帧 | 理由 | |-------|--------| | frame_XX | [为何具有代表性] | ` ### 6. 发送输出通过飞书发送： 1. 分析报告（文本消息） 2. 3 张代表性截图（图片消息） ## Token 消耗参考 | 视频长度 | 关键帧数 | 预估 Token | |--------------|-----------|------------------| | 5 秒 | 5-8 | ~8,000-14,000 | | 15 秒 | 12-16 | ~20,000-28,000 | | 30 秒 | 20-30 | ~35,000-50,000 | 优化提示： - 图片占 Token 的 95% 以上 - 视频越短，Token 越少 - 低运动视频产生更少关键帧 ## 资源 ### scripts/ - extract_keyframes.sh - 使用 ffmpeg I 帧检测提取关键帧 ### references/ - ffmpeg_reference.md` - 视频处理的高级 ffmpeg 命令

运行时依赖

版本

安装命令

本土化适配说明

技能文档

相关技能推荐