详细分析 ▾
运行时依赖
版本
- 用详细分步工作流改进文档,涵盖关键帧提取、视觉分析与报告生成。 - 新增使用 I 帧检测的令牌效率优化说明。 - 明确支持的视频格式与用户场景。 - 补充附带脚本与飞书工作流的使用说明。 - 提供令牌消耗估算与高效分析实用技巧。
安装命令
点击复制技能文档
# 视频分析器 ## 概述 从视频中提取关键帧,使用视觉模型分析内容,并生成包含 3 张代表性截图的综合报告。通过 I 帧检测优化 token 使用效率。 ## 工作流程 `` Video Input → Extract Keyframes → Vision Analysis → Select Top 3 → Generate Report → Send Output ` ## 逐步流程 ### 1. 下载视频(若来自飞书) 当用户通过飞书发送视频时,文件会自动保存至: ` ~/.openclaw/media/inbound/.mp4 ` ### 2. 提取视频元数据 `bash ffmpeg -i 2>&1 | grep -E "(Duration|Video)" ` 返回:时长、分辨率、码率、编解码器信息。 ### 3. 提取关键帧 使用提供的脚本进行最佳关键帧提取: `bash bash ~/.openclaw/workspace/skills/video-analyzer/scripts/extract_keyframes.sh [output_dir] ` 参数: - video_path:视频文件路径(必填) - output_dir:输出目录(可选,默认为 ~/.openclaw/media/keyframes/) 输出: 宽度 640px 的 JPEG 图片,命名为 keyframe_XX.jpg Token 效率: 使用 I 帧检测仅提取有意义帧,相比均匀采样可减少约 7% 的 token 消耗。 ### 4. 使用视觉模型分析 使用 image 工具分析所有提取的关键帧: ` prompt: "Analyze these keyframes from a video. Please: 1. Describe the video's theme and content 2. Select 3 most representative frames (explain why)" ` ### 5. 生成报告 结构化分析报告: `markdown ## 📌 视频主题 [描述] ## 🖼️ 代表性截图 | 帧 | 理由 | |-------|--------| | frame_XX | [为何具有代表性] | ` ### 6. 发送输出 通过飞书发送: 1. 分析报告(文本消息) 2. 3 张代表性截图(图片消息) ## Token 消耗参考 | 视频长度 | 关键帧数 | 预估 Token | |--------------|-----------|------------------| | 5 秒 | 5-8 | ~8,000-14,000 | | 15 秒 | 12-16 | ~20,000-28,000 | | 30 秒 | 20-30 | ~35,000-50,000 | 优化提示: - 图片占 Token 的 95% 以上 - 视频越短,Token 越少 - 低运动视频产生更少关键帧 ## 资源 ### scripts/ - extract_keyframes.sh - 使用 ffmpeg I 帧检测提取关键帧 ### references/ - ffmpeg_reference.md` - 视频处理的高级 ffmpeg 命令