Zai Vision
v1.0.0使用 GLM-4.6V 模型进行 Z.AI Vision 分析,用于图像与视频理解。当 Claude 需要分析图像(截图、UI 设计、照片、图表等)时使用。
运行时依赖
安装命令
点击复制本土化适配说明
Zai Vision 安装说明: 安装命令:["openclaw skills install zai-vision"]
技能文档
Z.AI Vision 概览 本技能通过 Python 脚本提供 Z.AI 的 GLM-4.6V 视觉模型能力,用于分析图像与视频。支持 OCR、UI 设计分析、技术图解、错误截图、数据可视化及视频场景理解。
快速开始 前置条件 安装 Z.AI SDK: pip install zai-sdk 设置 API 密钥: export ZAI_API_KEY='your-api-key' 所有视觉操作均需 API 密钥。
基础图像分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py "" 示例: python3 /root/clawd/zai-vision/scripts/vision_analyze.py screenshot.png "Describe this UI"
基础视频分析 python3 /root/clawd/zai-vision/scripts/video_analyze.py "" 示例: python3 /root/clawd/zai-vision/scripts/video_analyze.py clip.mp4 "What's happening?"
能力 图像分析 OCR / 文本提取 python3 /root/clawd/zai-vision/scripts/vision_analyze.py doc-scan.jpg "Extract all text" UI 设计分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py ui-mockup.png "Analyze this UI design and list all components" 错误诊断 python3 /root/clawd/zai-vision/scripts/vision_analyze.py error.png "What error is shown and how do I fix it?" 技术图解 python3 /root/clawd/zai-vision/scripts/vision_analyze.py architecture.png "Explain this architecture diagram" 数据可视化 python3 /root/clawd/zai-vision/scripts/vision_analyze.py chart.png "What insights does this chart show?"
视频分析 场景描述 python3 /root/clawd/zai-vision/scripts/video_analyze.py demo.mp4 "Describe what's happening" 注:视频分析适用于短片段(≤8MB),逐帧处理。
参数 参数 默认值 作用 --model glm-4.6v 使用的视觉模型 --max-tokens 2000 最大返回 token 数 --temperature 0.5 0-2,越低越 factual,越高越 creative --json false 输出结构化 JSON 带参数示例: python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Describe this" \ --temperature 0.3 \ --max-tokens 500 \ --json
与 Safe Scripts 集成 在 /root/clawd 工作区运行时,用 clawd-run 保障安全: clawd-run /root/clawd/zai-vision/scripts/vision_analyze.py image.png "Analyze" 自动备份、校验与超时保护。
错误处理 缺少 API 密钥: ❌ ZAI_API_KEY environment variable not set 设置:export ZAI_API_KEY='your-key' 图像未找到: ❌ Image file not found: /path/to/image.jpg 检查路径。 SDK 未安装: ❌ zai-sdk not installed 安装:pip install zai-sdk
常见模式 模式 1:批量处理多张图像 for img in /path/to/images/*.png; do python3 /root/clawd/zai-vision/scripts/vision_analyze.py "$img" "Describe this image" done 模式 2:提取并保存 JSON python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Analyze" --json > output.json 模式 3:特定分析类型 代码截图: python3 /root/clawd/zai-vision/scripts/vision_analyze.py code.png "Extract the code and explain what it does" 表单字段提取: python3 /root/clawd/zai-vision/scripts/vision_analyze.py form.jpg "List all form fields and their types" 品牌规范检查: python3 /root/clawd/zai-vision/scripts/vision_analyze.py design.png "Check if this follows brand guidelines"
最佳实践提示 具体提示:"List all UI components" > "What's this?" 高分辨率:分辨率越高,理解越准 Temperature:0.2-0.5 适合事实,0.7-1.0 适合创意 视频限制:≤8MB 性能最佳 错误处理:始终检查返回码与错误信息
资源 脚本 scripts/vision_analyze.py - 图像分析(GLM-4.6V) scripts/video_analyze.py - 视频分析(逐帧)
参考资料 references/API.md - 完整 API 文档与示例
何时使用本技能 需要: 分析截图、照片或图像 从图像提取文本(OCR) 理解技术图解或图表 诊断截图中的错误 分析 UI 设计或原型 描述视频场景 以编程方式处理视觉内容
详见 references/API.md。