Zai Vision

v1.0.0

使用 GLM-4.6V 模型进行 Z.AI Vision 分析，用于图像与视频理解。当 Claude 需要分析图像（截图、UI 设计、照片、图表等）时使用。

0· 0·0 当前·0 累计

by @twolfe1991-cloud

AI模型访问

使用场景：使用Zai Vision进行AI模型访问使用Zai Vision

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install zai-vision

镜像加速npx clawhub@latest install zai-vision --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Zai Vision 安装说明：安装命令：["openclaw skills install zai-vision"]

需要定制？告诉我你的需求 →

技能文档

Z.AI Vision 概览本技能通过 Python 脚本提供 Z.AI 的 GLM-4.6V 视觉模型能力，用于分析图像与视频。支持 OCR、UI 设计分析、技术图解、错误截图、数据可视化及视频场景理解。

快速开始前置条件安装 Z.AI SDK： pip install zai-sdk 设置 API 密钥： export ZAI_API_KEY='your-api-key' 所有视觉操作均需 API 密钥。

基础图像分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py "" 示例： python3 /root/clawd/zai-vision/scripts/vision_analyze.py screenshot.png "Describe this UI"

基础视频分析 python3 /root/clawd/zai-vision/scripts/video_analyze.py "" 示例： python3 /root/clawd/zai-vision/scripts/video_analyze.py clip.mp4 "What's happening?"

能力图像分析 OCR / 文本提取 python3 /root/clawd/zai-vision/scripts/vision_analyze.py doc-scan.jpg "Extract all text" UI 设计分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py ui-mockup.png "Analyze this UI design and list all components" 错误诊断 python3 /root/clawd/zai-vision/scripts/vision_analyze.py error.png "What error is shown and how do I fix it?" 技术图解 python3 /root/clawd/zai-vision/scripts/vision_analyze.py architecture.png "Explain this architecture diagram" 数据可视化 python3 /root/clawd/zai-vision/scripts/vision_analyze.py chart.png "What insights does this chart show?"

视频分析场景描述 python3 /root/clawd/zai-vision/scripts/video_analyze.py demo.mp4 "Describe what's happening" 注：视频分析适用于短片段（≤8MB），逐帧处理。

参数参数默认值作用 --model glm-4.6v 使用的视觉模型 --max-tokens 2000 最大返回 token 数 --temperature 0.5 0-2，越低越 factual，越高越 creative --json false 输出结构化 JSON 带参数示例： python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Describe this" \ --temperature 0.3 \ --max-tokens 500 \ --json

与 Safe Scripts 集成在 /root/clawd 工作区运行时，用 clawd-run 保障安全： clawd-run /root/clawd/zai-vision/scripts/vision_analyze.py image.png "Analyze" 自动备份、校验与超时保护。

错误处理缺少 API 密钥： ❌ ZAI_API_KEY environment variable not set 设置：export ZAI_API_KEY='your-key' 图像未找到： ❌ Image file not found: /path/to/image.jpg 检查路径。 SDK 未安装： ❌ zai-sdk not installed 安装：pip install zai-sdk

常见模式模式 1：批量处理多张图像 for img in /path/to/images/*.png; do python3 /root/clawd/zai-vision/scripts/vision_analyze.py "$img" "Describe this image" done 模式 2：提取并保存 JSON python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Analyze" --json > output.json 模式 3：特定分析类型代码截图： python3 /root/clawd/zai-vision/scripts/vision_analyze.py code.png "Extract the code and explain what it does" 表单字段提取： python3 /root/clawd/zai-vision/scripts/vision_analyze.py form.jpg "List all form fields and their types" 品牌规范检查： python3 /root/clawd/zai-vision/scripts/vision_analyze.py design.png "Check if this follows brand guidelines"

最佳实践提示具体提示："List all UI components" > "What's this?" 高分辨率：分辨率越高，理解越准 Temperature：0.2-0.5 适合事实，0.7-1.0 适合创意视频限制：≤8MB 性能最佳错误处理：始终检查返回码与错误信息

资源脚本 scripts/vision_analyze.py - 图像分析（GLM-4.6V） scripts/video_analyze.py - 视频分析（逐帧）

参考资料 references/API.md - 完整 API 文档与示例

何时使用本技能需要：分析截图、照片或图像从图像提取文本（OCR）理解技术图解或图表诊断截图中的错误分析 UI 设计或原型描述视频场景以编程方式处理视觉内容

详见 references/API.md。

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐