📦 Zai Vision

v1.0.0

使用 GLM-4.6V 模型进行 Z.AI Vision 分析,用于图像与视频理解。当 Claude 需要分析图像(截图、UI 设计、照片、图表等)时使用。

0· 0·0 当前·0 累计
0

运行时依赖

无特殊依赖

安装命令

点击复制
官方npx clawhub@latest install zai-vision
镜像加速npx clawhub@latest install zai-vision --registry https://cn.longxiaskill.com

技能文档

Z.AI Vision 概览 本技能通过 Python 脚本调用 Z.AI 的 GLM-4.6V 视觉模型,分析图像与视频。支持 OCR、UI 设计解析、技术图、错误截图、数据可视化及视频场景理解。

快速开始 前置条件 安装 Z.AI SDK:pip install zai-sdk 设置 API 密钥:export ZAI_API_KEY='your-api-key' 所有视觉操作均需 API 密钥。

基础图像分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py "" 示例:python3 /root/clawd/zai-vision/scripts/vision_analyze.py screenshot.png "Describe this UI"

基础视频分析 python3 /root/clawd/zai-vision/scripts/video_analyze.py "" 示例:python3 /root/clawd/zai-vision/scripts/video_analyze.py clip.mp4 "What's happening?"

能力 图像分析 OCR / 文本提取 python3 /root/clawd/zai-vision/scripts/vision_analyze.py doc-scan.jpg "Extract all text"

UI 设计分析 python3 /root/clawd/zai-vision/scripts/vision_analyze.py ui-mockup.png "Analyze this UI design and list all components"

错误诊断 python3 /root/clawd/zai-vision/scripts/vision_analyze.py error.png "What error is shown and how do I fix it?"

技术图 python3 /root/clawd/zai-vision/scripts/vision_analyze.py architecture.png "Explain this architecture diagram"

数据可视化 python3 /root/clawd/zai-vision/scripts/vision_analyze.py chart.png "What insights does this chart show?"

视频分析 场景描述 python3 /root/clawd/zai-vision/scripts/video_analyze.py demo.mp4 "Describe what's happening" 注:视频≤8 MB 效果最佳,按帧处理。

参数 参数 默认值 用途 --model glm-4.6v 视觉模型 --max-tokens 2000 最大返回 token 数 --temperature 0.5 0-2,越低越 factual --json false 输出结构化 JSON

示例: python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Describe this" \ --temperature 0.3 \ --max-tokens 500 \ --json

与 Safe Scripts 集成 在 /root/clawd 工作区使用 clawd-run: clawd-run /root/clawd/zai-vision/scripts/vision_analyze.py image.png "Analyze" 自动备份、验证、超时保护。

错误处理 缺失 API 密钥:❌ ZAI_API_KEY environment variable not set 设置:export ZAI_API_KEY='your-key'

图像未找到:❌ Image file not found: /path/to/image.jpg 检查路径。

SDK 未安装:❌ zai-sdk not installed 安装:pip install zai-sdk

常用模式 模式 1:批量处理 for img in /path/to/images/*.png; do python3 /root/clawd/zai-vision/scripts/vision_analyze.py "$img" "Describe this image" done

模式 2:提取并保存 JSON python3 /root/clawd/zai-vision/scripts/vision_analyze.py image.jpg "Analyze" --json > output.json

模式 3:特定分析 代码截图:python3 /root/clawd/zai-vision/scripts/vision_analyze.py code.png "Extract the code and explain what it does" 表单字段:python3 /root/clawd/zai-vision/scripts/vision_analyze.py form.jpg "List all form fields and their types" 品牌规范:python3 /root/clawd/zai-vision/scripts/vision_analyze.py design.png "Check if this follows brand guidelines"

最佳实践 具体提示:"List all UI components" > "What's this?" 高分辨率:分辨率越高理解越好 Temperature:0.2-0.5 偏事实,0.7-1.0 偏创意 视频限制:≤8 MB 错误处理:检查返回码与报错信息

资源 scripts/vision_analyze.py - 图像分析 scripts/video_analyze.py - 视频分析 references/API.md - 完整 API 文档与示例

使用场景 需要分析截图、照片、图像 OCR 提取文本 理解技术图或图表 诊断截图错误 分析 UI 设计或原型 描述视频场景 以编程方式处理视觉内容

详见 references/API.md

数据来源ClawHub ↗ · 中文优化:龙虾技能库