ollama-vision

v1.0.0

本地调用 Ollama qwen3-vl:4b 模型自动压缩并分析图片，支持描述、OCR 文字提取和自定义信息抽取。

0· 486·0 当前·0 累计

by @lzm2023 (LZM2023)·MIT-0

生产力工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install ollama-vision

镜像加速npx clawhub@latest install ollama-vision --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Ollama Vision 技能

本地视觉分析技能，调用 Ollama 的 qwen3-vl:4b 模型分析图片。

Description

此技能允许在保留 Kimi 作为主对话模型的前提下，使用本地部署的 Ollama 视觉模型（qwen3-vl:4b）分析图片内容。支持 OCR、图片描述、文字提取等功能。

Requirements Ollama 必须已安装并运行 qwen3-vl:4b 模型必须已下载（或自动下载） Python 3.8+ 环境 Pillow 库（用于图片压缩：pip 安装 Pillow） Features 自动压缩：超过 2MB 的图片会自动压缩后再分析多模式分析：describe（描述）、ocr（文字提取）、提取（自定义提取）临时文件清理：压缩产生的临时文件会自动删除质量优先：优先降低 JPEG 质量，必要时缩小尺寸工具s analyze_image

分析图片内容，支持多种分析模式。

参数：

image_path (string, required): 图片文件的完整路径 mode (string, optional): 分析模式，可选值： "describe" - 详细描述图片内容（默认） "ocr" - 提取图片中的所有文字 "提取" - 根据自定义提示词提取特定信息 prompt (string, optional): 当 mode="提取" 时的自定义提示词

分析结果的文本字符串

示例：

# 描述图片 analyze_image(image_path="C:\\path\\to\\image.jpg")

# OCR 提取文字 analyze_image(image_path="C:\\path\\to\\image.jpg", mode="ocr")

# 自定义提取 analyze_image( image_path="C:\\path\\to\\image.jpg", mode="提取", prompt="提取图片中的表格数据" )

Usage Flow 用户发送图片消息代理检测到图片，调用 analyze_image 工具工具调用本地 Ollama qwen3-vl:4b 模型分析返回分析结果给用户 Notes 首次使用 qwen3-vl:4b 时会自动下载模型（约 2-3GB）分析时间取决于图片大小和复杂度（通常 5-30 秒）需要足够的显存（4B 模型建议 6GB+）

License

运行时依赖

安装命令

技能文档

相关技能推荐