Ollama OCR — 本地图像文本识别
v1.0.0利用 Ollama 的本地视觉/OCR 模型从图像中识别文本,支持 glm-ocr、llava、moondream 和 llama3.2-vision 模型,适用于需要本地离线 OCR 的场景,无需依赖云 API。
0· 205·2 当前·2 累计
安全扫描
OpenClaw
安全
high confidence该技能的文件和指令与其声明的目的(本地 Ollama OCR)一致,只读取图像文件并将其发送到本地 Ollama HTTP 端点,不请求无关的凭据或安装任意代码。
评估建议
该技能似乎确实做了它声称的:读取图像并将其发送到 Ollama 实例进行 OCR。安装/使用前,请验证您在配置的主机/端口(默认 172.17.0.2:11434)上运行了可信的 Ollama 实例。如果该端点是远程的或由其他人控制,您的图像将被发送到主机外。注意,脚本硬编码了 OLLAMA_HOST/PORT;如果您的 Ollama 运行在其他位置,您必须编辑脚本(或添加环境变量支持)以指向您的实例。该技能不请求任何凭据,但请注意您传入的图像(它们将被传输到配置的 Ollama HTTP 端点)。...详细分析 ▾
✓ 用途与能力
名称/描述(本地 Ollama OCR)与代码和 SKILL.md 匹配:脚本编码图像并将其 POST 到 Ollama /api/chat 端点进行基于模型的 OCR。没有请求无关的服务、二进制文件或凭据。
✓ 指令范围
SKILL.md 和 Python 脚本限制操作为读取指定图像文件并将其发送到 Ollama HTTP API;没有指令读取其他文件、环境秘密、系统配置或向意外端点传输数据。SKILL.md 正确记录了脚本使用的默认端点。
✓ 安装机制
这是一个仅有指令的技能,包含一个小的 Python 脚本,没有安装规格。没有内容被下载或由安装程序写入磁盘;安装风险最小。
✓ 凭证需求
该技能不请求环境变量、凭据或配置路径。它依赖于可访问的 Ollama HTTP 端点;这与其目的成比例。(注意:端点是硬编码在脚本中,而不是从环境变量读取。)
✓ 持久化与权限
该技能不请求持久/自主权限,不设置 always:true,也不修改其他技能或系统范围的设置。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/3/19
初始发布 - 使用 Ollama 视觉模型的本地 OCR
● 无害
安装命令 点击复制
官方npx clawhub@latest install ollama-ocr
镜像加速npx clawhub@latest install ollama-ocr --registry https://cn.clawhub-mirror.com
技能文档
使用 Ollama 的本地视觉/OCR 模型从图像中识别文本。无需互联网连接 - 完全离线 OCR。
使用场景
- 用户发送图像并希望提取文本
- 用户要求识别截图或图片中的文本
- 需要本地离线 OCR 无云 API 依赖
- 处理敏感图像不应发送到第三方
可用模型
| 模型 | 最适用场景 | 大小 |
|---|---|---|
glm-ocr:latest | 中文文本 OCR | ~2.2GB |
llava:7b | 通用图像理解 | ~4.7GB |
moondream | 轻量级视觉模型 | ~1.5GB |
llama3.2-vision:latest | 大型视觉模型 | ~7GB+ |
Ollama 端点默认配置
http://172.17.0.2:11434(Docker 容器到主机网关)
注意: 端点预配置为在 Docker 中运行的 OpenClaw 访问主机 Ollama。如果您的设置不同,请调整 ollama_ocr.py 中的 OLLAMA_HOST。使用方法
命令行
python3 ollama_ocr.py /path/to/image.jpg [model_name]
示例:
python3 ollama_ocr.py receipt.png glm-ocr:latest
python3 ollama_ocr.py screenshot.jpg llava:7b
Python API
from ollama_ocr import ollama_ocr
# 基本 OCR 使用默认模型(glm-ocr)
result = ollama_ocr('/path/to/image.jpg')
# 指定模型
result = ollama_ocr('/path/to/image.jpg', 'glm-ocr:latest')
print(result)
激活该技能的示例提示
- "识别这张图片里的文字"
- "帮我 OCR 一下这个截图"
- "Extract text from this image"
- "What text is in this screenshot?"
注意事项
- 图像路径必须是绝对路径或相对于脚本位置的相对路径
- 对于大图像,考虑先缩放以避免超时
glm-ocr最适用于中文文本- 一些模型可能有输出怪癖(例如,glm-ocr 偶尔重复输出)
- 首次调用可能较慢如果模型未缓存在内存中
要求
- 已安装并运行 Ollama
- 已下载至少一个视觉/OCR 模型(例如,
ollama pull glm-ocr:latest)
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制