首页龙虾技能列表 › Ollama OCR — 本地图像文本识别

Ollama OCR — 本地图像文本识别

v1.0.0

利用 Ollama 的本地视觉/OCR 模型从图像中识别文本,支持 glm-ocr、llava、moondream 和 llama3.2-vision 模型,适用于需要本地离线 OCR 的场景,无需依赖云 API。

0· 205·2 当前·2 累计
下载技能包
License
MIT-0
最后更新
2026/3/19
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的文件和指令与其声明的目的(本地 Ollama OCR)一致,只读取图像文件并将其发送到本地 Ollama HTTP 端点,不请求无关的凭据或安装任意代码。
评估建议
该技能似乎确实做了它声称的:读取图像并将其发送到 Ollama 实例进行 OCR。安装/使用前,请验证您在配置的主机/端口(默认 172.17.0.2:11434)上运行了可信的 Ollama 实例。如果该端点是远程的或由其他人控制,您的图像将被发送到主机外。注意,脚本硬编码了 OLLAMA_HOST/PORT;如果您的 Ollama 运行在其他位置,您必须编辑脚本(或添加环境变量支持)以指向您的实例。该技能不请求任何凭据,但请注意您传入的图像(它们将被传输到配置的 Ollama HTTP 端点)。...
详细分析 ▾
用途与能力
名称/描述(本地 Ollama OCR)与代码和 SKILL.md 匹配:脚本编码图像并将其 POST 到 Ollama /api/chat 端点进行基于模型的 OCR。没有请求无关的服务、二进制文件或凭据。
指令范围
SKILL.md 和 Python 脚本限制操作为读取指定图像文件并将其发送到 Ollama HTTP API;没有指令读取其他文件、环境秘密、系统配置或向意外端点传输数据。SKILL.md 正确记录了脚本使用的默认端点。
安装机制
这是一个仅有指令的技能,包含一个小的 Python 脚本,没有安装规格。没有内容被下载或由安装程序写入磁盘;安装风险最小。
凭证需求
该技能不请求环境变量、凭据或配置路径。它依赖于可访问的 Ollama HTTP 端点;这与其目的成比例。(注意:端点是硬编码在脚本中,而不是从环境变量读取。)
持久化与权限
该技能不请求持久/自主权限,不设置 always:true,也不修改其他技能或系统范围的设置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/19

初始发布 - 使用 Ollama 视觉模型的本地 OCR

● 无害

安装命令 点击复制

官方npx clawhub@latest install ollama-ocr
镜像加速npx clawhub@latest install ollama-ocr --registry https://cn.clawhub-mirror.com

技能文档

使用 Ollama 的本地视觉/OCR 模型从图像中识别文本。无需互联网连接 - 完全离线 OCR。

使用场景

  • 用户发送图像并希望提取文本
  • 用户要求识别截图或图片中的文本
  • 需要本地离线 OCR 无云 API 依赖
  • 处理敏感图像不应发送到第三方

可用模型

模型最适用场景大小
glm-ocr:latest中文文本 OCR~2.2GB
llava:7b通用图像理解~4.7GB
moondream轻量级视觉模型~1.5GB
llama3.2-vision:latest大型视觉模型~7GB+

Ollama 端点默认配置

http://172.17.0.2:11434(Docker 容器到主机网关) 注意: 端点预配置为在 Docker 中运行的 OpenClaw 访问主机 Ollama。如果您的设置不同,请调整 ollama_ocr.py 中的 OLLAMA_HOST

使用方法

命令行

python3 ollama_ocr.py /path/to/image.jpg [model_name]
示例:
python3 ollama_ocr.py receipt.png glm-ocr:latest
python3 ollama_ocr.py screenshot.jpg llava:7b

Python API

from ollama_ocr import ollama_ocr
# 基本 OCR 使用默认模型(glm-ocr)
result = ollama_ocr('/path/to/image.jpg')
# 指定模型
result = ollama_ocr('/path/to/image.jpg', 'glm-ocr:latest')
print(result)

激活该技能的示例提示

  • "识别这张图片里的文字"
  • "帮我 OCR 一下这个截图"
  • "Extract text from this image"
  • "What text is in this screenshot?"

注意事项

  • 图像路径必须是绝对路径或相对于脚本位置的相对路径
  • 对于大图像,考虑先缩放以避免超时
  • glm-ocr 最适用于中文文本
  • 一些模型可能有输出怪癖(例如,glm-ocr 偶尔重复输出)
  • 首次调用可能较慢如果模型未缓存在内存中

要求

  • 已安装并运行 Ollama
  • 已下载至少一个视觉/OCR 模型(例如,ollama pull glm-ocr:latest
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务