Ollama OCR — 本地图像文本识别

Name: Ollama OCR — 本地图像文本识别
Author: hongjiahao371-pixel

hongjiahao371-pixel

Ollama OCR — 本地图像文本识别

v1.0.0

利用 Ollama 的本地视觉/OCR 模型从图像中识别文本，支持 glm-ocr、llava、moondream 和 llama3.2-vision 模型，适用于需要本地离线 OCR 的场景，无需依赖云 API。

0· 205·2 当前·2 累计

by @hongjiahao371-pixel·MIT-0

AI模型访问 API工具云服务

下载技能包

License

MIT-0

最后更新

2026/3/19

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能的文件和指令与其声明的目的（本地 Ollama OCR）一致，只读取图像文件并将其发送到本地 Ollama HTTP 端点，不请求无关的凭据或安装任意代码。

评估建议

该技能似乎确实做了它声称的：读取图像并将其发送到 Ollama 实例进行 OCR。安装/使用前，请验证您在配置的主机/端口（默认 172.17.0.2:11434）上运行了可信的 Ollama 实例。如果该端点是远程的或由其他人控制，您的图像将被发送到主机外。注意，脚本硬编码了 OLLAMA_HOST/PORT；如果您的 Ollama 运行在其他位置，您必须编辑脚本（或添加环境变量支持）以指向您的实例。该技能不请求任何凭据，但请注意您传入的图像（它们将被传输到配置的 Ollama HTTP 端点）。...

详细分析 ▾

✓ 用途与能力

名称/描述（本地 Ollama OCR）与代码和 SKILL.md 匹配：脚本编码图像并将其 POST 到 Ollama /api/chat 端点进行基于模型的 OCR。没有请求无关的服务、二进制文件或凭据。

✓ 指令范围

SKILL.md 和 Python 脚本限制操作为读取指定图像文件并将其发送到 Ollama HTTP API；没有指令读取其他文件、环境秘密、系统配置或向意外端点传输数据。SKILL.md 正确记录了脚本使用的默认端点。

✓ 安装机制

这是一个仅有指令的技能，包含一个小的 Python 脚本，没有安装规格。没有内容被下载或由安装程序写入磁盘；安装风险最小。

✓ 凭证需求

该技能不请求环境变量、凭据或配置路径。它依赖于可访问的 Ollama HTTP 端点；这与其目的成比例。（注意：端点是硬编码在脚本中，而不是从环境变量读取。）

✓ 持久化与权限

该技能不请求持久/自主权限，不设置 always:true，也不修改其他技能或系统范围的设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/19

初始发布 - 使用 Ollama 视觉模型的本地 OCR

● 无害

安装命令点击复制

官方npx clawhub@latest install ollama-ocr

镜像加速npx clawhub@latest install ollama-ocr --registry https://cn.clawhub-mirror.com

技能文档

使用 Ollama 的本地视觉/OCR 模型从图像中识别文本。无需互联网连接 - 完全离线 OCR。

使用场景

用户发送图像并希望提取文本
用户要求识别截图或图片中的文本
需要本地离线 OCR 无云 API 依赖
处理敏感图像不应发送到第三方

可用模型

模型	最适用场景	大小
`glm-ocr:latest`	中文文本 OCR	~2.2GB
`llava:7b`	通用图像理解	~4.7GB
`moondream`	轻量级视觉模型	~1.5GB
`llama3.2-vision:latest`	大型视觉模型	~7GB+

Ollama 端点默认配置

http://172.17.0.2:11434（Docker 容器到主机网关） 注意： 端点预配置为在 Docker 中运行的 OpenClaw 访问主机 Ollama。如果您的设置不同，请调整 ollama_ocr.py 中的 OLLAMA_HOST。

使用方法

命令行

python3 ollama_ocr.py /path/to/image.jpg [model_name]

示例：

python3 ollama_ocr.py receipt.png glm-ocr:latest
python3 ollama_ocr.py screenshot.jpg llava:7b

Python API

from ollama_ocr import ollama_ocr
# 基本 OCR 使用默认模型（glm-ocr）
result = ollama_ocr('/path/to/image.jpg')
# 指定模型
result = ollama_ocr('/path/to/image.jpg', 'glm-ocr:latest')
print(result)

激活该技能的示例提示

"识别这张图片里的文字"
"帮我 OCR 一下这个截图"
"Extract text from this image"
"What text is in this screenshot?"

注意事项

图像路径必须是绝对路径或相对于脚本位置的相对路径
对于大图像，考虑先缩放以避免超时
glm-ocr 最适用于中文文本
一些模型可能有输出怪癖（例如，glm-ocr 偶尔重复输出）
首次调用可能较慢如果模型未缓存在内存中

要求

已安装并运行 Ollama
已下载至少一个视觉/OCR 模型（例如，ollama pull glm-ocr:latest）

Use this skill when you need to recognize text from images using Ollama's local vision/OCR models. No internet required - fully offline OCR.

When to Use

User sends an image and wants text extraction
User asks to recognize text from a screenshot or picture
Need local offline OCR without cloud API dependency
Processing sensitive images that shouldn't be sent to third parties

Models Available

Model	Best For	Size
`glm-ocr:latest`	Chinese text OCR	~2.2GB
`llava:7b`	General image understanding	~4.7GB
`moondream`	Lightweight vision model	~1.5GB
`llama3.2-vision:latest`	Large vision model	~7GB+

Ollama Endpoint

Default: http://172.17.0.2:11434 (Docker container to host gateway)

Note: Endpoint is pre-configured for OpenClaw running in Docker accessing host Ollama. Adjust OLLAMA_HOST in ollama_ocr.py if your setup differs.

Usage

Command Line

python3 ollama_ocr.py /path/to/image.jpg [model_name]

Examples:

python3 ollama_ocr.py receipt.png glm-ocr:latest
python3 ollama_ocr.py screenshot.jpg llava:7b

Python API

from ollama_ocr import ollama_ocr
# Basic OCR with default model (glm-ocr)
result = ollama_ocr('/path/to/image.jpg')
# Specify model
result = ollama_ocr('/path/to/image.jpg', 'glm-ocr:latest')print(result)

Example Prompts to Activate This Skill

"识别这张图片里的文字"
"帮我 OCR 一下这个截图"
"Extract text from this image"
"What text is in this screenshot?"

Notes

Image path must be absolute or relative to script location
For large images, consider resizing first to avoid timeout
glm-ocr works best for Chinese text
Some models may have output quirks (e.g., glm-ocr occasionally repeats)
First call may be slow if model isn't cached in memory

Requirements

Ollama installed and running
At least one vision/OCR model downloaded (e.g., ollama pull glm-ocr:latest)

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

使用场景

可用模型

Ollama 端点默认配置

使用方法

命令行

Python API

激活该技能的示例提示

注意事项

要求

When to Use

Models Available

Ollama Endpoint

Usage

Command Line

Python API

Example Prompts to Activate This Skill

Notes

Requirements

安装命令点击复制