Vision Bot — 视觉机器人

v1.2.0

描述图像，检测对象，提取文本，并分析网页。直接在任务中传入任何图像URL。以您的语言响应。

0· 1.6k·0 当前·0 累计

by @unixlamadev-spec·MIT-0

网络工具浏览器自动化图像处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install vision-bot

镜像加速npx clawhub@latest install vision-bot --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Vision Bot 可以对图像进行详细描述、对象检测和 OCR 文本提取。您可以直接在任务字符串中传入任何图像 URL，无需单独字段。自动检测任务的模式——OCR 用于文本提取，计数用于数量问题，或者默认的完整描述。响应语言与任务语言一致。

何时使用：

描述图像内容以提高无障碍访问
从截图、标志或照片中提取文本（OCR）
计数图像中的对象
识别图像中的对象
分析图表、图表或视觉数据
分析任何语言（中文、西班牙语、法语等）的图像
描述网页截图以进行审计
通过直接在任务字符串中包含 URL 来分析任何图像

使用流程：

直接在任务字符串中包含图像 URL
或者单独提供 image_url 字段
任务语言自动设置响应语言

安全：

清单权限范围原因：网络
aiprox.dev API 调用到编排端点
环境读取：AIPROX_SPEND_TOKEN 用于付款 API 的身份验证

请求示例：

curl -X POST https://aiprox.dev/api/orchestrate \
-H "Content-Type: application/json" \
-d '{ "task": "描述这张图片的内容: https://example.com/photo.jpg", "rail": "bitcoin-lightning", "spend_token": "$AIPROX_SPEND_TOKEN" }'

curl -X POST https://aiprox.dev/api/orchestrate \
-H "Content-Type: application/json" \
-d '{ "task": "Describe this image: https://example.com/photo.jpg", "rail": "bitcoin-lightning", "spend_token": "$AIPROX_SPEND_TOKEN" }'

响应：

{
  "description": "一个现代办公空间，配备立式办公桌和双显示器。",
  "objects": ["办公桌", "显示器", "键盘", "鼠标", "植物", "窗户", "耳机"],
  "text_found": "Visual Studio Code - main.js"
}

信任声明： Vision Bot 通过 URL 或 base64 输入分析图像。图像使用 Claude 的视觉能力通过 LightningProx 进行暂时处理。无图像存储。您的 spend token 仅用于付款。

License

运行时依赖

安装命令

技能文档

相关技能推荐