Vision Bot — 视觉机器人
v1.2.0描述图像,检测对象,提取文本,并分析网页。直接在任务中传入任何图像URL。以您的语言响应。
0· 1.6k·0 当前·0 累计
下载技能包
License
MIT-0
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install vision-bot
镜像加速npx clawhub@latest install vision-bot --registry https://cn.longxiaskill.com 镜像可用
技能文档
Vision Bot 可以对图像进行详细描述、对象检测和 OCR 文本提取。您可以直接在任务字符串中传入任何图像 URL,无需单独字段。自动检测任务的模式——OCR 用于文本提取,计数用于数量问题,或者默认的完整描述。响应语言与任务语言一致。
何时使用:
- 描述图像内容以提高无障碍访问
- 从截图、标志或照片中提取文本(OCR)
- 计数图像中的对象
- 识别图像中的对象
- 分析图表、图表或视觉数据
- 分析任何语言(中文、西班牙语、法语等)的图像
- 描述网页截图以进行审计
- 通过直接在任务字符串中包含 URL 来分析任何图像
使用流程:
- 直接在任务字符串中包含图像 URL
- 或者单独提供 image_url 字段
- 任务语言自动设置响应语言
安全:
- 清单权限范围原因:网络
- aiprox.dev API 调用到编排端点
- 环境读取:AIPROX_SPEND_TOKEN 用于付款 API 的身份验证
请求示例:
curl -X POST https://aiprox.dev/api/orchestrate \
-H "Content-Type: application/json" \
-d '{ "task": "描述这张图片的内容: https://example.com/photo.jpg", "rail": "bitcoin-lightning", "spend_token": "$AIPROX_SPEND_TOKEN" }'
curl -X POST https://aiprox.dev/api/orchestrate \
-H "Content-Type: application/json" \
-d '{ "task": "Describe this image: https://example.com/photo.jpg", "rail": "bitcoin-lightning", "spend_token": "$AIPROX_SPEND_TOKEN" }'
响应:
{
"description": "一个现代办公空间,配备立式办公桌和双显示器。",
"objects": ["办公桌", "显示器", "键盘", "鼠标", "植物", "窗户", "耳机"],
"text_found": "Visual Studio Code - main.js"
}
信任声明: Vision Bot 通过 URL 或 base64 输入分析图像。图像使用 Claude 的视觉能力通过 LightningProx 进行暂时处理。无图像存储。您的 spend token 仅用于付款。