Doorstep Screen Control - 屏幕操控

v1.0.0

屏幕控制技能 - 通过OpenClaw Node + pyauto图形界面实现电脑屏幕识别和鼠标键盘操控。功能：(1) 截图获取屏幕画面，(2) OCR文字识别定位，(3) 图片匹配定位，(4) 鼠标移动/点击/拖拽，(5) 键盘输入/快捷键，(6) 基于视觉信息的自动化操作。Use when: (1) 需要远程操...

0· 6·0 当前·0 累计

by @ncsimok

设计工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install doorstep-screen-control

镜像加速npx clawhub@latest install doorstep-screen-control --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Screen Control — 屏幕操控技能概述

通过 OpenClaw Node + pyauto图形界面 + OCR，实现对电脑屏幕的识别和鼠标键盘操控。

架构用户指令 → 代理 → screen_control.py (pyauto图形界面 + OCR) → 屏幕操作 ↕ OpenClaw Node (截图/远程执行)

前置条件 OpenClaw Node — 需配对成功（见 references/设置up-图形界面de.md） Python依赖 — pyauto图形界面, pillow, mss, pytesseract（如需OCR） Tesseract-OCR — 如需文字识别功能（安装指引见设置up-图形界面de.md）工作流程

当用户要求操控电脑时：

Step 1：确认屏幕状态 python {baseDir}/scripts/screen_control.py screenshot python {baseDir}/scripts/screen_control.py size

获取当前屏幕画面和分辨率，AI识别画面内容。

Step 2：分析画面 + 定位目标

AI分析截图，确定需要操作的坐标或内容。

如果目标基于图片：locate 如果目标基于文字：命令行工具cktext "确定" 如果目标基于坐标：命令行工具ck 500 300 Step 3：执行操作 # 打开浏览器 press_key("win") + type_text("chrome") + press_key("enter")

# 打开网页 type_text("douyin.com\n") # \n = enter

# 拖动 mouse_drag(100, 100, 500, 500)

# 复制粘贴 hotkey("ctrl", "c") hotkey("ctrl", "v")

Step 4：验证结果

再次截图确认操作结果。

脚本命令速查命令参数说明 screenshot 无截图保存到文件 size 无获取屏幕分辨率 move x y 移动鼠标命令行工具ck x y [button] 点击（按钮: left/right/middle） double命令行工具ck x y 双击 text "文字" 键盘输入文字 key key_name 按键（enter/esc/tab等） locate image_path 查找图片位置 findtext "文字" 查找文字位置命令行工具cktext "文字" 查找并点击文字 scroll 命令行工具cks 滚动（正=上，负=下） color x y 获取像素颜色常用场景

自动登录平台后台

截图 → 定位登录框坐标 → 输入账号密码 → 点击登录按钮

批量操作抖音/小红书后台

截图 → 找到发布按钮 → 点开 → 上传视频/图片 → 填写标题 → 发布

打开特定软件/文件

按Win键 → 搜索程序名 → 回车打开

文件整理/批量重命名

打开文件夹 → 选中文件 → 执行操作

安全注意操作前先截图给用户确认任何破坏性操作（删除文件、修改配置）需用户确认使用 pyauto图形界面.FAILSAFE=True（左上角急停）不要在用户未授权的情况下操作浏览器密码/支付页面

运行时依赖

安装命令

技能文档

相关技能推荐