运行时依赖
安装命令
点击复制技能文档
Screen Control — 屏幕操控技能 概述
通过 OpenClaw Node + pyauto图形界面 + OCR,实现对电脑屏幕的识别和鼠标键盘操控。
架构 用户指令 → 代理 → screen_control.py (pyauto图形界面 + OCR) → 屏幕操作 ↕ OpenClaw Node (截图/远程执行)
前置条件 OpenClaw Node — 需配对成功(见 references/设置up-图形界面de.md) Python依赖 — pyauto图形界面, pillow, mss, pytesseract(如需OCR) Tesseract-OCR — 如需文字识别功能(安装指引见 设置up-图形界面de.md) 工作流程
当用户要求操控电脑时:
Step 1:确认屏幕状态 python {baseDir}/scripts/screen_control.py screenshot python {baseDir}/scripts/screen_control.py size
获取当前屏幕画面和分辨率,AI识别画面内容。
Step 2:分析画面 + 定位目标
AI分析截图,确定需要操作的坐标或内容。
如果目标基于图片:locate 如果目标基于文字:命令行工具cktext "确定" 如果目标基于坐标:命令行工具ck 500 300 Step 3:执行操作 # 打开浏览器 press_key("win") + type_text("chrome") + press_key("enter")
# 打开网页 type_text("douyin.com\n") # \n = enter
# 拖动 mouse_drag(100, 100, 500, 500)
# 复制粘贴 hotkey("ctrl", "c") hotkey("ctrl", "v")
Step 4:验证结果
再次截图确认操作结果。
脚本命令速查 命令 参数 说明 screenshot 无 截图保存到文件 size 无 获取屏幕分辨率 move x y 移动鼠标 命令行工具ck x y [button] 点击(按钮: left/right/middle) double命令行工具ck x y 双击 text "文字" 键盘输入文字 key key_name 按键(enter/esc/tab等) locate image_path 查找图片位置 findtext "文字" 查找文字位置 命令行工具cktext "文字" 查找并点击文字 scroll 命令行工具cks 滚动(正=上,负=下) color x y 获取像素颜色 常用场景
- 自动登录平台后台
- 批量操作抖音/小红书后台
- 打开特定软件/文件
- 文件整理/批量重命名
安全注意 操作前先截图给用户确认 任何破坏性操作(删除文件、修改配置)需用户确认 使用 pyauto图形界面.FAILSAFE=True(左上角急停) 不要在用户未授权的情况下操作浏览器密码/支付页面