Babata Browser — Babata 浏览器
v2.0.0巴巴塔浏览器控制技能 v2.0 — 基于 Playwright 的轻量浏览器自动化,自然语言控制,Accessibility Tree 优先,零额外 AI 依赖
运行时依赖
安装命令
点击复制技能文档
Babata Browser 🦞 v2.0 轻量浏览器自动化技能。给巴巴塔装一双"网页上的手"——打开网页、填写表单、点击按钮、提取数据、截图保存。
架构概览 信息获取优先级: 验证/事实查询 → API/CLI(最快,不走浏览器) 探索/开放搜索 → web_search(Tavily,多角度) JS渲染/交互/截图 → babata-browser(兜底)
浏览器操作策略(v2.0 升级): 获取结构 + 可交互元素 → Accessibility Snapshot(首选,Token高效) 提取页面文字 → get_text(结构化) 获取页面视觉状态 → screenshot(兜底)
对比 browser-use browser-use babata-browser v2.0 依赖 50+包 仅 Playwright 安装 300MB+/20min 100MB/2min 控浏览器 ✅ ✅ AI决策 内置LLM 巴巴塔LLM直接决策 页面交互策略 视觉模型驱动 Accessibility Tree优先 Token效率 低(截图+视觉AI) 高(结构化数据) 中文任务 一般 ✅ 原生中文
核心设计原则
- Accessibility Tree 优先 源自 Playwright MCP 设计模式。优先使用Playwright的Accessibility Tree快照获取页面结构和可交互元素,而不是视觉模型/截图。Token效率更高,且不需要额外AI视觉能力。
场景 首选方式 兜底 获取页面结构和可交互元素 Accessibility Snapshot — 提取页面文字 get_text / get_html — 获取页面视觉状态 — screenshot
- CLI 轻量 > MCP 深度 微软Playwright团队已验证:CLI模式Token效率高于MCP。巴巴塔遵循同样原则:
- 巴巴塔LLM直接决策 不内嵌LLM,所有操作决策由巴巴塔的DeepSeek模型完成。优势:
安装 前置依赖 pip install playwright python -m playwright install chromium 安装本包(全局可导入) # 从 babata-browser 目录执行 cd skills/babata-browser pip install -e . 安装后可从任意目录 import,包括 cron 隔离会话。
使用 from scripts.babata_browser import execute_task # 一句话操控浏览器 execute_task("打开卫健委官网,搜索最新政策,提取前5条标题") execute_task("打开 https://example.com,搜索 医疗AI,提取结果") execute_task("打开登录页,填表提交,截图保存")
CLI 模式 babata-browser '打开 GitHub Trending,提取热门项目' --json
内置能力 动作 说明 策略 goto 导航到URL CLI get_text 提取页面文字(Accessibility Tree优先) CLI get_html 获取HTML CLI click 点击元素(文本/CSS) CLI fill 填写表单 CLI get_links 提取所有链接 CLI screenshot 全页截图(Accessibility Tree不可用时兜底) CLI scroll 滚动页面 CLI execute_js 执行JavaScript CLI extract_table 智能提取表格 CLI search_and_extract 搜索+提取 CLI login_if_needed 自动登录 CLI/MCP双模式 accessibility_snapshot 获取Accessibility Tree快照(v2.0新增) CLI
应用场景 卫健委/医保局/中纪委官网动态政策抓取 政府监管系统自动填报 JS渲染页面数据采集 网页内容变化监控 自动化表单提交
变更日志 版本 日期 改动 v2.0 2026-05-07 新增Accessibility Tree优先策略、CLI/MCP双模式选择、策略表。来源:Playwright MCP设计模式 v1.0 — 初始版本