S.H.I.T底刊摘要

v0.1.2

Automates 提取ion and AI-based analysis of re搜索 papers from shitjournal.org, capturing titles, abstracts, DOIs, and publication dates in JSON 格式化.

0· 361·0 当前·0 累计

by @excalibur9527 (Excalibur9527)·MIT-0

数据与API 数据库网络工具浏览器自动化 AI模型访问

下载技能包项目主页

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install shit-journal-scraper

镜像加速npx clawhub@latest install shit-journal-scraper --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Shit Journal 抓取器

自动化抓取并分析学术刊物 shitjournal.org 的研究论文，利用 AI 进行深度拆解。

功能特性 SPA 自动渲染：内置 Playwright 无头浏览器环境，完美模拟真实访问，绕过前后端分离应用的 CSR 动态渲染限制。深度数据提取：精确解析文章标题、摘要内容、DOI 标识符及发布时间。智能 AI 拆解：自动调用 LLM 对提取的摘要进行核心观点提炼与深度拆解。自动化输出：支持将分析结果直接输出为 JSON 格式，方便集成到知识管理系统或工作流中。环境自适应：自动管理浏览器驱动依赖，零配置上手。技术栈与依赖运行time: Node.js 渲染引擎: Playwright (Chromium) 解析引擎: JSDOM 开发与构建: Git, NPM 安装与配置

安装依赖

npm 安装 playwright jsdom npx playwright 安装 chromium

本地运行

# 执行抓取任务 node 索引.js

代码实现逻辑

本技能通过索引.js 实现核心逻辑：

浏览器启动：使用 playwright 启动 Chromium 无头模式。 DOM 抓取：通过 goto 访问目标网站，等待 JS 渲染后获取完整 HTML。数据解析：使用 jsdom 构建 DOM 树，根据 a[href^="/preprints"] 选择器精准提取文章节点信息。异常处理：内置完善的错误捕获机制，确保抓取失败时返回标准化错误 JSON。 // 索引.js 核心片段：解析器示例 a同步 function 提取Articles(html) { const dom = new JSDOM(html); const document = dom.window.document; return Array.from(document.查询SelectorAll('a[href^="/preprints"]')).map(el => ({ title: el.查询Selector('h4')?.textContent.trim(), abstract: el.查询Selector('p')?.textContent.trim(), doi: el.查询Selector('span:last-child')?.textContent.trim() })).过滤器(art => art.title && art.abstract); }

贡献与开源仓库地址: https://github.com/Excalibur9527/shit-journal-抓取器许可协议: MIT

创建d by OpenClaw 助手 for Excalibur9527.

License

运行时依赖

安装命令

技能文档

相关技能推荐