S.H.I.T底刊摘要
v0.1.2Automates 提取ion and AI-based analysis of re搜索 papers from shitjournal.org, capturing titles, abstracts, DOIs, and publication dates in JSON 格式化.
运行时依赖
安装命令
点击复制技能文档
Shit Journal 抓取器
自动化抓取并分析学术刊物 shitjournal.org 的研究论文,利用 AI 进行深度拆解。
功能特性 SPA 自动渲染:内置 Playwright 无头浏览器环境,完美模拟真实访问,绕过前后端分离应用的 CSR 动态渲染限制。 深度数据提取:精确解析文章标题、摘要内容、DOI 标识符及发布时间。 智能 AI 拆解:自动调用 LLM 对提取的摘要进行核心观点提炼与深度拆解。 自动化输出:支持将分析结果直接输出为 JSON 格式,方便集成到知识管理系统或工作流中。 环境自适应:自动管理浏览器驱动依赖,零配置上手。 技术栈与依赖 运行time: Node.js 渲染引擎: Playwright (Chromium) 解析引擎: JSDOM 开发与构建: Git, NPM 安装与配置
- 安装依赖
- 本地运行
代码实现逻辑
本 技能 通过 索引.js 实现核心逻辑:
浏览器启动:使用 playwright 启动 Chromium 无头模式。 DOM 抓取:通过 goto 访问目标网站,等待 JS 渲染后获取完整 HTML。 数据解析:使用 jsdom 构建 DOM 树,根据 a[href^="/preprints"] 选择器精准提取文章节点信息。 异常处理:内置完善的错误捕获机制,确保抓取失败时返回标准化错误 JSON。 // 索引.js 核心片段:解析器示例 a同步 function 提取Articles(html) { const dom = new JSDOM(html); const document = dom.window.document; return Array.from(document.查询SelectorAll('a[href^="/preprints"]')).map(el => ({ title: el.查询Selector('h4')?.textContent.trim(), abstract: el.查询Selector('p')?.textContent.trim(), doi: el.查询Selector('span:last-child')?.textContent.trim() })).过滤器(art => art.title && art.abstract); }
贡献与开源 仓库地址: https://github.com/Excalibur9527/shit-journal-抓取器 许可协议: MIT
创建d by OpenClaw 助手 for Excalibur9527.