📦 Paper Summary Scripteddownload — 论文摘要脚本化下载

v1.0.0

支持 arxiv 论文 PDF 或本地论文文件,通过预处理脚本提取文本、清洗文本,并生成摘要版、详细版……

1· 16·0 当前·0 累计
crw0149 头像by @crw0149 (CRW0149)
下载技能包
最后更新
2026/4/20
0
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
安全
high confidence
该技能的文件和说明与其既定目的一致:确定性地下载 arXiv PDF 或读取本地论文文件,提取并清理文本,生成四阶段摘要;它不索取任何无关的机密或特权系统访问权限。
评估建议
该技能如其所言:仅从 arXiv 下载 PDF,并读取你传入的本地文件路径;提取文本(PDF 需 pypdf)。下载的 PDF 与提取文本将写入输出目录(示例为 ./runs/paper-summary),随后 agent 会生成三阶段摘要及一次质量检查。使用前注意:(1) 仅传入可信本地路径(脚本会打开它们);(2) 无内置下载大小或存储限制——请设置合适输出目录并监控磁盘空间;(3) 若需提取 PDF 文本,请安装 pypdf;(4) 提示要求类引用的支持证据(页码),但提取的纯文本可能不含页码标记,贡献提取步骤需仔细核对。除 arxiv.org 外,无需凭证或其他外部端点。...
详细分析 ▾
用途与能力
名称/描述与代码及 SKILL.md 一致;唯一网络访问为确定性 arXiv PDF 下载逻辑,本地文件读取与文本提取系预处理摘要工具所需。
指令范围
运行时指令仅调用所包含的 Python 脚本,随后读取 manifest/extracted text 并执行生成阶段。该脚本会正常读取你提供的本地文件,并在指定的 output-dir 下写入输出。这是预期行为,但请注意,它会访问你通过 --paperfiles 传入的任何本地文件路径。
安装机制
无安装配置;该技能为纯指令型,附带一个脚本。脚本使用标准库模块,并可选使用第三方库 pypdf 提取 PDF;处理 PDF 时需在运行时手动安装 pypdf,技能本身不含安装器。不从非可信源下载——PDF 仅取自 arxiv.org。
凭证需求
无需环境变量、凭据或配置文件路径。脚本仅执行用户提供的 arXiv 下载和本地文件读取,不会请求或访问任何无关的机密信息。
持久化与权限
始终为 false,且该 skill 不会尝试修改其他 skill 或系统级设置。它仅将输出写入用户指定的输出目录。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/20

- “paper-summary-scripted” 技能首次发布。 - 支持在摘要前对 arXiv PDF 链接或本地论文文件进行确定性预处理。 - 执行四阶段流程:生成摘要、详细版、提取贡献点、最终一致性/质量检查。 - 通过打包脚本确保生成前完成文本提取与清洗。 - 严格避免网页/HTML 解析,仅处理 PDF。 - 提供健壮的错误处理,对不完整或失败的提取具备清单感知。

可疑

安装命令

点击复制
官方npx clawhub@latest install paper-summary-scripted
镜像加速npx clawhub@latest install paper-summary-scripted --registry https://cn.longxiaskill.com

技能文档

# 带脚本的论文摘要生成 ## 概述 当 arXiv 论文 URL 或本地文件需确定性预处理后再跑四阶段摘要流程时调用。脚本先下载 arXiv PDF 到本地,再完成提取与清洗;不解析网页 HTML。随后用同一份清洗文本并行生成三份独立内容,最后第四阶段校验一致性。 ## 标准输入 归一化为: - language - paperurls(arXiv 输入) - paperfiles 空串、[]nullNone、缺失字段或空列表均视为空。 ## 工作流 1. 若 paperurlspaperfiles 皆空,立即报错。 2. 执行预处理脚本: python scripts/process_papers.py --language "" --paperurls '' --paperfiles '' --output-dir ./runs/paper-summary 3. 读取输出目录下 manifest.json。 4. 对每项成功记录,读取 extracted_text_path 内容作为 cleaned_text。 5. 用同一份 cleaned_text 分别生成: - 摘要版 - 详细版 - 贡献提取 6. 三阶段完成后,用以下四项跑质量评估: - 原始清洗文本 - 摘要版 - 详细版 - 贡献提取 7. 用 references/output-template.md 合并输出。 ## 预处理规则 脚本只做确定性预处理。URL 视为 arXiv 标识符、摘要页或 PDF 直链,必须能下载到 PDF。不解析网页、不爬 HTML。不以脚本预览替代完整提取文本。manifest 报错、部分提取或格式不支持视为源文件可能不完整。 ## 生成阶段规则 详见 references/prompts.md 中的 Dify 式提示与变量映射。 ### 摘要版 用目标语言生成,必须包含(如有): - 原题 - 研究背景/痛点 - 核心方法名 - 至少一项关键实验数据 若无实验结果,写“原文未提供具体实验数据”或对应语言版本。不添加评价或空话。 ### 详细版 用目标语言,严格按以下结构: - ### 1. 背景与动机 - ### 2. 核心方法 - ### 3. 实验设置 - ### 4. 主要结果与消融实验 - ### 5. 局限性(若有) 仅写入提取文本支持的内容。 ### 贡献提取 用目标语言列出。每条贡献须为独立创新点,非实验现象;须给出文本依据,不编造引用或页码。 ### 质量评估 仅在三阶段生成后执行。分别将摘要、详细、贡献与原始清洗文本比对,每项给 1-5 分并列出具体错误。 ## 置信度规则 当 manifest 出现以下情况时降低置信或提示提取风险: - 下载失败 - arXiv 源归一化失败 - 部分解析 - 回退解码 - 缺失量化证据 - PDF/Word 解析异常 ## 硬性约束 - 绝不编造提取文本中不存在的内容。 - 三阶段生成在质量评估前保持独立。 - 保持用户指定语言。 - 不主动合并多篇论文,除非用户明确要求对比。 ## 资源 - scripts/process_papers.py:归一化 arXiv 输入、下载或读本地文件、提取清洗并输出 manifest.json - references/prompts.md:Dify 式提示逻辑与变量映射 - references/output-template.md:最终响应模板 - references/script-usage.md:脚本 I/O 与 manifest 字段说明

数据来源ClawHub ↗ · 中文优化:龙虾技能库