📦 Paper Summary Scripteddownload — 论文摘要脚本化下载

Name: Paper Summary Scripteddownload — 论文摘要脚本化下载
Rating: 1

v1.0.0

支持 arxiv 论文 PDF 或本地论文文件，通过预处理脚本提取文本、清洗文本，并生成摘要版、详细版……

1· 16·0 当前·0 累计

by @crw0149 (CRW0149)

文件处理 AI模型访问

下载技能包

最后更新

2026/4/20

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

安全

high confidence

该技能的文件和说明与其既定目的一致：确定性地下载 arXiv PDF 或读取本地论文文件，提取并清理文本，生成四阶段摘要；它不索取任何无关的机密或特权系统访问权限。

评估建议

该技能如其所言：仅从 arXiv 下载 PDF，并读取你传入的本地文件路径；提取文本（PDF 需 pypdf）。下载的 PDF 与提取文本将写入输出目录（示例为 ./runs/paper-summary），随后 agent 会生成三阶段摘要及一次质量检查。使用前注意：(1) 仅传入可信本地路径（脚本会打开它们）；(2) 无内置下载大小或存储限制——请设置合适输出目录并监控磁盘空间；(3) 若需提取 PDF 文本，请安装 pypdf；(4) 提示要求类引用的支持证据（页码），但提取的纯文本可能不含页码标记，贡献提取步骤需仔细核对。除 arxiv.org 外，无需凭证或其他外部端点。...

详细分析 ▾

✓ 用途与能力

名称/描述与代码及 SKILL.md 一致；唯一网络访问为确定性 arXiv PDF 下载逻辑，本地文件读取与文本提取系预处理摘要工具所需。

ℹ 指令范围

运行时指令仅调用所包含的 Python 脚本，随后读取 manifest/extracted text 并执行生成阶段。该脚本会正常读取你提供的本地文件，并在指定的 output-dir 下写入输出。这是预期行为，但请注意，它会访问你通过 --paperfiles 传入的任何本地文件路径。

✓ 安装机制

无安装配置；该技能为纯指令型，附带一个脚本。脚本使用标准库模块，并可选使用第三方库 pypdf 提取 PDF；处理 PDF 时需在运行时手动安装 pypdf，技能本身不含安装器。不从非可信源下载——PDF 仅取自 arxiv.org。

✓ 凭证需求

无需环境变量、凭据或配置文件路径。脚本仅执行用户提供的 arXiv 下载和本地文件读取，不会请求或访问任何无关的机密信息。

✓ 持久化与权限

始终为 false，且该 skill 不会尝试修改其他 skill 或系统级设置。它仅将输出写入用户指定的输出目录。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/20

- “paper-summary-scripted” 技能首次发布。 - 支持在摘要前对 arXiv PDF 链接或本地论文文件进行确定性预处理。 - 执行四阶段流程：生成摘要、详细版、提取贡献点、最终一致性/质量检查。 - 通过打包脚本确保生成前完成文本提取与清洗。 - 严格避免网页/HTML 解析，仅处理 PDF。 - 提供健壮的错误处理，对不完整或失败的提取具备清单感知。

● 可疑

安装命令

点击复制

官方npx clawhub@latest install paper-summary-scripted

镜像加速npx clawhub@latest install paper-summary-scripted --registry https://cn.longxiaskill.com

技能文档

# 带脚本的论文摘要生成 ## 概述当 arXiv 论文 URL 或本地文件需确定性预处理后再跑四阶段摘要流程时调用。脚本先下载 arXiv PDF 到本地，再完成提取与清洗；不解析网页 HTML。随后用同一份清洗文本并行生成三份独立内容，最后第四阶段校验一致性。 ## 标准输入归一化为： - language - paperurls（arXiv 输入） - paperfiles 空串、[]、null、None、缺失字段或空列表均视为空。 ## 工作流 1. 若 paperurls 与 paperfiles 皆空，立即报错。 2. 执行预处理脚本： python scripts/process_papers.py --language "" --paperurls '' --paperfiles '' --output-dir ./runs/paper-summary 3. 读取输出目录下 manifest.json。 4. 对每项成功记录，读取 extracted_text_path 内容作为 cleaned_text。 5. 用同一份 cleaned_text 分别生成： - 摘要版 - 详细版 - 贡献提取 6. 三阶段完成后，用以下四项跑质量评估： - 原始清洗文本 - 摘要版 - 详细版 - 贡献提取 7. 用 references/output-template.md 合并输出。 ## 预处理规则脚本只做确定性预处理。URL 视为 arXiv 标识符、摘要页或 PDF 直链，必须能下载到 PDF。不解析网页、不爬 HTML。不以脚本预览替代完整提取文本。manifest 报错、部分提取或格式不支持视为源文件可能不完整。 ## 生成阶段规则详见 references/prompts.md 中的 Dify 式提示与变量映射。 ### 摘要版用目标语言生成，必须包含（如有）： - 原题 - 研究背景/痛点 - 核心方法名 - 至少一项关键实验数据若无实验结果，写“原文未提供具体实验数据”或对应语言版本。不添加评价或空话。 ### 详细版用目标语言，严格按以下结构： - ### 1. 背景与动机 - ### 2. 核心方法 - ### 3. 实验设置 - ### 4. 主要结果与消融实验 - ### 5. 局限性（若有） 仅写入提取文本支持的内容。 ### 贡献提取用目标语言列出。每条贡献须为独立创新点，非实验现象；须给出文本依据，不编造引用或页码。 ### 质量评估仅在三阶段生成后执行。分别将摘要、详细、贡献与原始清洗文本比对，每项给 1-5 分并列出具体错误。 ## 置信度规则当 manifest 出现以下情况时降低置信或提示提取风险： - 下载失败 - arXiv 源归一化失败 - 部分解析 - 回退解码 - 缺失量化证据 - PDF/Word 解析异常 ## 硬性约束 - 绝不编造提取文本中不存在的内容。 - 三阶段生成在质量评估前保持独立。 - 保持用户指定语言。 - 不主动合并多篇论文，除非用户明确要求对比。 ## 资源 - scripts/process_papers.py：归一化 arXiv 输入、下载或读本地文件、提取清洗并输出 manifest.json - references/prompts.md：Dify 式提示逻辑与变量映射 - references/output-template.md：最终响应模板 - references/script-usage.md：脚本 I/O 与 manifest 字段说明

数据来源：ClawHub ↗ · 中文优化：龙虾技能库