详细分析 ▾
运行时依赖
版本
- “paper-summary-scripted” 技能首次发布。 - 支持在摘要前对 arXiv PDF 链接或本地论文文件进行确定性预处理。 - 执行四阶段流程:生成摘要、详细版、提取贡献点、最终一致性/质量检查。 - 通过打包脚本确保生成前完成文本提取与清洗。 - 严格避免网页/HTML 解析,仅处理 PDF。 - 提供健壮的错误处理,对不完整或失败的提取具备清单感知。
安装命令
点击复制技能文档
# 带脚本的论文摘要生成 ## 概述 当 arXiv 论文 URL 或本地文件需确定性预处理后再跑四阶段摘要流程时调用。脚本先下载 arXiv PDF 到本地,再完成提取与清洗;不解析网页 HTML。随后用同一份清洗文本并行生成三份独立内容,最后第四阶段校验一致性。 ## 标准输入 归一化为: - language - paperurls(arXiv 输入) - paperfiles 空串、[]、null、None、缺失字段或空列表均视为空。 ## 工作流 1. 若 paperurls 与 paperfiles 皆空,立即报错。 2. 执行预处理脚本: python scripts/process_papers.py --language "" --paperurls '' --paperfiles '' --output-dir ./runs/paper-summary 3. 读取输出目录下 manifest.json。 4. 对每项成功记录,读取 extracted_text_path 内容作为 cleaned_text。 5. 用同一份 cleaned_text 分别生成: - 摘要版 - 详细版 - 贡献提取 6. 三阶段完成后,用以下四项跑质量评估: - 原始清洗文本 - 摘要版 - 详细版 - 贡献提取 7. 用 references/output-template.md 合并输出。 ## 预处理规则 脚本只做确定性预处理。URL 视为 arXiv 标识符、摘要页或 PDF 直链,必须能下载到 PDF。不解析网页、不爬 HTML。不以脚本预览替代完整提取文本。manifest 报错、部分提取或格式不支持视为源文件可能不完整。 ## 生成阶段规则 详见 references/prompts.md 中的 Dify 式提示与变量映射。 ### 摘要版 用目标语言生成,必须包含(如有): - 原题 - 研究背景/痛点 - 核心方法名 - 至少一项关键实验数据 若无实验结果,写“原文未提供具体实验数据”或对应语言版本。不添加评价或空话。 ### 详细版 用目标语言,严格按以下结构: - ### 1. 背景与动机 - ### 2. 核心方法 - ### 3. 实验设置 - ### 4. 主要结果与消融实验 - ### 5. 局限性(若有) 仅写入提取文本支持的内容。 ### 贡献提取 用目标语言列出。每条贡献须为独立创新点,非实验现象;须给出文本依据,不编造引用或页码。 ### 质量评估 仅在三阶段生成后执行。分别将摘要、详细、贡献与原始清洗文本比对,每项给 1-5 分并列出具体错误。 ## 置信度规则 当 manifest 出现以下情况时降低置信或提示提取风险: - 下载失败 - arXiv 源归一化失败 - 部分解析 - 回退解码 - 缺失量化证据 - PDF/Word 解析异常 ## 硬性约束 - 绝不编造提取文本中不存在的内容。 - 三阶段生成在质量评估前保持独立。 - 保持用户指定语言。 - 不主动合并多篇论文,除非用户明确要求对比。 ## 资源 - scripts/process_papers.py:归一化 arXiv 输入、下载或读本地文件、提取清洗并输出 manifest.json - references/prompts.md:Dify 式提示逻辑与变量映射 - references/output-template.md:最终响应模板 - references/script-usage.md:脚本 I/O 与 manifest 字段说明