📦 纸面到表格
v1.0.0将学术论文(PDF/DOCX/TXT)中的结构化数据提取为文献综述表格(XLSX/CSV),保持高保真度,支持批量处理与多领域适配。
运行时依赖
安装命令
点击复制技能文档
Paper To Table 从学术论文中提取结构化信息并填充文献综述表格。
质量原则
- 提取保真(质量约束)
- 绝不编造论文中不存在的信息
- 绝不超出明确陈述进行推断
- 字段确实找不到才用“N/A”
- 区分:
- 置信度评分:每项标 HIGH/MEDIUM/LOW
- 字段理解
- 理解每个表头的语义
- 按含义而非关键词映射内容
- 处理同义词与领域术语
- 识别上下文中的隐含信息
- 结构化深度
- 粒度恰当(研究级/实验级/结果级)
- 保留字段间关系
- 正确处理多实验论文
- 批处理稳定性
- 各论文独立处理(单篇失败不影响其余)
- 记录完整操作日志
- 支持中断续跑
- 写入前验证输出
工作流 Step 1:识别输入
- 论文:单文件、多文件或文件夹 → 支持 PDF/DOCX/TXT
- 表格模板:XLSX 或 CSV(含表头)
- 语言:自动检测或用户指定
- 领域:Psychology / Cognitive Neuroscience / Computer Science / Brain Science / General
Step 2:读取表头 python scripts/read_table.py 输出:列名、数据类型约束、领域推断
Step 3:提取论文内容 python scripts/extract_paper.py --structured 格式处理:PDF→pdfplumber/PyMuPDF/OCR 兜底;DOCX→python-docx;TXT→直接读取 输出结构化 JSON:含 full_text 与章节(abstract/introduction/methods/results/discussion/conclusion)
Step 4:LLM 提取(关键) 原则:只提取论文明确陈述,绝不臆造 输入:表头 + 论文全文/章节 输出格式(每字段): { "FieldName": { "value": "extracted value 或 N/A", "confidence": "HIGH/MEDIUM/LOW", "source": "paper location" } } 关键规则:
- JSON key 与表头完全匹配(大小写敏感)
- 缺失→"N/A",不推断
- 多值用分号分隔
- 保留原文语言
- LOW confidence 需说明原因
Step 5:验证并写入 python scripts/write_table.py '' --validate 验证:JSON 格式、键名匹配、无重复、数据类型合理 重复检测:标题相似度>85% 视为重复,跳过并警告
Step 6:报告 输出:处理论文数、新增行数、跳过数(重复/错误)、LOW confidence 字段、输出路径
批处理 python scripts/batch_process.py [output_folder]
- 每篇独立处理
- 自动生成日志 batch_log_YYYYMMDD_HHMMSS.json
- 支持断点续传
详细字段定义与提取策略 → references/extraction-patterns.md 质量检查清单 → references/quality-checklist.md
领域专精 Psychology / Cognitive Neuroscience / Computer Science / Brain Science