📦 纸面到表格

v1.0.0

将学术论文（PDF/DOCX/TXT）中的结构化数据提取为文献综述表格（XLSX/CSV），保持高保真度，支持批量处理与多领域适配。

0· 22·0 当前·0 累计

by @2025biophilia-coder

文件处理数据分析开发工具文档工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install paper-to-table

镜像加速npx clawhub@latest install paper-to-table --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

Paper To Table 从学术论文中提取结构化信息并填充文献综述表格。

质量原则

提取保真（质量约束）
绝不编造论文中不存在的信息
绝不超出明确陈述进行推断
字段确实找不到才用“N/A”
区分：

– 明确事实 → 直接提取 – 暗示但未明说 → 标“N/A”或注明为暗示 – 信息缺失 → “N/A”

置信度评分：每项标 HIGH/MEDIUM/LOW

字段理解
理解每个表头的语义
按含义而非关键词映射内容
处理同义词与领域术语
识别上下文中的隐含信息

结构化深度
粒度恰当（研究级/实验级/结果级）
保留字段间关系
正确处理多实验论文

批处理稳定性
各论文独立处理（单篇失败不影响其余）
记录完整操作日志
支持中断续跑
写入前验证输出

工作流 Step 1：识别输入

论文：单文件、多文件或文件夹 → 支持 PDF/DOCX/TXT
表格模板：XLSX 或 CSV（含表头）
语言：自动检测或用户指定
领域：Psychology / Cognitive Neuroscience / Computer Science / Brain Science / General

Step 2：读取表头 python scripts/read_table.py 输出：列名、数据类型约束、领域推断

Step 3：提取论文内容 python scripts/extract_paper.py --structured 格式处理：PDF→pdfplumber/PyMuPDF/OCR 兜底；DOCX→python-docx；TXT→直接读取输出结构化 JSON：含 full_text 与章节（abstract/introduction/methods/results/discussion/conclusion）

Step 4：LLM 提取（关键）原则：只提取论文明确陈述，绝不臆造输入：表头 + 论文全文/章节输出格式（每字段）： { "FieldName": { "value": "extracted value 或 N/A", "confidence": "HIGH/MEDIUM/LOW", "source": "paper location" } } 关键规则：

JSON key 与表头完全匹配（大小写敏感）
缺失→"N/A"，不推断
多值用分号分隔
保留原文语言
LOW confidence 需说明原因

提取优先级：Abstract→Methods→Results→Discussion→补充材料

Step 5：验证并写入 python scripts/write_table.py '' --validate 验证：JSON 格式、键名匹配、无重复、数据类型合理重复检测：标题相似度>85% 视为重复，跳过并警告

Step 6：报告输出：处理论文数、新增行数、跳过数（重复/错误）、LOW confidence 字段、输出路径

批处理 python scripts/batch_process.py [output_folder]

每篇独立处理
自动生成日志 batch_log_YYYYMMDD_HHMMSS.json
支持断点续传

详细字段定义与提取策略 → references/extraction-patterns.md 质量检查清单 → references/quality-checklist.md

领域专精 Psychology / Cognitive Neuroscience / Computer Science / Brain Science

数据来源：ClawHub ↗ · 中文优化：龙虾技能库