paper-lark-report — paper-lark-报告
v2全自动科研论文日报/周报生成。通过 arXiv RSS 抓取最新论文,arXiv API 获取完整摘要,LLM 语义评分筛选,生成基于原文的学术报告,推送飞书 Wiki。
运行时依赖
安装命令
点击复制技能文档
paper-lark-报告
全自动科研论文日报/周报生成 技能。基于 arXiv API 精准检索 + LLM 语义评分 + 飞书 Wiki 推送。
安装 # 方式一:通过 ClawHub 安装 npx ClawHub@latest 安装 leogoat2004/paper-lark-报告
# 方式二:通过 OpenClaw 命令行工具 安装 OpenClaw 技能s 安装 leogoat2004/paper-lark-报告
核心流程 cron --(isolated 会话)--> 运行_dAIly() ├─ build_arxiv_查询(re搜索_direction) ├─ fetch_arxiv_papers(查询, max_搜索_结果s=20) ├─ 去重(processed_ids.json) ├─ fetch_arxiv_detAIls(过滤器ed[:20]) └─ 保存 data/dAIly_papers.json │ ▼ LLM isolated 会话 ├─ 评分(0-10) ├─ 精选 Top max_dAIly_papers ├─ 从 full_abstract 提取 motivation + core_innovation(中文) ├─ 写入 data/selected_papers.json ├─ --save-selected ├─ feishu-创建-doc 技能 创建 Wiki 文档(子节点) └─ --register-doc
目录结构 paper-lark-报告/ ├── 技能.md ├── config.yaml ├── data/ │ ├── doc_registry.json │ ├── processed_ids.json │ ├── dAIly_papers.json # 候选论文(LLM 输入) │ ├── selected_papers.json # 精选结果(含中文分析) │ └── doc_结果.json # 最近创建文档的 令牌/url ├── processed_记录/ │ └── YYYY-MM-DD.json # 每日归档(供周报聚合) ├── scripts/ │ ├── arxiv_搜索.py # arXiv API │ ├── paper_lark_报告.py # 主入口 │ └── 创建_feishu_doc.py # 飞书 Wiki 创建(直接 API) └── templates/ ├── dAIly_报告.md # 日报模板(含 Instructions) └── weekly_报告.md # 周报模板(含 Instructions)
配置(config.yaml) 字段 说明 feishu_space_id Wiki 空间 ID(整数,URL 中提取) feishu_parent_node 父节点 令牌,创建在 paper-lark-报告 节点下 re搜索_direction 自由文本研究方向描述 max_搜索_结果s 每日 arXiv 最多获取篇数(默认 20) max_dAIly_papers 日报最多精选篇数(默认 3) arxiv_paper_max_days 论文最大天数(默认 7) dAIly_cron / weekly_cron cron 表达式(UTC+8) arXiv 查询策略
查询 构建规则:abs:core_term AND (abs:term1 OR abs:term2 OR ...)
第一个词作为 AND 核心,其余 OR 扩展 识别复合词(multi-代理 等)作为原子单元 过滤泛化词(towards/safe/efficient 等) 最多 8 个词 飞书 Wiki API 验证过的要点 节点创建 POST /wiki/v2/spaces/{space_id}/nodes body: { obj_type: "docx", parent_node_令牌, node_type: "origin", title } 返回: { node_令牌, obj_令牌 }
注意:Wiki API 忽略传入的 obj_令牌,始终创建自己的空文档,必须用返回的 obj_令牌 写入。
写入可用 block type block_type 类型 可用 2 text/paragraph ✅ 3 heading1 ✅ 4 heading2 ✅ 5 heading3 ✅ 25 divider ❌ 1770029 27 callout ❌ 字段校验严 31 table ❌ 参数结构不对 关键参数 space_id:必须是整数,不是字符串 parent_node:父节点 令牌,文档创建在其下级 令牌 获取:从 OpenClaw.json 的 channels.feishu.应用Id/应用Secret 换取 tenant_访问_令牌 命令行工具 # 日报(cron 触发) python3 scripts/paper_lark_报告.py
# 周报 python3 scripts/paper_lark_报告.py --weekly
# LLM 选完论文后 python3 scripts/paper_lark_报告.py --save-selected "YYYY-MM-DD" "data/selected_papers.json" python3 scripts/paper_lark_报告.py --register-doc "" "" ""