📦 论文精读翻译ArXiv — 论文精读翻译 ArXiv

v1.0.0

论文精读级中文翻译,同步至 IMA 知识库 + 腾讯文档。基于 5 篇论文(MDL/Kunlun/OneTrans/RankMixer/MixFormer)3 轮迭代实战经验。触发场景:翻译论文、翻译 arxiv、论文精读、论文中文翻译、paper translation、translate p...

0· 71·0 当前·0 累计
下载技能包
最后更新
2026/4/21
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
high confidence
该技能的声明用途(纸质翻译 + 上传)与其说明相符,但未声明执行上传所需的 CLI 工具及凭证/配置——此不一致是安装前需了解的重要缺陷。
评估建议
安装前请确认以下要点: - 需准备外部 CLI:mcporter、curl、jq、python3(以及 web_fetch)。技能元数据未列出——请确保这些工具已存在于环境。 - SKILL.md 会通过 mcporter 把文档/图片上传到 IMA 和腾讯文档,需服务令牌/凭据;向技能作者确认所需 env vars/配置文件及凭据存放位置。 - 检查并验证 mcporter CLI 及其调用的端点(mcporter 为第三方工具,需确保可信并审查其认证与存储行为)。 - 附带的 validate_translation.py 仅读取 markdown 检查格式,无害,不会外泄机密。 - 如需提供令牌,遵循最小权限原则(使用权限最小的账户),先以非敏感示例测试,勿直接授予组织级写权限。 - 若需更严格保障,请要求作者在元数据中声明所需二进制及环境变量,并详细说明令牌获取/使用方式及上传目标。...
详细分析 ▾
用途与能力
技能名称与描述(ArXiv 论文翻译并上传至 IMA + Tencent 文档)与运行时指令一致:下载 arXiv HTML/图片、翻译、验证并调用上传 API。然而,尽管 SKILL.md 显示将调用 mcporter 上传至 Tencent 与 IMA,技能却未声明任何所需凭据或配置,该遗漏令人意外。
指令范围
SKILL.md 始终聚焦任务:仅抓取一次 arXiv HTML,下载图片,按段落翻译,运行内置验证脚本,并上传两份 Markdown 变体。它包含交互式认证步骤(生成代码、轮询令牌)及对外部工具(curl、jq、mcporter、python3)的调用。它不会读取任意无关本地文件或泄露环境变量,但会按设计将译文和图片传输至外部服务。
安装机制
无安装规范(仅指令)及小型 Python 验证脚本——安装风险低。但流程依赖外部 CLI(mcporter、jq、curl、web_fetch、python3)。这些工具由 skill 未提供,运行时必需;skill 未在声明的依赖中记录它们。
凭证需求
该技能未声明任何必需的环境变量或凭据,但 SKILL.md 却描述了通过 mcporter 向 Tencent/IMA 进行身份验证并获取令牌。上传到云服务需要凭据/配置;不声明它们是一种不一致,也掩盖了该技能在运行时将需要/访问哪些机密。
持久化与权限
始终为 false,且该 skill 不会请求持久/自动的始终在线状态。它不会声明修改其他 skill 或全局 agent 设置。默认允许自主调用(正常)。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

首次发布:基于5篇论文3轮迭代的SOP v2经验,涵盖翻译流程、校验脚本及平台兼容性踩坑经验

无害

安装命令

点击复制
官方npx clawhub@latest install paper-translation
镜像加速npx clawhub@latest install paper-translation --registry https://cn.longxiaskill.com

技能文档

本技能根目录:{SKILL_DIR}

将 ArXiv 论文逐段翻译成中文,生成双版本 Markdown(IMA + 腾讯文档),并上传到两个平台。

三条铁律

  • 完整翻译不精简 — 逐段翻译每个 paragraph,不遗漏任何论证细节。
  • 译注显式标记 — 大模型解读必须用 > [译注]:... 引用块,绝不混入原文翻译。
  • 简称首次标全称,后续直接用 — 首次出现标注全称并核对原文,后续不再展开。

标准 6 步流程

Step 1: 获取原文

`` web_fetch https://arxiv.org/html/v `
  • 只 fetch 一次,节省 token
  • 同步下载图片:curl -sL -o x{n}.png https://arxiv.org/html//x{n}.png
  • 下载后检查文件大小,相同大小的异常文件(404 垃圾响应)删除

Step 2: 翻译生成

  • 逐段翻译,不做精简
  • 首行元信息:原标题、arxiv 链接、年月、机构、翻译辅助大模型名称
  • 简称首次出现标全称(核对原文),后续用简称
  • 译注用 > [译注]:... 格式
  • 结构化排版:多级标题 + 列表 + 加粗 + 表格 + 引用块
  • 公式保留 LaTeX;\bm 全部替换为 \boldsymbol
  • 图表按原文顺序插入所在章节标题之后、小节正文之前
  • 参考文献完整列出

表格处理策略

  • 简单表格 → Markdown 表格重写
  • 复杂表格 → PyMuPDF 从 PDF 截取

Step 3: 自动化校验

`bash python3 {SKILL_DIR}/scripts/validate_translation.py ` 校验项: | 检查项 | 标准 | |--------|------| | 章节完整性 | 包含:摘要/引言/相关工作/方法/实验/结论/参考文献 | | LaTeX 兼容性 | \bm 出现次数 = 0 | | 译注标记 | 数量 > 0,格式为 > [译注] | | 参考文献 | 条数列出供人工核对 | | 图片链接 | 外链格式正确 |

Step 4: 生成两版 Markdown

  • IMA 版:图片用 arxiv 外链 URL / base64 data URI
  • 腾讯文档版:用脚本从 IMA 版自动替换图片链接为 image_id

图片上传流程:

  • curl -sL -o x{n}.png https://arxiv.org/html//x{n}.png 下载
  • 腾讯文档:mcporter call tencent-docs upload_image → 拿 image_id
  • IMA:直接用 arxiv 外链 URL

详见 references/platform-compat.md

Step 5: 上传 IMA 知识库

`bash # create_media → COS 上传 → add_knowledge(media_type=7 = Markdown) # 如遇 code=220030(限流),sleep 15s 重试,cos_key 仍有效 `

Step 6: 上传腾讯文档

`bash TITLE="【YYYY.MM|组织】XXX 中文翻译" # 必须 ≤36 字符 jq -n --arg title "$TITLE" --rawfile mdx "$FILE" --arg cf "markdown" \ '{title:$title, mdx:$mdx, content_format:$cf}' > /tmp/args.json mcporter call tencent-docs create_smartcanvas_by_mdx --args "$(cat /tmp/args.json)" ` mcporter 传大参数不支持 --args-file,必须用 --args "$(cat file.json)"

命名规范(强制)

| 平台 | 格式 | 约束 | |------|------|------| | 腾讯文档标题 |
【YYYY.MM|组织】XXX 中文翻译 | ≤36 字符(按字符数,非字节) | | IMA 文件名 | 【YYYY.MM|组织】XXX 中文翻译.md | 同名加 .md |

  • 两平台必须完全一致,不加 v2/图文版 等后缀
  • 示例:【2026.02|ByteDance】MixFormer 中文翻译

翻译后 Checklist

  • [ ] grep -c '\\bm' = 0
  • [ ] 简称首次出现已标全称且正确
  • [ ] 译注均用 > [译注]:... 格式
  • [ ] 图表位置与原文章节顺序一致
  • [ ] 参考文献条数与原文一致
  • [ ] IMA 版和腾讯文档版图片格式各自正确
  • [ ] 两平台文件名/标题完全一致
  • [ ] 首行包含论文元信息(标题/链接/年月/机构/大模型名称)

效率优化

  • web_fetch` 一次原文(节省 token)
  • 直接生成最终版,不生成中间草稿(减少 50%+ 工具调用)
  • 图片下载 + 上传并行执行
  • 用脚本自动从 IMA 版生成腾讯文档版
  • 自动化校验脚本在上传前拦截格式问题

参考文档

数据来源ClawHub ↗ · 中文优化:龙虾技能库