📦 TXT E-book Cleaner — 电子书清洗修复

v4.1.0

一键清除盗版TXT中的乱码、广告与错乱排版,支持AI智能识别非标准章节与复杂乱码,提供极速规则模式与云端增强模式。

0· 95·1 当前·1 累计
sunfirehw 头像by @sunfirehw (SunYin)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/29
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能主要完成TXT文件清理,但运行时指令及捆绑代码会将文件内容上传至外部服务并调用LLM,且元数据未声明执行依赖,存在意外数据泄露风险。
评估建议
技能具备宣传的TXT清理能力,但会:(1) 搜索设备中的TXT文件,(2) 上传文件获取公开URL,(3) 通过捆绑的llm_client将文本发送至LLM。安装或运行前:审查scripts/utils/llm_client.py确认端点与凭据;确认upload_file的上传位置及隐私/版权合规;若需避免外发,仅使用本地'fast'模式或在受控sandbox中运行;确保Python与pip包来源可信;注意learned_mojibake_rules.json、日志等持久文件可能残留文本片段。如需更安全版本,可要求提供纯本地无上传/无子代理LLM调用的版本并附带依赖安装文档。...
详细分析 ▾
用途与能力
名称/描述与包含脚本一致:仓库提供基于规则的清理器及AI模块,用于广告检测、乱码修复、章节解析,符合TXT清理技能定位。轻微不一致:SKILL元数据未声明所需二进制/环境,而SKILL.md与脚本依赖Python 3.x及第三方库(chardet、pyyaml、requests)。
指令范围
运行时指令明确要求代理搜索用户设备的TXT文件(search_file),将选中文件上传至云URL(upload_file)并用curl下载到工作目录,再调用LLM进行AI增强处理。这些步骤必然将用户文件内容传至本地外;虽然处理任意用户文件需要如此,但指令未清楚说明上传/LLM请求的发送位置及隐私保护措施。
安装机制
无安装规范(仅指令),降低供应链风险,但技能含大量Python脚本及复杂LLM客户端(scripts/utils/llm_client.py)。依赖项列于SKILL.md但未被注册元数据强制。缺少安装步骤意味着运行时环境(Python库、版本)被视为已存在,可能导致运行时失败或静默使用系统Python。
凭证需求
技能未声明所需环境变量或凭据,但会执行LLM调用(通过捆绑llm_client)并上传文件至云URL。LLM客户端行为与上传目标由配置决定(ai_config.yaml默认使用'openclaw-subagent')及未公开的llm_client实现,可能指向未广告的网络端点,造成文件内容或敏感文本外泄。技能元数据中未声明任何API密钥或端点。
持久化与权限
always:false且未修改其他技能或全局代理设置。技能会将学到的规则与日志写入本地文件(如learned_mojibake_rules.json、ai_enhancement.log),这对学习/清理工具属预期行为,但需评估磁盘存储/隐私影响。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv4.1.02026/3/27

v4.1.0 规则扩展+LLM集成版:广告规则100+条、乱码规则150+条、集成OpenClaw子会话LLM、5000词保护词库、智能缓存66%+命中率

无害

安装命令

点击复制
官方npx clawhub@latest install good-txt-to-hwreader
镜像加速npx clawhub@latest install good-txt-to-hwreader --registry https://cn.longxiaskill.com

技能文档

将盗版 txt 电子书转换为干净、规范的阅读格式。

✨ v4.0 新增 AI 增强功能:智能广告识别、复杂乱码修复、非标准章节识别

触发关键词

用户可以通过以下方式触发此技能:

关键词示例
txt清理帮我清理这个txt文件
电子书修复修复这本电子书
去广告去掉txt里的广告
修乱码修复txt乱码
排版修复修复txt排版
txt乱码这个txt有乱码
txt广告txt里好多广告

处理模式

本技能支持三种处理模式,用户可根据需求选择:

模式速度准确率AI 功能适用场景
fast⚡ 最快85%全部关闭快速预览、大批量处理
balanced🔄 平衡92%广告+乱码日常使用(默认)
thorough🎯 最准98%全部开启重要文件、复杂乱码
使用方式
清理这个txt文件(使用thorough模式)
用fast模式清理这本电子书

用户输入方式

方式一:直接指定文件路径

清理 /path/to/book.txt
修复电子书 ~/Downloads/novel.txt

方式二:模糊搜索手机 txt 文件

当用户说:

  • 清理一本txt(未指定具体文件)
  • 帮我找个txt文件清理一下
  • 修复某个电子书

执行步骤

  • 使用 search_file 工具搜索用户设备上的 txt 文件
  • 列出匹配的文件供用户选择
  • 用户确认后执行清理

方式三:搜索关键词

清理包含"斗破"的txt
修复文件名有"修仙"的电子书

执行步骤

  • 使用 search_file 工具按关键词搜索
  • 列出匹配结果
  • 用户选择后执行清理

依赖

  • Python 3.6+
  • chardet 库:pip install chardet
  • PyYAML 库:pip install pyyaml(AI 增强模式)
  • requests 库:pip install requests(AI 增强模式)

处理流程

阶段一:文件获取

  • 使用 search_file 搜索用户手机上的 txt 文件
  • 使用 upload_file 上传到云端获取 URL
  • 使用 curl 下载到工作目录

阶段二:清理修复

规则引擎处理(所有模式)

  • 编码检测 — 自动识别 GBK/UTF-8/GB2312 等编码
  • 广告清理 — 匹配 40+ 种常见广告模式
  • 乱码修复 — 替换 30+ 种常见乱码字符
  • 排版规范化 — 统一章节标题、段落格式

AI 增强处理(balanced/thorough 模式)

  • 智能广告识别 — LLM 识别变体广告、软广、新平台广告
  • 复杂乱码修复 — LLM 根据上下文推断正确字符
  • 智能章节识别 — LLM 识别非标准章节格式(仅 thorough 模式)

阶段三:输出结果

  • 发送文件给用户 — 使用 send_file_to_user 发送清理后的文件
  • 输出修复报告 — 以简洁的 md 表格展示修复结果

输出报告

清理完成后,助手会解析脚本输出,生成简洁表格:

# txt 清理报告

基本信息

项目结果
原文长度199,044 字符
清理后长度198,702 字符
移除内容342 字符 (0.17%)
处理模式balanced
AI 增强已启用

清理详情

项目数量
广告清理5 处
乱码修复12 处
章节识别50 个

性能统计

项目数值
处理时间2.35 秒
LLM 调用次数3 次

Resources

scripts/

  • clean_txt.py — 规则引擎清理脚本
  • ai_enhanced_cleaner.py — AI 增强清理脚本(主入口)
  • ai_modules/ — AI 增强模块
  • ad_detector.py — 广告识别模块
  • mojibake_fixer.py — 乱码修复模块
  • chapter_parser.py — 章节识别模块
  • utils/ — 工具模块
  • llm_client.py — LLM 客户端封装

config/

  • ai_config.yaml — AI 增强配置文件

references/

  • ads_patterns.md — 常见广告模式列表
  • mojibake_patterns.md — 常见乱码映射表
  • learned_mojibake_rules.json — 学习到的乱码规则(自动生成)

assets/

  • chapter_template.txt — 标准章节格式模板

完整示例

示例一:规则引擎模式(fast)

用户: 用fast模式清理三体txt文件

执行流程:

1. search_file(query="三体 txt") → 找到: /storage/.../三体.txt
  • upload_file(fileInfos=[{"mediaUri": "file://docs/..."}]) → 获取公网URL
  • curl -o "三体.txt" "URL" → 下载到工作目录
  • python3 scripts/ai_enhanced_cleaner.py -m fast "三体.txt" → 生成: 三体_清理版.txt
  • send_file_to_user(fileLocalUrls=["三体_清理版.txt"]) → 发送清理后的文件给用户

示例二:AI 增强模式(balanced)

用户: 清理这个txt文件,有乱码

执行流程:

1. search_file(query="txt") → 列出文件供用户选择
  • upload_file + curl → 下载文件
  • python3 scripts/ai_enhanced_cleaner.py -m balanced "book.txt" → 规则引擎预处理 → AI 广告识别 → AI 乱码修复 → 规则引擎后处理 → 生成: book_清理版.txt
  • send_file_to_user + 报告

示例三:深度清理模式(thorough)

用户: 用thorough模式清理这本小说,章节格式很乱

执行流程:

1. 获取文件
  • python3 scripts/ai_enhanced_cleaner.py -m thorough "novel.txt" → 规则引擎预处理 → AI 广告识别 → AI 乱码修复 → AI 章节识别与规范化 → 规则引擎后处理 → 生成: novel_清理版.txt + novel_清理版_报告.md
  • 发送文件和报告

AI 增强功能详解

1. 智能广告识别

功能说明
变体广告识别故意添加干扰字符的广告
软广识别伪装成正文的推广内容
新平台广告无需预定义规则即可识别
批量处理10 个段落一批,减少 API 调用

2. 复杂乱码修复

功能说明
上下文推断根据语义推断正确字符
规则学习高置信度修复自动保存为新规则
分级处理规则优先,AI 补充

3. 智能章节识别

功能说明
非标准格式识别各种变体章节标题
结构分析分析全文结构,提取章节列表
标题规范化统一章节标题格式

常见问题

问题原因解决方案
文件过大超过 10MB分卷处理或提示用户
编码无法识别特殊编码尝试多种编码,使用 errors='replace'
乱码过多编码错误使用 thorough 模式进行 AI 修复
章节识别不准格式不规范使用 thorough 模式进行 AI 识别
处理速度慢AI 模式使用 fast 模式或 balanced 模式

配置说明

配置文件位于 config/ai_config.yaml,可自定义:

# 处理模式
mode: "balanced" # fast / balanced / thorough

# AI 功能开关 ai_enhancement: ad_detection: enabled: true confidence_threshold: 0.8 mojibake_fix: enabled: true confidence_threshold: 0.7 auto_learn: true chapter_detection: enabled: false

# LLM 配置 llm: provider: "xiaoyi" model: "glm-4-flash"

重要说明

📖 一键导入书架

收到清理后的文件后,您可以:

  • 在聊天中长按文件
  • 选择"分享"
  • 选择"华为阅读"

即可一键导入书架,享受修复完美的阅读体验!


技能版本: 4.1.0 (广告+乱码规则全面扩展,LLM子会话集成) 更新时间: 2026-03-29

版本历史

详见 CHANGELOG.md

数据来源ClawHub ↗ · 中文优化:龙虾技能库