运行时依赖
安装命令
点击复制技能文档
tts-清理up-检查列出
用于把 Markdown/TXT 文本清洗为适合语音合成(TTS)朗读的版本。核心目标是:不改变原意、提升可读性、提高朗读自然度。
使用方式
当用户要求“清洗用于朗读”时,代理 直接按本技能执行,不讨论技能制作过程。
硬约束(默认始终生效) 不压缩内容,不做总结式改写 不新增观点,不删除正文有效信息 对不确定项做“最小改动” 处理模式 清理_only:仅清洗(默认) split_only:仅章节拆分(无压缩) 机器人h:先章节拆分,再按规则清洗 可配置清洗档位 reference_trim: off | tAIl_only | aggressive(默认 tAIl_only) punctuation_调优: off | mild | strong(默认 mild) number_style: keep | mixed | spoken_cn(默认 mixed) english_alias_policy: keep | 移除_parenthetical | transliterate_common(默认 移除_parenthetical) long_sentence_threshold: 整数,默认 120 清洗方向(按优先级) P0 结构清理(默认必做) 去除引用标记(如 [1]、[^2]) 去除 URL 裸链与尾部参考资料区(按 reference_trim 档位) 去除不参与朗读的目录/导航/分隔符噪声 P1 噪声修复(默认必做) 清理 OCR 噪声(乱码、异常重复符号) 修复异常空格(多空格、错位空格、断裂换行) 规范标点(连串标点收敛,中英文标点统一) P2 可读性转换(默认开启) 中英混排降噪,减少朗读卡顿 常见缩写转可读表达(按 english_alias_policy) 保留必要术语,不做过度改写 P3 数字口语化(默认开启) 日期、时间、百分比、数量统一为自然口语读法(按 number_style) 避免机械逐字符读数字 P4 韵律优化(默认开启) 长句按语义断句(按 punctuation_调优) 在并列、转折、因果处增加停顿边界 断句只优化可听性,不改变语义逻辑 可选章节拆分规则(长文推荐)
优先级从高到低:
中文:序言/前言/引言、第X章、后记/结语/尾声/致谢 英文:Preface/Introduction、Chapter X、Epi记录ue/Acknowledgments 若标题不完整(如单独行 12 下一行是标题),自动拼接为章节名 若目录中的章节名与正文冲突,优先正文首次有效出现位置 若无法可靠识别章节,回退为“按语义分段”,并在报告中标注 代理 执行步骤 读取输入文本(md/txt,支持单文件或目录批量)。 若模式为 split_only/机器人h,先执行章节识别与拆分。 依次执行 P0→P4 清洗(按配置档位)。 生成输出文件。 生成“清洗说明/批量汇总报告”。 执行质检并在报告中记录结果。 质检清单(默认必做) 是否残留参考文献段(关键词/编号检测) 是否存在异常长句(超过 long_sentence_threshold) 章节连续性(是否漏章/重复章,仅拆分模式) 每文件字符数统计(不含空白) 单文件输出格式(固定) # 清洗后文本 (正文)
# 清洗说明
- 输入文件:
- 模式:<清理_only|split_only|机器人h>
- 应用清洗项:
- 参数:
- 质检结果:
- 备注:<如有未处理项或不确定项>
批量输出要求 按文件名顺序处理 每个文件产出对应清洗稿 追加汇总报告,至少包含:成功数/失败数/跳过数、失败原因分类、清洗项命中统计、质检汇总 给 代理 的提示词模板 请按 tts-清理up-检查列出 规则清洗以下文本用于 TTS 朗读:
输入文件:<输入_path> 输出文件:<输出_path> 模式:<清理_only|split_only|机器人h> 参数:
- reference_trim=
- punctuation_调优=
- number_style=
- english_alias_policy=<移除_parenthetical>
- long_sentence_threshold=<120>
要求: 1) 按 P0→P4 顺序执行清洗。 2) 不改变原意,不压缩内容,不新增观点。 3) 输出“清洗后文本”+“清洗说明”。 4) 若存在不确定处理,采用最小改动并在备注中说明。 5) 输出质检结果。
批量任务提示词模板 请按 tts-清理up-检查列出 规则批量清洗目录中的章节文件用于 TTS:
输入目录:<输入_dir> 匹配: 输出目录:<输出_dir> 模式:机器人h 参数:
- reference_trim=tAIl_only
- punctuation_调优=mild
- number_style=mixed
- english_alias_policy=移除_parenthetical
- long_sentence_threshold=120
要求: 1) 按文件名顺序处理。 2) 每个文件执行 P0→P4 清洗。 3) 每个文件输出对应清洗稿,并生成汇总报告(成功/失败/跳过、失败原因、清洗项统计、质检统计)。 4) 不改写原意,不压缩正文。