Chinese NLP Toolkit — 中文NLP工具包

v1.0.0

针对中文文本的专业自然语言处理。涵盖分词（jiaba）、情感分析、关键词提取、文本摘要、语气检测、可读性评分以及格式转换（简繁转换、拼音注音）。适用于处理、分析或转换中文文本内容。

0· 561·0 当前·0 累计

by @371166758-qq·MIT-0

数据与API 数据库 CI/CD DevOps 微信

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install chinese-nlp-toolkit

镜像加速npx clawhub@latest install chinese-nlp-toolkit --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Chinese NLP 工具包使用专门的 NLP 能力处理和分析中文文本。核心能力

文本分词（分词）

中文没有单词边界，分词是所有中文 NLP 的基础。方法：当没有库可用时，使用基于规则的启发式方法：词典匹配（最大向前/向后匹配）上下文感知： "南京市长江大桥" → ["南京市", "长江大桥"] 而不是 ["南京", "市长", "江大桥"] 领域特定术语应作为自定义词典条目添加常见歧义：文本错误分词正确分词雨伞雨/伞雨伞（复合词）结婚的和尚未结婚的结婚/的/和尚/未/结婚/的结婚/的/和/尚未/结婚/的项目部项目/部项目部（复合词）

情感分析（情感分析）

超越正面/负面 —— 中文情感是细致入微的：强度级别：强烈负面 < 偏负面 < 中性 < 偏正面 < 强烈正面中文特定信号：修辞问题通常表明负面情感： "这也算好？" 讽刺标记： "呵呵", "厉害了", "也是醉了", "你开心就好" 强调词： "非常", "特别", "简直了", "超级" 减弱词： "还行吧", "马马虎虎", "凑合" 表情符号贡献（对于社交媒体至关重要）： 😊👍❤️ = 正面放大， 😤👎💔 = 负面放大， 🙄🙄🙄 = 讽刺/轻蔑（强度随着重复而增加）

关键词提取（关键词提取）

对于中文文本，优先考虑：名词短语（名词短语）领域特定术语命名实体（人名、地名、机构名）方法： TF-IDF 适用于中文 + 位置权重（第一/最后一句在中文写作中权重更大）。

文本摘要（文本摘要）

中文特定规则：总结到原始长度的 20-30% 保留关键数字、名称和声明中文文章通常 "埋藏主旨" —— 结论可能比介绍更重要使用位置 + 关键词评分提取关键句子

可读性评分（可读性评分）

根据以下因素对中文文本进行 1-10 分评级：平均句子长度（每句字符数）词汇难度（HSK 水平估计）子句密度（每句逗号数）使用古代中文元素技术术语密度评分级别目标受众 1-3 简单普通大众 4-6 中等受过教育的读者 7-8 困难领域专家 9-10 非常困难学术专家

格式转换

转换示例简体 → 繁体体验 → 體驗繁体 → 简体體驗 → 体验中文 → 拼音你好 → nǐ hǎo 中文 → 注音你好 → ㄋㄧˇ ㄏㄠˇ 工作流程处理中文文本时：检测变体：简体（简体）或繁体（繁体）？分词：分成有意义的单位分析：应用所请求的分析类型（s）报告：以中文注释呈现结果输出格式原文：[原始文本] 分词：[分词文本，/ 分隔符] 关键词：[前 5-10 个关键词，相关性评分] 情感：[情感标签 + 置信度 + 关键信号] 摘要：[摘要文本] 可读性：[评分/10 + 简要说明] 边缘情况混合语言文本：自然处理代码切换（"这个 bug 太坑了"）—— 不强制对英文单词进行中文分词网络俚语：识别常见缩写（yyds, xswl, nbcs, awsl）并扩展为正式分析诗歌/古代中文：标记为特殊情况 —— 现代 NLP 规则不适用；使用古代语法模式方言文本：标记非普通话文本（粤语、上海话书写形式）—— 分析可能不可靠零宽字符：中文文本有时包含不可见字符（U+200B, U+FEFF），影响处理常见任务和提示 "分析这篇中文评论的情感" "从这篇文章中提取关键词" "用 100 个字符总结这篇中文新闻文章" "评估这份文档的可读性" "将其转换为繁体中文，并添加拼音注释" "分词这篇中文文本并识别命名实体"

License

运行时依赖

安装命令

技能文档

相关技能推荐