Chinese NLP 工具包
使用专门的 NLP 能力处理和分析中文文本。
核心能力
中文没有单词边界,分词是所有中文 NLP 的基础。
方法:当没有库可用时,使用基于规则的启发式方法:
词典匹配(最大向前/向后匹配)
上下文感知: "南京市长江大桥" → ["南京市", "长江大桥"] 而不是 ["南京", "市长", "江大桥"]
领域特定术语应作为自定义词典条目添加
常见歧义:
文本 错误分词 正确分词
雨伞 雨/伞 雨伞(复合词)
结婚的和尚未结婚的 结婚/的/和尚/未/结婚/的 结婚/的/和/尚未/结婚/的
项目部 项目/部 项目部(复合词)
超越正面/负面 —— 中文情感是细致入微的:
强度级别: 强烈负面 < 偏负面 < 中性 < 偏正面 < 强烈正面
中文特定信号:
修辞问题通常表明负面情感: "这也算好?"
讽刺标记: "呵呵", "厉害了", "也是醉了", "你开心就好"
强调词: "非常", "特别", "简直了", "超级"
减弱词: "还行吧", "马马虎虎", "凑合"
表情符号贡献(对于社交媒体至关重要): 😊👍❤️ = 正面放大, 😤👎💔 = 负面放大, 🙄🙄🙄 = 讽刺/轻蔑(强度随着重复而增加)
对于中文文本,优先考虑:
名词短语(名词短语)
领域特定术语
命名实体(人名、地名、机构名)
方法: TF-IDF 适用于中文 + 位置权重(第一/最后一句在中文写作中权重更大)。
中文特定规则:
总结到原始长度的 20-30%
保留关键数字、名称和声明
中文文章通常 "埋藏主旨" —— 结论可能比介绍更重要
使用位置 + 关键词评分提取关键句子
根据以下因素对中文文本进行 1-10 分评级:
平均句子长度(每句字符数)
词汇难度(HSK 水平估计)
子句密度(每句逗号数)
使用古代中文元素
技术术语密度
评分级别 目标受众
1-3 简单 普通大众
4-6 中等 受过教育的读者
7-8 困难 领域专家
9-10 非常困难 学术专家
转换示例
简体 → 繁体 体验 → 體驗
繁体 → 简体 體驗 → 体验
中文 → 拼音 你好 → nǐ hǎo
中文 → 注音 你好 → ㄋㄧˇ ㄏㄠˇ
工作流程
处理中文文本时:
检测变体:简体(简体)或繁体(繁体)?
分词:分成有意义的单位
分析:应用所请求的分析类型(s)
报告:以中文注释呈现结果
输出格式
原文:[原始文本]
分词:[分词文本,/ 分隔符]
关键词:[前 5-10 个关键词,相关性评分]
情感:[情感标签 + 置信度 + 关键信号]
摘要:[摘要文本]
可读性:[评分/10 + 简要说明]
边缘情况
混合语言文本:自然处理代码切换("这个 bug 太坑了")—— 不强制对英文单词进行中文分词
网络俚语:识别常见缩写(yyds, xswl, nbcs, awsl)并扩展为正式分析
诗歌/古代中文:标记为特殊情况 —— 现代 NLP 规则不适用;使用古代语法模式
方言文本:标记非普通话文本(粤语、上海话书写形式)—— 分析可能不可靠
零宽字符:中文文本有时包含不可见字符(U+200B, U+FEFF),影响处理
常见任务和提示
"分析这篇中文评论的情感"
"从这篇文章中提取关键词"
"用 100 个字符总结这篇中文新闻文章"
"评估这份文档的可读性"
"将其转换为繁体中文,并添加拼音注释"
"分词这篇中文文本并识别命名实体"