中文工具包

Name: 中文工具包
Rating: 1

v1.0.1

为OpenClaw提供中文文本处理、翻译、OCR、语音识别等功能的综合工具包。支持中文分词、拼音转换、中英文翻译、关键词提取、文本分析等功能。

1· 1.4k·0 当前·0 累计

by @utopia013-droid·MIT-0

生产力工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install chinese-toolkit

镜像加速npx clawhub@latest install chinese-toolkit --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

OpenClaw 中文工具包技能 ======================

技能概述

为 OpenClaw 提供中文文本处理、翻译、OCR、语音识别等功能的综合工具包。

适用场景

处理中文文本内容 中英文翻译需求 中文语音识别和合成 中文文档处理和分析 中文内容创作和优化

核心功能

中文文本处理

基础处理：中文分词（jieba）、词性标注、命名实体识别、关键词提取、文本摘要高级处理：情感分析、文本分类、相似度计算、文本纠错、风格转换
中英文翻译

翻译服务：百度翻译 API 集成、谷歌翻译 API 集成、腾讯翻译 API 集成、本地翻译模型翻译功能：文本翻译、文档翻译、实时翻译、批量翻译
中文 OCR 识别

图像文字识别：图片中文文字提取、PDF 文档文字识别、手写文字识别、表格识别支持格式：图片（JPG、PNG、BMP）、文档（PDF、Word、Excel）、扫描件（各种扫描格式）
中文语音处理

语音识别：中文语音转文字、方言识别支持、实时语音识别、音频文件处理语音合成：文字转中文语音、多种音色选择、情感语音合成、批量语音生成
技术实现
依赖库和工具

Python 库：基础库（jieba、pypinyin、opencc、snowland）、高级库（transformers、paddlepaddle、torch）命令行工具：curl、tesseract、ffmpeg、pandoc
API 服务集成

免费 API：百度翻译 API（免费额度）、腾讯云 AI（试用额度）、阿里云智能语音（试用）、讯飞开放平台（试用）本地服务：本地 OCR 服务、本地翻译模型、本地语音识别、本地文本分析
使用方法
基础使用示例

中文分词：openclaw 技能调用 chinese-toolkit --function segment --text "今天天气真好" 中英翻译：openclaw 技能调用 chinese-toolkit --function translate --text "你好世界" --from zh --to en
高级使用示例

文档处理：openclaw 技能调用 chinese-toolkit --function ocr --file document.pdf --language zh 中文文档摘要：openclaw 技能调用 chinese-toolkit --function summarize --file report.txt --language zh --length 200 语音处理：openclaw 技能调用 chinese-toolkit --function speech2text --audio recording.wav --language zh

文件结构

技能目录结构：chinese-toolkit/ + SKILL.md：技能说明文档（本文件） + requirements.txt：Python 依赖库 + chinese_tools.py：核心 Python 模块 + config.json：配置文件 + scripts/：脚本目录 + models/：模型文件目录 + examples/：使用示例

配置文件示例

{
  "api_keys": {
    "baidu_translate": {
      "app_id": "YOUR_APP_ID",
      "app_key": "YOUR_APP_KEY"
    },
    "tencent_cloud": {
      "secret_id": "YOUR_SECRET_ID",
      "secret_key": "YOUR_SECRET_KEY"
    }
  },
  "local_services": {
    "ocr_enabled": true,
    "translation_enabled": true,
    "speech_enabled": false
  },
  "performance": {
    "cache_enabled": true,
    "cache_ttl": 3600,
    "parallel_processing": true
  }
}

安装和配置

自动安装

通过 clawhub 安装：npx clawhub install chinese-toolkit 或手动安装：git clone https://github.com/openclaw/chinese-toolkit.git
依赖安装

安装 Python 依赖：pip install -r requirements.txt 安装系统依赖（Ubuntu/Debian）：sudo apt-get install tesseract-ocr tesseract-ocr-chi-sim ffmpeg 安装系统依赖（macOS）：brew install tesseract tesseract-lang ffmpeg

API 配置

设置百度翻译 API：export BAIDU_TRANSLATE_APP_ID="your_app_id"、export BAIDU_TRANSLATE_APP_KEY="your_app_key" 设置腾讯云 API：export TENCENT_CLOUD_SECRET_ID="your_secret_id"、export TENCENT_CLOUD_SECRET_KEY="your_secret_key"

性能优化

缓存策略

翻译结果缓存：减少 API 调用 分词结果缓存：加速文本处理 OCR 结果缓存：避免重复识别 语音结果缓存：提高响应速度

并行处理

多文档并行处理 批量翻译优化 并发 API 调用 分布式计算支持

资源管理

内存使用优化 磁盘空间管理 网络带宽控制 计算资源分配

安全和隐私

数据安全

本地处理优先：敏感数据本地处理 加密传输：API 调用使用 HTTPS 数据清理：处理完成后清理临时数据 访问控制：API 密钥安全存储

隐私保护

用户数据保护：不存储用户原始数据 匿名化处理：去除个人识别信息 合规使用：遵守数据保护法规 透明操作：明确数据处理流程

安全审计

代码安全审查 依赖库安全检查 API 使用监控 异常行为检测

故障排除

常见问题：

分词不准确

原因：词典不完整或模型过时 解决：更新分词词典和模型

翻译质量差

原因：API 限制或网络问题 解决：更换翻译服务或检查网络

OCR 识别错误

原因：图片质量差或语言设置错误 解决：优化图片质量，正确设置语言

语音识别失败

原因：音频质量差或方言不支持 解决：提高音频质量，使用标准普通话

调试方法：

启用调试模式：export CHINESE_TOOLKIT_DEBUG=true 查看详细日志：tail -f ~/.openclaw/logs/chinese-toolkit.log 运行测试套件：python -m pytest tests/

性能指标

处理速度： + 中文分词：1000 字/秒 + 中英翻译：500 字/秒（API） + OCR 识别：1 页/秒 + 语音识别：实时（1x 速度） 准确率： + 中文分词：>95% + 命名实体识别：>90% + 翻译质量：>85%（专业翻译对比） + OCR 识别：>98%（清晰文档） + 语音识别：>95%（标准普通话） 资源使用： + 内存占用：<500MB + 磁盘空间：<2GB（含模型） + CPU 使用：中等 + 网络带宽：按需使用

未来发展

短期计划（2026 年 Q2）：

增加更多方言支持
优化本地模型性能
扩展 API 服务集成
改进用户体验

中期计划（2026 年 Q3-Q4）：

深度学习模型优化
实时处理能力提升
多模态处理支持
生态系统建设

长期计划（2027 年）：

自主 AI 模型训练
边缘计算支持
全球化扩

License

运行时依赖

安装命令

技能文档

技能概述

适用场景

核心功能

技术实现

使用方法

文件结构

配置文件示例

安装和配置

性能优化

安全和隐私

故障排除

性能指标

未来发展

相关技能推荐