多源数据清洗器支持多格式数据解析与智能字段识别，自动去重补全格式统一，多源数据关联合并并生成飞书原生清洗报告。 — 多源数据清洗器支持多格式数据解析与智能字段识别，自动去重、补全、格式统一，多源数据关联合并并生成飞书原生清洗报告。

Name: 多源数据清洗器支持多格式数据解析与智能字段识别，自动去重补全格式统一，多源数据关联合并并生成飞书原生清洗报告。 — 多源数据清洗器支持多格式数据解析与智能字段识别，自动去重、补全、格式统一，多源数据关联合并并生成飞书原生清洗报告。
Rating: 7

v1.0.0

32分钟前

7· 7·0 当前·0 累计

by @qiji0802 (YK-Global)

办公协作企业工具

使用场景：发飞书消息管理飞书文档飞书日历飞书机器人

下载技能包

最后更新

2026/4/19

安全扫描

VirusTotal

Pending

查看报告

OpenClaw

可疑

medium confidence

该技能大体如名称/描述所述，但存在内部不一致（metadata 与 SKILL.md 不符）、缺少 Feishu/AI 网络使用的声明；若配置，会调用外部 AI/Feishu 服务——安装或发送敏感数据前请审查。

评估建议

本技能实现本地 Python 数据清洗工具，可选 AI 与 Feishu 集成。安装前：1）注意 metadata 不一致——registry 声明无环境变量，而 SKILL.md 要求 AI API 密钥（DATA_CLEANER_API_KEY）启用 AI 功能，且代码可向 /tmp 写状态文件；2）若启用 AI，你的数据（可能含敏感 PII）将发往第三方 AI 服务商（MiniMax/DeepSeek）——仅对安全、非敏感数据集并配合可信 API 密钥开启；3）Feishu 导出需 folder tokens/open_id（registry 未列为必需环境变量）——检查 scripts/output.py 与 reporter.py 了解所用端点及认证方式；4）registry 无自动安装描述，需手动 pip 安装 Python 依赖。建议：审查 output.py/reporter.py 的网络调用，在隔离环境（断网或受控 VM）中用非敏感测试数据运行，仅在你信任作者的前提下提供 API 密钥/令牌。若需更高保障，请向作者索取明确安装清单及外部端点与数据传输确认。...

详细分析 ▾

ℹ 用途与能力

代码与 SKILL.md 实现了所宣传的功能（解析、字段识别、清洗、模糊去重/连接、Feishu 导出及报告生成）。声明的依赖（pandas、fuzzywuzzy 等）与实现一致。然而 registry 元数据声称无需环境变量，而 SKILL.md 却列出 DATA_CLEANER_API_KEY、DATA_CLEANER_TIER 及可选的状态文件——这一不一致可能误导用户对所需凭据的理解。

ℹ 指令范围

SKILL.md 指示运行 scripts/main.py，并提供 API 风格的 run_clean_pipeline/run_merge_pipeline 调用。说明与代码示例将月度使用状态写入 /tmp/data_cleaner_state.json，并可选择创建 Feishu Bitable / Feishu 云文档。AI 功能（字段识别、分类）为可选项，若提供 API 密钥将调用外部 AI 服务商（MiniMax/DeepSeek）。未指示读取无关系统文件，但与外部网络（AI 服务商、Feishu）的交互在注册元数据中未完全记录。

ℹ 安装机制

未提供 registry 安装说明（该 skill 仅列为 instruction-only），但 bundle 内含 Python 脚本，并在 SKILL.md/README 中列出 pip 依赖及安装命令。这本身无害，但 registry 元数据缺少明确安装步骤，而代码却包含依赖，存在不一致：用户需手动安装依赖并确保代码在 Python 环境中运行。

ℹ 凭证需求

SKILL.md 合理地请求 AI API key 用于 AI 功能（DATA_CLEANER_API_KEY）、一个 tier 设置以及可选的 state 文件路径；这些与宣传的功能相匹配。然而，Feishu 导出需要 folder tokens/open_id，但这些凭据仅在文档中以函数参数形式暴露（feishu_folder_token / feishu_open_id），并未在注册元数据中声明为必需的环境变量——这是元数据与说明之间的又一不匹配。该 skill 在所提供的文件中未请求无关的系统凭据。

✓ 持久化与权限

该技能不会请求永久性的全平台权限（always:false）。它将使用次数持久化到 /tmp/data_cleaner_state.json，这是一种有限的本地持久化。它似乎不会修改其他技能或系统设置。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/19

multi-source-data-cleaner 1.0.0 首次发布： - 支持多格式数据解析（Excel、CSV/TSV、JSON、剪贴板文本） - AI 驱动的字段识别（姓名、电话、邮箱、ID 等），可自定义映射 - 通过去重（精确与模糊）、自动补全及字段格式标准化清洗数据 - 高阶版本提供 AI 分类、规则打标、多源合并与数据质量报告 - 集成飞书多维表格与自动文档 - 提供 CLI 与 Python API，错误处理清晰，功能按版本分级

● Pending

安装命令

点击复制

官方npx clawhub@latest install multi-source-data-cleaner

镜像加速npx clawhub@latest install multi-source-data-cleaner --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

多源数据清洗器支持多格式数据解析与智能字段识别，自动去重补全格式统一，多源数据关联合并并生成飞书原生清洗报告。 — 多源数据清洗器支持多格式数据解析与智能字段识别，自动去重、补全、格式统一，多源数据关联合并并生成飞书原生清洗报告。安装说明：安装命令：npx clawhub@latest install multi-source-data-cleaner 该技能用于飞书相关操作，可能需要相应的平台账号或API密钥

需要定制？告诉我你的需求 →

技能文档

元数据

| 字段 | 值 | |------|-----| | name | multi-source-data-cleaner | | label | 多源数据清洗器 | | version | 1.0.0 | | language | Python | | runtime | subprocess (scripts/main.py) | | trigger_words | 数据清洗、数据去重、表格整理、数据合并、格式统一、CRM数据整理、Excel清洗 |

---

描述

上传乱数据，输出干净数据。支持多格式解析、智能字段识别、AI去重/补全/格式化、多源关联合并，飞书原生输出（多维表格+云文档质量报告）。 适用场景： 电商订单整理、CRM客户数据清洗、银行流水整理、花名册整理、多系统数据合并。

---

能力

F1 · 多格式识别与解析

Excel (.xlsx / .xls)
CSV / TSV
JSON（半结构化）
剪贴板粘贴文本

F2 · 智能字段识别

AI 自动识别：姓名、手机号、邮箱、地址、金额、日期、SKU、订单号、身份证、性别等
支持用户自定义字段映射覆盖

F3 · 数据清洗

去重：精确去重 + 智能模糊去重（FuzzyWuzzy，阈值 88%）
补全：均值/众数/语义推断/留空
格式统一：

- 手机号 → 1xx-xxxx-xxxx - 日期 → YYYY-MM-DD - 金额 → 两位小数 - 地址 → 省市区街道标准化

F4 · 数据分类/打标签（专业版）

内置 8 种业务规则（高价值客户、沉睡用户、VIP客户、企业客户等）
支持自定义 JSON 规则
AI 自动打标签（需专业版 + AI API Key）

F5 · 多源关联合并（专业版）

按手机号/姓名/订单号等跨文件关联
Fuzzy Join（模糊匹配阈值可调）
支持 2+ 文件迭代合并

F6 · 飞书原生输出

导出干净 Excel / CSV
飞书多维表格（标准版/专业版）：直接写入 Bitable
数据质量报告 → 飞书云文档：重复率/缺失率/清洗前后对比

---

定价/版本功能

| 功能 | 免费版 | 基础版 | 标准版 | 专业版 | |------|--------|--------|--------|--------| | 月额度 | 50条 | 500条 | 3000条 | 不限 | | 数据源数 | 1 | 3 | 不限 | 不限 | | 最大列数 | 10 | 50 | 200 | 不限 | | 多格式解析 | ❌ | ✅ | ✅ | ✅ | | 基础去重 | ✅ | ✅ | ✅ | ✅ | | 智能模糊去重 | ❌ | ❌ | ✅ | ✅ | | 格式统一 | ❌ | ❌ | ✅ | ✅ | | 智能补全 | ❌ | ❌ | ✅ | ✅ | | 多源合并 | ❌ | ❌ | ❌ | ✅ | | AI分类/打标签 | ❌ | ❌ | ❌ | ✅ | | 数据质量报告 | ❌ | ❌ | ❌ | ✅ | | 飞书多维表格 | ❌ | ❌ | ❌ | ✅ |

权限隔离实现： scripts/tier_limits.py — 所有操作入口均调用 check_tier() / check_feature() 验证。

---

调用方式

Agent 直接调用

python  
from main import run_clean_pipeline, run_merge_pipeline  
# 基本清洗  
result = run_clean_pipeline(  
    sources=["订单数据.xlsx"],  
    texts=None,  
    output_format="xlsx",  
    output_path="/tmp/cleaned.xlsx",  
    dedup_strategy="auto",  
    fill_strategy="auto",  
    classify=True,  
    ai_model="deepseek",  
    generate_report=True,  
)

# 多源合并 merge_result = run_merge_pipeline( sources=["客户表.xlsx", "订单表.csv"], on=["手机号"], fuzzy_on=["姓名"], fuzzy_threshold=85, output_format="xlsx", )`

`CLI 调用`

bash  
# 清洗本地文件  
python scripts/main.py clean -i data.xlsx -o cleaned.xlsx -f xlsx  
# 粘贴文本数据  
python scripts/main.py clean -t "姓名,电话 张三,13800138000 李四,13900139000" -o cleaned.csv -f csv  
# 多源合并  
python scripts/main.py merge --sources data1.csv data2.csv --on 手机号 -o merged.xlsx

# 生成质量报告 python scripts/main.py clean -i cleaned.xlsx --report-title "清洗报告" -o report.md`

---

`函数参考`

run_clean_pipeline()


参数：  
| 参数 | 类型 | 默认值 | 说明 |  
|------|------|--------|------|  
|

sources | List[str] | None

 | 文件路径列表 |  
|

texts | List[str] | None

 | 粘贴文本列表 |  
|

tier | str | None

 | free/basic/std/pro |  
|

output_format | str | "xlsx"

 | xlsx 或 csv |  
|

output_path | str | None

 | 输出路径（自动生成临时文件） |  
|

custom_field_mapping | Dict[str,str] | None

 | {列名: 类型} 覆盖 |  
|

dedup_strategy | str | "auto"

 | exact / fuzzy / auto |  
|

fill_strategy | str | "auto"

 | auto / mean / mode / leave_blank |  
|

classify | bool | False

 | 是否启用 AI 分类 |  
|

ai_model | str | None

 | minimax / deepseek |  
|

generate_report | bool | True

 | 是否生成质量报告 |  
|

bitable_output | bool | False

 | 输出到飞书多维表格 |  
|

feishu_folder_token | str | None

 | 飞书文件夹 token |  
|

report_title | str | "数据质量报告" | 报告文档标题 |

返回： Dict 含 file_path, cleaned_rows, clean_report, usage, report_md, bitable, doc 等。

---

`环境变量`


| 变量 | 必填 | 说明 |  
|------|------|------|  
|

DATA_CLEANER_API_KEY

 | AI 功能需填写 | MiniMax 或 DeepSeek API Key |  
|

DATA_CLEANER_TIER

 | 推荐填写 | 订阅版本（free/basic/std/pro），默认 free |  
|

DATA_CLEANER_STATE_FILE

 | 可选 | 月度用量记录文件路径 |  
---  
依赖

  
pandas>=1.5  
openpyxl>=3.0  
xlrd>=2.0  
fuzzywuzzy>=0.18  
python-Levenshtein>=0.12

  
安装：

pip install pandas openpyxl xlrd fuzzywuzzy python-Levenshtein

  
---  
错误处理  
| 异常 | 说明 | 用户提示 |  
|------|------|---------|  
|

TierLimitExceeded

 | 超出月度额度或数据源数限制 | 提示升级版本 |  
|

FeatureNotAvailable

 | 当前版本不支持该功能 | 提示解锁方式 |  
|

MergeError

 | 合并失败（键不匹配等） | 提示检查关联键 |  
|

ExportError

 | 导出失败（APIKey等） | 提示配置方式 |  
---  
备注

所有 DataFrame 操作使用 dtype=str + keep_default_na=False，避免意外类型转换

日期解析支持：YYYY-MM-DD、YYYY/MM/DD、YYYY年MM月DD日、YYYYMMDD、Unix时间戳

手机号格式统一：自动识别 11 位中国手机号并格式化为 1xx-xxxx-xxxx

模糊去重阈值默认 88%（FuzzyWuzzy ratio），可在 run_merge_pipeline 中通过 fuzzy_threshold 参数调整

月度用量在 /tmp/data_cleaner_state.json` 中持久化，重启后保留
飞书 Bitable 输出每批最多 500 条，超出自动分批写入

---

技能作者

技能开发者 · YK Global