📦 Multi — 多

v1.0.0

Source Cleaner Pro 清理并合并多格式、多源数据,支持智能字段识别、AI 去重补全、格式统一,可输出飞书多维表格及质量报告。

0· 19·0 当前·0 累计
niclosca 头像by @niclosca (YK-Global)
下载技能包
最后更新
2026/4/21
0
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
可疑
medium confidence
该技能的代码和说明大体符合其声明的数据清洗用途,但在声明的环境/凭据要求及外部集成(AI 提供商 / Feishu)方面存在明显不一致,这些信息并未体现在注册表元数据和 README 声明中,因此安装前应验证网络调用和凭据使用情况。
评估建议
安装前检查清单: - 凭据与网络 I/O:SKILL.md 及代码引用了 AI 服务商(MiniMax / DeepSeek)与 Feishu 输出,需 API key/token,数据会发往外部。registry 元数据未声明必需 env var——请核查 scripts/output.py 与 classifier.classify_with_ai 中 API key 的用法。若禁止数据离机,请勿启用 AI 分类或 Feishu 导出。 - 隐私声明冲突:README 称“本地处理”,但 AI 与 Feishu 功能与之矛盾。务必通读源码(尤其 scripts/output.py 及 ai/call 相关)确认无 HTTP/requests 调用及显式 endpoint,再信“数据不出环境”。 - 凭据暴露面:技能文档提到 DATA_CLEANER_API_KEY,并接收 feishu_folder_token 参数;只授予最小权限 key,必要时轮换/吊销。 - 先沙箱运行:关闭 AI/Feishu,用非敏感样本跑测试与完整 pipeline,验证行为。全局搜网络...
详细分析 ▾
用途与能力
该技能实现了所述功能(解析、字段识别、清洗、合并、报告、Feishu 输出),并包含相关代码。然而,SKILL.md / README 描述了可选的 AI 驱动功能以及 Feishu Bitable/Doc 导出,暗示需使用外部 API 和凭据;注册元数据中未列出任何必需的环境变量或主凭据,导致所宣称功能与声明需求不一致。
指令范围
运行时指令表明,该 skill 会执行 scripts/main.py,并接受任意本地文件/文本进行处理(符合预期)。文档还列出了供 AI 模型使用的参数与环境变量(DATA_CLEANER_API_KEY)以及用于 Feishu 输出的 feishu_folder_token——这两者均涉及网络 I/O。README 同时宣称“所有数据处理均在本地完成”,与 AI/Feishu 功能存在矛盾;SKILL.md 并未授权 agent 随意读取无关系统文件,但会将使用状态持久化至 /tmp/data_cleaner_state.json。
安装机制
这是一个不含安装说明的指令/代码包。依赖项为常见的 Python 包(pandas、openpyxl、fuzzywuzzy、python-Levenshtein)。没有远程下载/解压/安装 URL,因此安装风险低——用户只需用标准 pip 安装依赖即可。
凭证需求
SKILL.md 和 README 引用了 DATA_CLEANER_API_KEY(用于 MiniMax/DeepSeek)、DATA_CLEANER_TIER 以及可选的状态文件路径;注册元数据中未列出任何必需的环境变量。飞书输出功能暗示可能需要额外的凭据/令牌(feishu_folder_token 参数或其他飞书 API key),但这些在技能元数据中并未声明。这种不匹配引发了比例性与透明度问题:存在网络功能和凭据,却未在注册表中声明。
持久化与权限
该 skill 未声明 'always: true',仅可由用户调用。其使用状态持久化至 /tmp/data_cleaner_state.json(已文档化)。无证据表明其修改其他 skill 或系统级 agent 设置。允许自主调用(平台默认),且仅此一项不构成此处标记的特权。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/21

multi-source-cleaner-pro 1.0.0 — 首发版本 - 支持多格式数据输入(Excel、CSV/TSV、JSON、文本)。 - 提供智能字段识别、去重、补全、格式统一等一站式清洗功能。 - 支持多文件/多源数据合并及模糊关联(专业版)。 - 可输出飞书多维表格与数据质量报告。 - 内置分级功能及用量/权限控制,适配免费至专业版不同需求。 - 提供简洁的 API 与 CLI 调用方式。

可疑

安装命令

点击复制
官方npx clawhub@latest install multi-source-cleaner-pro
镜像加速npx clawhub@latest install multi-source-cleaner-pro --registry https://cn.longxiaskill.com

技能文档

元数据

| 字段 | 值 | |------|-----| | name | multi-source-data-cleaner | | label | 多源数据清洗器 | | version | 1.0.0 | | language | Python | | runtime | subprocess (scripts/main.py) | | trigger_words | 数据清洗、数据去重、表格整理、数据合并、格式统一、CRM数据整理、Excel清洗 |

---

描述

上传乱数据,输出干净数据。支持多格式解析、智能字段识别、AI去重/补全/格式化、多源关联合并,飞书原生输出(多维表格+云文档质量报告)。 适用场景: 电商订单整理、CRM客户数据清洗、银行流水整理、花名册整理、多系统数据合并。

---

能力

F1 · 多格式识别与解析

  • Excel (.xlsx / .xls)
  • CSV / TSV
  • JSON(半结构化)
  • 剪贴板粘贴文本

F2 · 智能字段识别

  • AI 自动识别:姓名、手机号、邮箱、地址、金额、日期、SKU、订单号、身份证、性别等
  • 支持用户自定义字段映射覆盖

F3 · 数据清洗

  • 去重:精确去重 + 智能模糊去重(FuzzyWuzzy,阈值 88%)
  • 补全:均值/众数/语义推断/留空
  • 格式统一
- 手机号 → 1xx-xxxx-xxxx - 日期 → YYYY-MM-DD - 金额 → 两位小数 - 地址 → 省市区街道标准化

F4 · 数据分类/打标签(专业版)

  • 内置 8 种业务规则(高价值客户、沉睡用户、VIP客户、企业客户等)
  • 支持自定义 JSON 规则
  • AI 自动打标签(需要专业版 + AI API Key)

F5 · 多源关联合并(专业版)

  • 按手机号/姓名/订单号等跨文件关联
  • Fuzzy Join(模糊匹配阈值可调)
  • 支持 2+ 文件迭代合并

F6 · 飞书原生输出

  • 导出干净 Excel / CSV
  • 飞书多维表格(标准版/专业版):直接写入 Bitable
  • 数据质量报告 → 飞书云文档:重复率/缺失率/清洗前后对比

---

定价/版本功能

| 功能 | 免费版 | 基础版 | 标准版 | 专业版 | |------|--------|--------|--------|--------| | 月额度 | 50条 | 500条 | 3000条 | 不限 | | 数据源数 | 1 | 3 | 不限 | 不限 | | 最大列数 | 10 | 50 | 200 | 不限 | | 多格式解析 | ❌ | ✅ | ✅ | ✅ | | 基础去重 | ✅ | ✅ | ✅ | ✅ | | 智能模糊去重 | ❌ | ❌ | ✅ | ✅ | | 格式统一 | ❌ | ❌ | ✅ | ✅ | | 智能补全 | ❌ | ❌ | ✅ | ✅ | | 多源合并 | ❌ | ❌ | ❌ | ✅ | | AI分类/打标签 | ❌ | ❌ | ❌ | ✅ | | 数据质量报告 | ❌ | ❌ | ❌ | ✅ | | 飞书多维表格 | ❌ | ❌ | ❌ | ✅ |

权限隔离实现: scripts/tier_limits.py — 所有操作入口均调用 check_tier() / check_feature() 验证。

---

调用方式

Agent 直接调用

``python from main import run_clean_pipeline, run_merge_pipeline

# 基本清洗 result = run_clean_pipeline( sources=["订单数据.xlsx"], texts=None, output_format="xlsx", output_path="/tmp/cleaned.xlsx", dedup_strategy="auto", fill_strategy="auto", classify=True, ai_model="deepseek", generate_report=True, )

# 多源合并 merge_result = run_merge_pipeline( sources=["客户表.xlsx", "订单表.csv"], on=["手机号"], fuzzy_on=["姓名"], fuzzy_threshold=85, output_format="xlsx", ) `

CLI 调用

`bash # 清洗本地文件 python scripts/main.py clean -i data.xlsx -o cleaned.xlsx -f xlsx

# 粘贴文本数据 python scripts/main.py clean -t "姓名,电话 张三,13800138000 李四,13900139000" -o cleaned.csv -f csv

# 多源合并 python scripts/main.py merge --sources data1.csv data2.csv --on 手机号 -o merged.xlsx

# 生成质量报告 python scripts/main.py clean -i cleaned.xlsx --report-title "清洗报告" -o report.md `

---

函数参考

run_clean_pipeline()

参数: | 参数 | 类型 | 默认值 | 说明 | |------|------|--------|------| | sources | List[str] | None | 文件路径列表 | | texts | List[str] | None | 粘贴文本列表 | | tier | str | None | free/basic/std/pro | | output_format | str | "xlsx" | xlsx 或 csv | | output_path | str | None | 输出路径(自动生成临时文件) | | custom_field_mapping | Dict[str,str] | None | {列名: 类型} 覆盖 | | dedup_strategy | str | "auto" | exact / fuzzy / auto | | fill_strategy | str | "auto" | auto / mean / mode / leave_blank | | classify | bool | False | 是否启用 AI 分类 | | ai_model | str | None | minimax / deepseek | | generate_report | bool | True | 是否生成质量报告 | | bitable_output | bool | False | 输出到飞书多维表格 | | feishu_folder_token | str | None | 飞书文件夹 token | | report_title | str | "数据质量报告" | 报告文档标题 |

返回: Dictfile_path, cleaned_rows, clean_report, usage, report_md, bitable, doc 等。

---

环境变量

| 变量 | 必填 | 说明 | |------|------|------| | DATA_CLEANER_API_KEY | AI 功能需填写 | MiniMax 或 DeepSeek API Key | | DATA_CLEANER_TIER | 推荐填写 | 订阅版本(free/basic/std/pro),默认 free | | DATA_CLEANER_STATE_FILE | 可选 | 月度用量记录文件路径 |

---

依赖

` pandas>=1.5 openpyxl>=3.0 xlrd>=2.0 fuzzywuzzy>=0.18 python-Levenshtein>=0.12 ` 安装:pip install pandas openpyxl xlrd fuzzywuzzy python-Levenshtein

---

错误处理

| 异常 | 说明 | 用户提示 | |------|------|---------| |
TierLimitExceeded | 超出月度额度或数据源数限制 | 提示升级版本 | | FeatureNotAvailable | 当前版本不支持该功能 | 提示解锁方式 | | MergeError | 合并失败(键不匹配等) | 提示检查关联键 | | ExportError | 导出失败(APIKey等) | 提示配置方式 |

---

备注

  • 所有 DataFrame 操作使用 dtype=str + keep_default_na=False,避免意外类型转换
  • 日期解析支持:YYYY-MM-DDYYYY/MM/DDYYYY年MM月DD日YYYYMMDD、Unix时间戳
  • 手机号格式统一:自动识别 11 位中国手机号并格式化为 1xx-xxxx-xxxx
  • 模糊去重阈值默认 88%(FuzzyWuzzy ratio),可在 run_merge_pipeline 中通过 fuzzy_threshold 参数调整
  • 月度用量在 /tmp/data_cleaner_state.json` 中持久化,重启后保留
  • 飞书 Bitable 输出每批最多 500 条,超出自动分批写入

---

技能作者

技能开发者 · YK Global

数据来源ClawHub ↗ · 中文优化:龙虾技能库