Data Classification — 数据分类
v1.0.0用于数据分类、数据分级、数据分类分级任务。用户要求对单一数据字段名、字段列表、数据库表 SQL/DDL 文件进行数据分类、数据分级或数据分类分级时使用;支持普通数据分类分级、GB/T 43697-2024 通用数据分类分级、金融数据分类分级、JR/T 0197-2020 金融数据安全级别,以及“通用数据标签 + ”等功能。
运行时依赖
安装命令
点击复制本土化适配说明
Data Classification — 数据分类 安装说明: 安装命令:["openclaw skills install data-classification"]
技能文档
数据分类目的 将用户提供的字段名称或SQL DDL分类为: 普通/通用数据分类分级:GB/T 43697-2024风格类别 + 级别(一般数据 / 重要数据 / 核心数据)。 金融数据双标签体系:通用标签 + JR/T 0197-2020金融标签(一级/二级/三级/四级子类 + 最低安全级别1-5)。 本技能产生分类建议,而不是最终的监管确定。标记不确定的项以供业务所有者审查。
快速工作流程 识别输入类型: 单个字段名称:直接分类。 SQL/DDL文件:提取表名称、列名称、类型和注释。 在有用时运行帮助程序: python3 skills/data-classification/scripts/classify_data.py --field "customer_id" --mode finance python3 skills/data-classification/scripts/classify_data.py --sql path/to/schema.sql --mode finance --format markdown
在回退到启发式方法之前,先将金融行与JR/T 0197-2020附录A进行比较: references/jrt0197-appendix-a-full.csv是机器可读的完整附录A表。 references/jrt0197-appendix-a-compact.md是人类可读的紧凑附录A表。 references/financial-dual-label.md包含双标签工作流程和回退启发式方法。 references/general-rules.md包含GB/T 43697-2024逻辑。
返回一个字段级别的结果,涵盖每个输入字段。 不替换完整的字段列表,直接输出。 根据字段数量选择输出方式,但不向用户解释此阈值策略: ≤20个字段:在聊天中内联输出完整的字段级别表格; 不创建/附加文件,除非用户明确要求导出/文件。 >20个字段:将完整的字段级别结果保存为CSV文件, 使用MEDIA:行附加文件,显示前20个分类字段内联, 并在消息中包含覆盖语句。 不内联超过20行。 不提供仅仅是本地路径作为下载方法。 不将覆盖语句写入CSV文件本身。
在最终确定之前运行覆盖检查: 比较解析/输入字段数量与分类输出行数。 如果任何字段缺失,修复输出或显式标记字段为[blocked:未解析/缺少字段信息]。 仅当字段名称/注释过于模糊时,才要求业务上下文。
输出要求 对于单个字段,包括: 字段名 通用分类:行业领域、描述对象/数据主体、内容类别 通用分级:一般/重要/核心 + 理由 置信度与需确认点 金融标签(仅金融场景输出):推荐的一级/二级/三级/四级子类 + 最低安全级别 候选金融标签(仅金融场景输出):当字段可落入多个JR/T分类时,一并列出候选项并说明推荐依据 双标签结果(仅金融场景输出):通用标签 + 金融标签
对于SQL文件/表格,分类所有解析列。 选择交付格式,不告诉用户阈值/路由规则。 ≤20个字段:完整的字段级别表格内联。 不创建/附加文件,除非用户明确要求导出/文件。 >20个字段:创建完整的CSV结果文件。 返回简洁的完成说明, 附加CSV文件,使用MEDIA:<绝对CSV路径>, 内联显示前20个字段级别行, 并在消息中包含覆盖语句。 不内联超过20行。 不依赖于裸本地路径作为用户的下载链接。 不将覆盖语句作为CSV文件中的行。 不提供仅仅是子集,例如“核心字段”、“样本行”或“摘要表”, 除非用户明确要求摘要。
以下输出列对于每个字段都是必需的,必须在所有场景中非空: 字段名 通用分类 通用分级 置信度
对于金融数据/场景,还包括以下必需的非空列: 推荐金融分类标签 JR/T最低级别 候选金融标签
对于金融字段,先与references/jrt0197-appendix-a-full.csv或references/jrt0197-appendix-a-compact.md进行匹配, 仅当附录A没有明确匹配或字段/表格上下文创建多个合理候选项时,才使用financial-dual-label.md启发式方法。 对于非金融数据,不输出推荐金融分类标签、JR/T最低级别、候选金融标签。
推荐的非金融表格形状: 表名 字段名 类型/注释 通用分类 通用分级 置信度 依据/备注
推荐的金融表格形状: 表名 字段名 类型/注释 通用分类 通用分级 推荐金融分类标签 JR/T最低级别 候选金融标签 双标签 置信度 依据/备注
在表格之后,包括覆盖行: 覆盖校验:输入/解析字段N个,已分类N个,遗漏0个。
如果输出保存到文件,仍然在消息中包含覆盖行和附件。 对于CSV输出,包括MEDIA:<绝对CSV路径>, 以便用户可以直接点击/下载; 使用文件写入步骤返回的绝对路径,而不是相对工作区路径。 文件输出允许>20个字段作为CSV, 或用户明确要求文件/导出时。 不将覆盖行写入CSV文件本身。 不解释文件是由于字段数量阈值而选择的, 除非用户询问为什么。
分类原则 覆盖是必需的:每个用户提供的字段/解析SQL列必须接收分类行。 使用就高从严:如果多个规则匹配, 选择更严格的级别作为推荐, 列出合理的候选标签, 并解释为什么。 将字段名称单独视为弱证据; 注释和表名称