首页龙虾技能列表 › Quant Data Quality — 量化数据质量检查

Quant Data Quality — 量化数据质量检查

v1.0.0

量化数据质量检查技能,自动响应数据质量相关查询,提供检查清单、问题识别和修复建议,适用于量化项目数据管理。

0· 376·0 当前·0 累计
by @xueylee-dotcom·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/27
安全扫描
VirusTotal
Pending
查看报告
OpenClaw
安全
high confidence
此技能为量化项目提供数据质量检查清单,仅引用本地数据文件,包含示例Python检查代码,要求和指令与目的相符。
评估建议
此技能为仅包含示例Python代码的检查清单,读取本地parquet文件。启用前,请确认文件路径、备份数据、确保Python和pandas/numpy环境,并决定是否允许代码执行。技能不请求网络数据泄露或凭证访问。...
详细分析 ▾
用途与能力
技能名称/描述与内容匹配(量化数据质量检查),包含检查清单、示例pandas脚本和报告模板,不请求无关凭证、二进制文件或安装。
指令范围
SKILL.md提供具体数据质量检查和Python代码片段,读取本地parquet文件,计算统计数据,生成报告,不涉及读取无关系统文件、联系外部端点或收集秘密。
安装机制
不包含安装规范或代码文件(仅指令)。不会下载或由安装程序写入任何内容。
凭证需求
不需要环境变量、凭证或配置路径。示例假设典型本地数据文件和常见Python库(pandas/numpy),与声明目的成比例。
持久化与权限
始终为false,无持久/安装行为。技能不请求永久代理存在或修改其他技能/配置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/27
● Pending

安装命令 点击复制

官方npx clawhub@latest install quant-data-quality
镜像加速npx clawhub@latest install quant-data-quality --registry https://cn.clawhub-mirror.com

技能文档

版本:1.0.0
适用项目:量化策略项目

🎯 检查目标

确保数据完整性、准确性、一致性、时效性


📋 数据质量检查清单

1. 数据完整性

1.1 价格数据完整性

检查项

  • [ ] 数据量是否充足?(股票数 × 交易日数)
  • [ ] 是否有缺失日期?
  • [ ] 是否有缺失股票?

检查方法

import pandas as pd

# 加载价格数据 price = pd.read_parquet('data/integrated/price_integrated.parquet')

# 检查数据量 print(f"记录数: {len(price)}") print(f"股票数: {price['code'].nunique()}") print(f"日期范围: {price['date'].min()} ~ {price['date'].max()}")

# 检查缺失日期 dates = pd.to_datetime(price['date'].unique()) all_dates = pd.date_range(start=dates.min(), end=dates.max(), freq='B') # 工作日 missing_dates = set(all_dates) - set(dates) print(f"缺失日期: {len(missing_dates)}")


1.2 因子数据完整性

检查项

  • [ ] 因子数量是否合理?
  • [ ] 是否有大量nan值?
  • [ ] 是否有极端值?

检查方法

import pandas as pd
import numpy as np

# 加载因子数据 factors = pd.read_parquet('data/factors_v2/alphagbm_rolling_factors_active.parquet')

# 检查nan值 nan_count = factors.isna().sum().sum() total_count = factors.size nan_ratio = nan_count / total_count print(f"nan值数量: {nan_count:,}") print(f"nan值比例: {nan_ratio:.2%}")

# 检查极端值 for col in factors.select_dtypes(include=[np.number]).columns: q1 = factors[col].quantile(0.01) q99 = factors[col].quantile(0.99) extreme_count = ((factors[col] < q1) | (factors[col] > q99)).sum() print(f"{col}: 极端值数量 {extreme_count}")


1.3 信号数据完整性

检查项

  • [ ] 信号数量是否合理?
  • [ ] 信号日期是否最新?
  • [ ] 信号股票是否在股票池内?

2. 数据准确性

2.1 价格数据准确性

检查项

  • [ ] 是否有零价格?
  • [ ] 是否有负价格?
  • [ ] 是否有异常收益率(>20%)?

检查方法

# 检查零价格
zero_price = price[price['close'] == 0]
print(f"零价格记录: {len(zero_price)}")

# 检查负价格 neg_price = price[price['close'] < 0] print(f"负价格记录: {len(neg_price)}")

# 检查异常收益率 price['return'] = price.groupby('code')['close'].pct_change() abnormal_return = price[abs(price['return']) > 0.2] print(f"异常收益率记录: {len(abnormal_return)}")


2.2 因子数据准确性

检查项

  • [ ] 是否有inf值?
  • [ ] 是否有极端值(>1e10)?
  • [ ] 因子分布是否合理?

检查方法

import numpy as np

# 检查inf值 inf_count = np.isinf(factors.select_dtypes(include=[np.number])).sum().sum() print(f"inf值数量: {inf_count}")

# 检查极端值 extreme_count = (abs(factors.select_dtypes(include=[np.number])) > 1e10).sum().sum() print(f"极端值数量: {extreme_count}")


3. 数据一致性

3.1 价格-成交量一致性

检查项

  • [ ] 零成交量比例是否合理?
  • [ ] 价格-成交量时间是否对齐?

检查方法

# 检查零成交量
zero_volume = price[price['volume'] == 0]
print(f"零成交量记录: {len(zero_volume)}")
print(f"零成交量比例: {len(zero_volume) / len(price):.2%}")

3.2 跨源数据一致性

检查项

  • [ ] 不同数据源的价格是否一致?
  • [ ] 不同数据源的日期范围是否一致?

4. 数据时效性

4.1 价格数据时效性

检查项

  • [ ] 最新数据日期?
  • [ ] 滞后天数?

检查方法

from datetime import datetime

latest_date = pd.to_datetime(price['date'].max()) today = datetime.now() lag = (today - latest_date).days print(f"最新日期: {latest_date}") print(f"滞后天数: {lag}")


4.2 因子数据时效性

检查项

  • [ ] 因子更新频率?
  • [ ] 因子滞后天数?

🔍 常见数据问题

问题1:价格数据缺失

表现

  • 某些日期没有数据
  • 某些股票没有数据

原因

  • 数据源问题
  • 爬虫失败
  • 停牌

解决方案

  • ✅ 使用多数据源
  • ✅ 定期检查数据完整性
  • ✅ 建立数据更新告警

问题2:因子数据大量nan

表现

  • 因子列有很多nan值

原因

  • 计算窗口不足
  • 数据源缺失
  • 计算逻辑错误

解决方案

  • ✅ 检查计算窗口
  • ✅ 填充缺失值
  • ✅ 修复计算逻辑

问题3:因子极端值

表现

  • 因子值异常大或异常小

原因

  • 除零错误
  • 计算逻辑错误
  • 数据质量问题

解决方案

  • ✅ Winsorize处理
  • ✅ 检查计算逻辑
  • ✅ 过滤极端值

问题4:信号过期

表现

  • 信号日期滞后很久

原因

  • 信号生成任务未运行
  • 数据更新任务未运行

解决方案

  • ✅ 检查cron任务
  • ✅ 建立更新告警
  • ✅ 手动触发更新

📊 数据质量报告模板

# 数据质量报告

检查日期:YYYY-MM-DD


一、数据概览

数据类型记录数股票数日期范围滞后天数
价格数据1.16M5252015-20261
因子数据991K5252020-202617
信号数据10102026-03-270

二、数据质量评分

维度评分说明
完整性100/100数据完整
准确性100/100无异常值
一致性100/100跨源一致
时效性70/100因子滞后17天
总评分:92.5/100


三、问题清单

问题严重程度建议
因子数据滞后下周一更新

检查人:OpenClaw Assistant 日期:YYYY-MM-DD


🚫 禁止事项

  • ❌ 使用未经检查的数据
  • ❌ 忽略数据质量问题
  • ❌ 没有数据质量报告

技能版本:1.0.0

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务