蛋白质序列质量控制专业版(Protein Sequence Qc Pro)
v5.0.0Professional protein sequence 质量 control and 可视化 工作流. Includes complete QC 流水线 (length 过滤器, CD-HIT, complexity 检查, motif verif...
运行时依赖
安装命令
点击复制本土化适配说明
蛋白质序列质量控制专业版(Protein Sequence Qc Pro) 安装说明: 安装命令:["openclaw skills install protein-sequence-qc-pro"]
技能文档
蛋白质序列质量控制专业版 版本:5.0.0 创建日期:2026-05-08 目的:专业的蛋白质序列质量控制,生成出版级别的图表
快速开始 本技能提供一个完整的、经过实战测试的蛋白质序列质量控制工作流程,自动生成Nature风格的出版级别图表。
主要特点: ✅ 完整的质量控制流水线(3,365 → 1,531 序列) ✅ 保守性和共进化分析 ✅ 12+ 个出版级别图表(Nature风格) ✅ 自动质量评估 ✅ PDF + PNG 输出用于论文
使用本技能时: 分析蛋白质家族用于出版 需要出版级别图表 准备数据用于系统发育分析 需要严格的质量控制标准
完整的质量控制流水线 流水线概述 原始序列(3,365)↓ [长度过滤:200-500 个氨基酸] 2,963 个序列(88.1%)↓ [CD-HIT 90% 冗余去除] 1,531 个序列(45.5%)↓ [复杂性检查:熵 ≥ 2.0] 1,531 个序列(100%)↓ [基序验证:Rossman折叠] 1,531 个序列(67.7% 覆盖率)↓ [MAFFT 对齐:--localpair] 1,928 列↓ [trimAl:-automated1] 164 列(8.5%)↓ [质量评估] ↓ [保守性分析:8 个位点] ↓ [共进化分析:前 50 对] ↓ [生成 12+ 个图表] ✅ 出版级别数据集
使用方法 基本使用方法 # 运行完整的质量控制流水线 python3 scripts/run_complete_qc.py \ --input raw_sequences.fasta \ --output qc_results/ \ --threads 8 # 生成所有图表 python3 scripts/generate_all_figures.py \ --analysis qc_results/analysis/ \ --output figures/
高级使用方法 # 自定义质量控制参数 python3 scripts/run_complete_qc.py \ --input raw_sequences.fasta \ --output qc_results/ \ --min-length 200 \ --max-length 500 \ --cdhit-threshold 0.90 \ --complexity-threshold 2.0 \ --threads 8 # 生成Nature风格图表 python3 scripts/generate_nature_figures.py \ --analysis qc_results/analysis/ \ --output figures/nature/
生成的图表 图表集 1:质量控制流水线(4 个图表) qc_pipeline.png - 完整的质量控制流水线图 length_distribution_comparison.png - 长度分布对比图 alignment_quality.png - 对齐质量评估图 dataset_comparison.png - 数据集对比图
图表集 2:保守性分析(3 个图表) conservation_quality.png - 保守性质量评估图 conservation_landscape.png - 保守性景观图 figure_nature_01_conservation_landscape.png - Nature风格保守性景观图
图表集 3:共进化分析(2 个图表) coevolution_network.png - 共进化网络图 coevolution_heatmap.png - 共进化热图
图表集 4:应用于特定酶(3 个图表) ir08_conserved_sites.png - 保守性位点图 ir08_functional_regions.png - 功能区域注释图 ir08_mapping.png - 保守性/共进化位点映射图 mutation_priority.png - 实验优先级排名图
Nature风格图表 所有图表遵循Nature期刊标准: ✅ 尺寸:7.08 英寸(单列)或 14.17 英寸(双列) ✅ 分辨率:300 DPI ✅ 字体:Arial 8pt ✅ 格式:PNG + PDF ✅ 颜色方案:Nature推荐色板 ✅ 标签:a, b, c用于多面板图表
示例:保守性景观(Nature风格) # 生成Nature风格保守性景观图 python3 scripts/generate_nature_conservation_landscape.py \ --analysis qc_results/analysis/ \ --output figures/ 输出:figure_nature_01_conservation_landscape.png(300 DPI) figure_nature_01_conservation_landscape.pdf(矢量图) 图表面板:a)间隙率分布 b)归一化熵 c)功能注释(保守性+共进化位点)
质量指标 对齐质量标准 指标 优秀 良好 可接受 差 间隙率 < 20% 20-30% 30-40% > 40% 序列同源性 40-60% 30-70% 20-80% < 20% 或 > 80% 覆盖率 > 85% 80-85% 75-80% < 75% 保守性位点 > 10 5-10 3-5 < 3
我们的结果(1,531 个序列) ✅ 间隙率:16.1%(优秀) ✅ 序列同源性:20.3%(可接受 - 高多样性) ✅ 覆盖率:84.0%(良好) ✅ 保守性位点:8(良好) ✅ 共进化对:50(优秀)
保守性分析方法 香农熵公式:H = -Σ(p_i * log2(p_i)) H_norm = H / log2(20) 分类:高度保守:H_norm < 0.3 中度保守:0.3 ≤ H_norm < 0.6 可变:H_norm ≥ 0.6
质量检查 重要:始终检查保守性位点的间隙率! # 检查保守性位点质量 for site in conserved_sites: if site['gap_ratio'] > 0.5: print(f"⚠️ 位点 {site['position']} 有高间隙 ({site['gap_ratio']:.1%})") 高质量保守性位点:间隙率 < 10% 熵 < 0.3 存在于 > 90% 的序列中
共进化分析方法 互信息公式:MI(X,Y) = H(X) + H(Y) - H(X,Y) 过滤标准: ✅ 间隙率 < 50% 两个位置 ✅ 最小 50 对序列 ✅ 距离 > 5 个残基(避免局部相关性) 解释 高互信息