Cnv Caller Plotter译为:拷贝数变异调用绘图器
v0.1.0从全基因组测序数据中检测拷贝数变异,并生成出版级的基因组范围内CNV图。支持癌症基因组学和罕见疾病分析中的CNV调用、分段和可视化。
0· 408·0 当前·0 累计
下载技能包
License
MIT-0
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install cnv-caller-plotter
镜像加速npx clawhub@latest install cnv-caller-plotter --registry https://cn.longxiaskill.com 镜像可用
技能文档
CNV Caller & Plotter 从全基因组测序(WGS)数据中检测拷贝数变异(CNVs),并为癌症基因组学、罕见疾病分析和群体遗传学研究生成基因组范围的可视化图。提供CNV调用、分段分析和出版级可视化。
关键能力:
- CNV检测:从对齐的测序数据中识别拷贝数增益和损失
- 基因组分段:将基因组划分为二进制窗口以估计拷贝数
- 灵活的输入支持:处理BAM、VCF和其他标准基因组格式
- 出版级别图:以PNG、PDF或SVG格式生成基因组范围的CNVprofiles
- 标准输出格式:以BED格式导出CNV调用以进行下游分析
何时使用:
- 分析癌症基因组以识别体细胞拷贝数变异(SCNAs)
- 研究具有疑似拷贝数变异病因的罕见疾病
- 进行比较群体遗传学研究以比较不同群体的CNV频率
- 为出版物或报告生成基因组范围的CNV可视化
- 为与其他分析管道集成创建BED格式的CNV调用
- 执行肿瘤和正常样本之间的比较CNV分析
- 验证来自SNP阵列的CNV调用与测序数据
何时不使用:
- 使用定向测序面板(外显子/定向捕获)→ 使用专用工具,如CNVkit或ExomeDepth
- 检测涉及易位或逆转的结构变异 → 使用结构变异调用器
- 分析单细胞RNA-seq数据 → 使用单细胞特定的CNV工具(例如inferCNV)
- 检测小的indels(<50bp)→ 使用变异调用器进行小变异检测
- 需要临床级别的CNV检测用于诊断目的 → 使用经过验证的临床管道并进行适当的QC
- 使用低覆盖度数据(<10x)→ 结果可能不可靠;考虑使用SNP阵列方法
相关技能:
- 上游:fastqc-report-interpreter、alignment-quality-checker、variant-caller
- 下游:circos-plot-generator、go-kegg-enrichment、heatmap-beautifier
与其他技能集成 上游技能:
- fastqc-report-interpreter:在CNV调用之前评估测序质量;低质量数据可能会产生不可靠的CNV
- alignment-quality-checker:验证BAM文件质量和覆盖度均匀性;不均匀的覆盖度会导致CNV伪影
- variant-caller:生成SNV/indel调用以进行癌症样本的综合CNV-SNV分析
下游技能:
- circos-plot-generator:创建集成CNV和其他基因组特征的圆形基因组图
- go-kegg-enrichment:对CNV区域内的基因进行通路富集分析
- heatmap-beautifier:可视化多个样本的CNVprofiles
完整工作流程: 原始WGS数据 → fastqc-report-interpreter → alignment-quality-checker → cnv-caller-plotter → circos-plot-generator → 出版图
核心能力
- 拷贝数变异检测
from scripts.main import CNVCaller
# 初始化CNV调用器以二进制大小
caller = CNVCaller(bin_size=1000)
# 从BAM文件调用CNV
cnv_calls = caller.call_cnvs(
input_file="sample.bam",
reference="hg38.fa"
)
# 查看检测到的CNV
for cnv in cnv_calls:
print(f"{cnv['chrom']}:{cnv['start']}-{cnv['end']}")
print(f"拷贝数:{cnv['cn']}")
if cnv['cn'] > 2:
print(f"类型:扩增(增益)")
elif cnv['cn'] < 2:
print(f"类型:缺失(损失)")参数:
- 参数类型:必需:描述:默认值
- input_file:str:是:输入BAM或VCF文件的路径:无
- reference:str:是:参考基因组FASTA文件的路径:无
- bin_size:int:否:基因组二进制窗口的大小(bp):1000
CNV调用策略:
- 方法:最适合:灵敏度:特异性
- 读取深度分析:大CNV(>10kb):高:中
- 配对末端映射:中CNV(1-10kb):中:高
- 拆分读取分析:小CNV(<1kb):中:高
- 综合方法:全面检测:高:高
最佳实践:
- 使用适当的二进制大小:1000bp用于WGS,较小的用于定向分析
- 确保足够的覆盖度:最低15-20x用于可靠的CNV检测
- 匹配参考基因组:使用与对齐相同的参考基因组(hg19 vs hg38)
- 检查覆盖度均匀性:GC偏差可能会导致假阳性CNV
常见问题和解决方案:
- 问题:重复区域的假阳性CNV
- 症状:许多CNV调用在中心粒、端粒或段重复中
- 解决方案:过滤重叠已知问题区域的CNV;使用可映射性过滤器
- 问题:小CNV的低灵敏度
- 症状:尽管覆盖度足够,但缺少小于5kb的CNV
- 解决方案:减小二进制大小;使用拆分读取或配对末端信号以及深度
- 基因组分段和二进制化
将基因组划分为窗口/二进制文件以估计拷贝数,实现对整个基因组的系统分析。
python
from scripts.main import CNVCaller
# 不同的二进制大小用于不同的分析
```