重测序分析理论

Posted by 琼脂糖 on September 18, 2019

image.png

流程

  1. 数据质控
  2. 比对参考基因组,测序深度及覆盖度统计 coverage of each accession against each chromosome of grapevine genome:SAMtools(BAM files) SNP density, indel density, and total genetic diversity across each chromosome were counted with 100 kb sliding window using VCFtools softwar
  3. 群体SNP检测及基因分型

SNP&CNV

  1. SNP GATK HaplotypeCaller SNP filter Indel filter
  2. CNV CNVcaller
  3. SNP & Indel 注释 ANNOVAR

1. 群体分层分析

群体差异指数((F index, Fst)和多样性指数(π、ω)分析。

  • 构建系统进化树:Phylogeny and population structure of major Vitis categories. whole-genome SNPs:用SNPhylo构建发育树,用 iTOL上色。 orthoMCL?
  • 群体结构分析:Population structure of major Vitis categories estimated by ADMIXTURE.
  • 群体主成分分析:PCA plots of the first three components of major Vitis accessions using whole-genome SNP data PCA:Genome-wide Gomplex Trait Analysis 群体结构分析和主成分分析 populaition structure:ADMIXTURE

2. 连锁不平衡分析(LD分析)

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)。 即不是相互独立的,而是趋向于连锁。 image.png D’=0, r2=0时处于完全连锁平衡状态;

D’=1,r2=1时处于完全连锁不平衡状态;

从0-1度量越高,LD越高,如果两个位点连锁,连锁程度也越强。

plink2 :

(https://www.cog-genomics.org/plink2)

haploview :

(https://www.broadinstitute.org/haploview/haploview)

image.png PopLDdecay计算LD。

  1. 全基因组关联分析GWAS Plink

  2. 选择消除分析(Fst分析,theta pi分析) 基于多样性衰减(ROD)和种群差异指数(Fst),鉴定出122个候选区域,其中涉及204个候选基因,大多与胁迫反应相关:DNA修复、蛋白激酶活性、种子发育、发芽和花的发育等。 image.png

    • 基于群体分化 Fst分析 FST 分析扫描全基因组范围内的 SNP 位点,计算每个 SNP 的 FST 值,其取值范围为0~1,0代表群体间所有位点都没有出现分化,1代表群体间已经完全分化,故 FST 值越大,群体分化程度越高,受选择程度越高。 (横坐标代表不同的染色体名称,纵坐标代表相应染色体窗口内 FST 值,另外的两条虚线代表两种选择阈值(top 5%或1%),常用分析软件 VCFTOOLS) image.png
    • 基于群体多样性分析 pi 核苷酸多样性 π 值反映了群体基因组碱基多样性水平。π 值用来分析碱基多态性,多态性越低,受选择程度越高。 image.png

VCF格式

CHROM : 染色体名字

POS : 染色体的位置,起始位置为1

ID : 变异位点在数据库中的ID,如果是dbsnp数据库,推荐使用rs号,如果没有ID,用点号表示缺失值

REF : 参考基因组上的碱基

ALT : 变异之后的碱基

QUAL : 变异位点的质量,质量值越高,为真实的变异位点的概率越大

FILTER : 过滤信息,PASS 代表通过了过滤;对于过滤失败的位点,会给出对应的过滤失败的原因,具体的含义可以查看mate-information line 中对FILTER 字段的描述

INFO :额外的信息,具体的含义可以查看mate-information line 中对INFO 字段的描述

常见的变异类型包括SNP, 插入和缺失这3种,这3者的差别主要体现在REF和ALT两个字段上。 在ALT字段中用逗号连接了多个字符,表示在不同的样本中检测到了多种变异类型。 每个样本1个基因型信息,用GT字段的值来表示。不同的等位基因allel 用|或者\连接。genotype叫做Phased genotype, 用|连接,1|0和0|1代表两种不同的基因型;不清楚allel对应的染色体的时, genotype叫做unphased genotype, 用/连接,0/1和1/0这两种写法是等价的。目前高通量分析鉴定到的基因型,大多数都是unphased genotype。

参考

  1. GWAS文章
  2. 生信人 全基因组重测序基础及高级分析知识汇总
  3. 微信 群体结构分析三种常用方法 (上篇)