基因组结构变异检测利器Manta
遗传变异通常分为两类:序列变异和结构变异。
序列变异
序列变异:涵盖影响少数核苷酸的小规模变化,例如单核苷酸变异(SNV)或小插入/缺失(Indels)。当它们影响基因的编码序列时,它们尤其重要,因为它们可以改变蛋白质的氨基酸序列。
结构变异 (SV)
结构变异 (SV):是指长片段的遗传物质 (>50 bp)发生了变化。比如缺失(DEL),即整个 DNA 片段被删除。结构变异有可能通过一次复制或删除整个外显子或基因来极大地改变细胞的基因剂量。
结构变异主要是由染色体重排引起,染色体重排包括5种方式:插入(insertion,INS)、缺失(deletion,DEL)、倒位(inversion,INV)、易位(translocation,BND)以及重复(duplication,DUP)。在这个过程中往往会导致不同基因发生融合,融合基因在各种不同的肿瘤中普遍存在,是肿瘤的普遍特征,可促进肿瘤的发生和发展,并可作为肿瘤的分子诊断和治疗靶标。

基因融合过程示意图
Manta由illumina开发,主要用于基因组结构变异(由染色体重排引起)检测。Manta 寻找结构变异以及indel的步骤可以分为两步:
(1)扫描整个基因组,以发现可能的SV和大缺失的证据。这些证据被列举成一个图,图包括用边缘连接基因组中所有可能存在断裂关联的区域。边缘可以连接基因组的两个不同区域,以代表长距离关联的证据,或者一条边缘可以将一个区域连接到它自己,以捕捉一个局部缩略词/小SV的关联。
(2)分析每个图的边缘去发现与边缘有关的SV并且给之得分。
官网:
https://github.com/Illumina/manta/tree/v1.3.2
使用手册:
https://github.com/Illumina/manta/blob/v1.3.2/docs/userGuide/README.md
Manta软件安装:
conda install -c bioconda manta # v1.6.0, only supported python2.7!
基本使用方法如下:
python2 ${MANTA_INSTALL_PATH}/bin/configManta.py \
--normalBam sample-N.nam \
--tumorBam sample-T.bam \
--exome \
--callRegions v6.bed \
--referenceFasta hg19.fa \
--runDir ${MANTA_ANALYSIS_PATH}
运行完成后会在当前目录下生成results文件夹,变异检测结果存放在variants文件夹,主要结果说明如下:
(1)diploidSV.vcf.gz文件中包括经过二倍体验证并且得分的SVs以及Indels。
(2)candidateSV.vcf.gz文件中包括候选的SV以及indel,未经过评分SV以及Indel,从其中筛选出diploidSV.vcf.gz中的SV以及indel。
(3)candidateSmallIndels.vcf.gz文件为candidateSV.vcf.gz文件中小于50bp的插入以及缺失片段。
Manta得到的结果存在许多的假阳性,为提高结果的准确性,我们设定一些过滤条件。
最后,我们将检测结果按照样本进行统计,并绘图展示如下:

样本结构变异分布统计
应用案例:
《The sequences of 150,119 genomes in the UK Biobank》文章发表于2021年11月,其中使用manta软件对每个个体进行结构变异(SVs)鉴定,共鉴定出637,321个可靠的SV;通过进一步研究发现几个表型与结构变异相关,这在WES数据中不容易发现,例如研究者发现其中一个罕见的(频率=0.037%)位于PCSK9基因上的14,154 bp的缺失与较低的胆固醇水平相关。

变异位点识别统计图
新闻中心
News Senter
上海生物芯片有限公司
Shanghai Biochip Co., Ltd.
版权所有©上海生物芯片有限公司
电子邮箱:
marketing@shbiochip.com
地址: 上海市浦东新区张江高科技园区李冰路151号
技术电话:
4001002131
扫描查看
微信公众号