咨询热线:400-065-6886   天昊基因

中文 / English

主页 > 技术支持 > 科研进展 >
Nature Biotechnology:谷歌利用深度神经网络开发出SNP和small indel变异检测新工具-- DeepVariant




        大数据时代,如果你不懂点人工智能,没听说过深度学习或者卷积神经网络什么的,或许你真的就OUT了。上个月,谷歌及旗下Verily Life Sciences公司发表了一篇NB的文章,就利用深度卷积神经网络的方法,提高了SNP和small indel的变异检出率。


 
发表期刊:Nature Biotechnology 发表时间:2018-9-24 影响因子:35.724
 
        具体说来,尽管测序技术发展迅速,但是从数十亿个短的错误reads中准确地检出单个基因组中存在的遗传变异仍然具有挑战性。本研究利用深度卷积神经网络(deep convolutional neural network),通过对假设变异和真实基因型的read堆积图像之间统计关系的学习,来检测下一代测序(NGS) reads数据中的遗传变异。这种被命名为DeepVariant的工具优于现有最先进的方法,可以对多物种、跨平台测序数据进行SNP和small indel变异检测。
 
研究方法
        深度卷积神经网络利用DistBelief搭建框架,并用经过严格筛选的数据进行训练,之后对建立的模型固定,并进行变异检测评价。
 
研究结果


 
图1、DeepVariant工作流程图
 
        左框:首先,扫描比对的reads,寻找可能不同于参考基因组的位点。reads和参考数据被编码为每个候选变异位点的图像。用训练过的卷积神经网络(CNN)计算每个位点基因型的可能性。如果最有可能的基因型是杂合子或非参照序列纯合子,就检测为变异位点。中间方框:DeepVariant CNN的训练过程。利用已知基因型样本生成的堆积图像(pileup images),形成图像+基因型对,连同初始CNN (可以是随机模型,其他图像分类测试CNN,或者原始DeepVariant模型)一同被用来进行CNN参数优化,使用随机梯度下降算法(stochastic gradient descent algorithm)最大化基因型预测精度。经过最大数量循环、时间耗尽或者模型性能收敛后,最终训练的模型被frozen并保存下来,用于变异位点的检测。右框:堆积图像评价过程。参考序列、测序read碱基、质量数和其他read特征被编码成红-绿-蓝(RGB)堆积图像。该编码图像提供给CNN以计算纯合子参考(hom-ref)、杂合子(het)、纯合子替代(hom-alt)这三种二倍体基因型状态可能性。在本图例子中最可能的基因型是“het”,得出杂合变异检出结果。在所有框中,蓝色性状代表数据,红色性状代表进程。
 
表1、对NA24385样本的几种生物信息学方法检测对比结果


 
       表1中使用的数据集与precisionFDA Truth Challenge (pFDA)中使用的数据集相同。比较了包括DeepVariant(GitHub最新版本和pFDA版本)、GATK、SAMtools等多种方法,整个基因组显示了总体准确性(F1,每个变异类型内的排序顺序)、召回率、精确度以及真阳性(TP)、假阴性(FN)和假阳性(FP)的数量。假阳性进一步分为基因型错配(FP.gt)和等位基因错配(FP.al)。
 
        利用CEPH (Centre d’Etude du Polymorphisme Humain) 女性样本NA12878的数据进行训练,之后对Ashkenazi男性样本NA24385进行变异检测,结果如表1所示,在SNP和small indel变异的总体准确性F1指标中排名第一,其余多项指标表现排名居前。
 
表2、对合成的二倍体样品CHM1-CHM13的几种生物信息学方法检测对比结果


 
        利用相同方法,研究又对合成的二倍体样品CHM1-CHM13进行变异检测评估,结果如表2所示,在SNP和small indel变异的总体准确性F1指标中同样排名第一。◆
 
概念回顾:总的样本个数为:TP+TN+FP+FN
        TP:预测为1(Positive),实际也为1(Truth-预测对了)
        TN:预测为0(Negative),实际也为0(Truth-预测对了)
        FP:预测为1(Positive),实际为0(False-预测错了)
        FN:预测为0(Negative),实际为1(False-预测错了)
        Accuracy = (预测正确的样本数)/(总样本数)=(TP+TN)/(TP+TN+FP+FN)
        Precision = (预测为1且正确预测的样本数)/(所有预测为1的样本数) = TP/(TP+FP)
        Recall = (预测为1且正确预测的样本数)/(所有真实情况为1的样本数) = TP/(TP+FN)
        F1 = 2TP/(2TP+FN+FP)
 
结论
       建立了一种称为DeepVariant的变异检测方法,它用一种深度学习神经网络模型来代替传统的统计建模的方法。
       在对DeepVariant、GATK、FreeBayes、SAMtools、16GT和Strelka等几种变异检测方法的性能测试中,DeepVariant获得了最高性能评价结果。与次优算法( 9531个错误)相比,DeepVariant在每个基因组上的错误减少了50 %以上( 4652个错误)。
       对合成二倍体样品CHM1-CHM1326评估中,DeepVariant优于所有其他方法检出的SNP和indel方法,并且无需调整过滤阈值或其他参数。
       除Illumina WGS数据外,对来自PacBio和Ion torrrent测序平台数据同样适用。



上海天昊生物科技有限公司 版权所有 沪ICP备17008908号
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886