HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种DNA同源重组异常的检测方法及其应用与流程

2021-02-02 18:02:30|487|起点商标网
本发明属于医学分子生物学领域,具体涉及一种dna同源重组异常的检测方法及其应用。
背景技术:
::dna修复的方式主要有两种,其中一种是精确无误的同源重组修复(homologousrecombinationrepair,hrr),另一种则是容易产生错误的非同源染色体粘合修复(non-homologousend-joining,nhej)。第一种修复方式常见于dna单链断裂时,第二种修复常见于双链dna断裂情况。hrr是一条涉及到多个步骤的复杂的信号通路,其中关键蛋白为brca1和brca2。如果brca基因出现突变导致brca1和brca2蛋白失去功能,就会引起hrr功能异常(homologousrecombinationdeficiency,hrd)。另外,其它hrr相关基因,如palb2,cdk12,rad51,chek2,atm等发生突变、或brca1基因启动子发生甲基化、以及其他暂未明确的原因,都会引起hrd,导致基因组不稳定。hrd是多种肿瘤中常见特征,与肿瘤发生相关,也与parp抑制剂等肿瘤治疗药物的敏感性相关;此外hrd的检测在基因组功能研究,疾病相关基因筛选也有广泛的用途。技术实现要素:一方面,本申请提供一种dna同源重组异常的检测方法,包括:(1)snp位点筛选;(2)为筛选到的snp位点设计捕获探针;(3)基因组dna提取和文库构建;(4)文库靶向富集;(5)高通量测序并分析测序数据。进一步地,步骤(5)包括数据质控、数据比对和点突变识别。进一步地,点突变识别包括(a)利用已有的snp数据库,建立相关性模型,产生重校准表,输入已知的多态性位点数据库,屏蔽不需要重校准的部分;(b)使用模型对原始碱基进行调整,仅调整非已知snp区域;功能识别snp和indel;评估hrd状态。进一步地,评估hrd状态包括:kolmogorov-smirnov检验检测样本与对照样本位点突变频率分布差异。进一步地,评估hrd状态使用scarhrd的r包。进一步地,步骤(1)中的snp位点筛选包括从一个或多个人群中基因组数据库中按照以下规则筛选snp:a.剔除y染色体和线粒体snp,过滤次等位基因频率(maf)小于5%的snp;b.过滤显著偏离hardy-weinbergequilibrium的snp;c.过滤insertion和deletion;d.筛选位点上下游75bp范围内不包含重复区域的snp;e.筛选位点上下游75bp范围内序列与人类基因组其它区域无同源性的snp;f.间隔30kb,在间隔点2kb范围内筛选gc含量最接近0.5的snp。进一步地,步骤(2)中的snp位点设计捕获探针包括:从snp位置前后延伸75bp,提取每个位点的参考序列,去掉重复区域的序列,其中重复序列采用repeatmask软件分析得到;从第一个碱基开始截取78bp的序列做探针,再一次往后移动n个碱基,截取78bp的序列做探针,直到最后一个78bp;每个区域根据外显子的gc含量不同变化n,gc含量太高或太低时n较小。进一步地,步骤(4)的文库靶向富集按照专利cn201811600116.3说明书实施例2的试剂和方法进行进一步地,步骤(5)中的高通量测序为二代测序。另一方面,本申请提供了用于检测hrd的snp位点筛选方法,包括从一个或多个人群中基因组数据库中按照以下规则筛选snp:a.剔除y染色体和线粒体snp,过滤次等位基因频率(maf)小于5%的snp;b.过滤显著偏离hardy-weinbergequilibrium的snp;c.过滤insertion和deletion;d.筛选位点上下游75bp范围内不包含重复区域的snp;e.筛选位点上下游75bp范围内序列与人类基因组其它区域无同源性的snp;f.间隔30kb,在间隔点2kb范围内筛选gc含量最接近0.5的snp。另一方面,本申请提供了用于检测hrd的snp位点的捕获探针设计方法,包括:从snp位置前后延伸75bp,提取每个位点的参考序列,去掉重复区域的序列,其中重复序列采用repeatmask软件分析得到;从第一个碱基开始截取78bp的序列做探针,再一次往后移动n个碱基,截取78bp的序列做探针,直到最后一个78bp;每个区域根据外显子的gc含量不同变化n,gc含量太高或太低时n较小。本发明的方法可用于检测parp抑制剂类药物的敏感性,也可以用于科研等用途,如研究肿瘤分子特征图谱、rarp抑制剂耐药机理等。本发明的有益效果1.本发明设计50000个snp捕获探针捕测序检测hrd,捕获效率高、捕获稳定性和均一性较好,减少测序成本。2.通过中国人群hrd检测与分析,拓宽了parp抑制剂敏感性的生物标志物,为parp抑制剂敏感人群筛选及用药指导提供了更多参考标准;具体实施方式实施例1、dna同源重组异常的检测方法建立1、探针设计(1)snp的筛选从千人基因组数据库包括北京汉族人群(chb)、南方汉族人群(chs)、西双版纳的傣族人群(cdx)在内的301个中国人群中按照以下规则筛选50000个snp位点(部分点见下表1):a.剔除y染色体和线粒体snp,过滤次等位基因频率(maf)小于5%的snp;b.过滤显著偏离hardy-weinbergequilibrium的snp;c.过滤insertion和deletion;d.筛选位点上下游75bp范围内不包含重复区域的snp;e.筛选位点上下游75bp范围内序列与人类基因组其它区域无同源性的snp;f.间隔30kb,在间隔点2kb范围内筛选gc含量最接近0.5的snp;表1部分snp位点(2)探针设计从ucsc数据库获取50000个snp的位置,并前后延伸75bp,提取每个位点的参考序列(参考基因组版本hg38),去掉重复区域的序列,重复序列采用repeatmask软件分析得到。从第一个碱基开始截取78bp的序列做探针,再一次往后移动n个碱基,截取78bp的序列做探针,直到最后一个78bp。每个区域根据外显子的gc含量不同,n会有变化,gc含量太高或太低n越小,探针设计越密集以达到捕获的均一性提高。2、基因组dna提取新鲜组织基因组dna提取:取25mg新鲜组织按照通用型柱式基因组提取试剂盒(康为,cwy004)说明书提取基因组dna后qubit检测浓度。石蜡组织或石蜡切片基因组dna提取:取10μm厚的石蜡块或8-10片石蜡切片样本按照genereaddnaffpekit(qiagen,180134)说明书提取基因组dna后qubit检测浓度血液基因组dna提取:取200μl新鲜或冷冻的抗凝血液样品按照通用型柱式基因组提取试剂盒(康为,cwy004)说明书提取基因组dna后qubit检测浓度。3、基因组dna文库构建将步骤2中组织或血液基因组dna利用covaris超声打断仪(covaris,s220)按照参数peakincidentpower175w、dutyfactor10%、cyclesperburst200、treatmenttime180s片段化至200bp左右,然后利用kapahyper文库构建试剂盒制备待测样本基因组dna文库。4、文库靶向富集将待测样本组织和血液的基因为文库按照专利201811600116.3实施例2的试剂和方法进行靶向捕获,得到靶向捕获文库,在illumina平台测序。5、生信分析将步骤4得到的靶序列捕获文库通过nextseq500、xten、novaseq等二代测序平台进行高通量测序,得到测序原始数据进行以下分析。基本分析:(1)碱基识别使用illumina官方软件bcf2fastq(version2.15.0.4),根据样本index序列,将illumina测序仪下机二进制bcf格式文件转化并拆分为单个样本可读文件fastq格式。(2)数据质控使用cutadapt(version1.16)去除测序接头,删除低质量碱基,生成cleanreads。其中cutadapt(version1.16)的参数为(-q10,10--nextseq-trim=10-aatctcgtatgccgtcttctgcttg-aagatcggaagagcgtcgtgtagggaaagagtgtagatctcggtggtcgccgtatcatt),序列长度小于80。(3)数据比对使用序列比对软件bwa(version0.7.12-r1044)mem功能将cleanreads比对至人基因组hg19,其中bwa的软件参数为(mem-m-t)。使用samtoolssort(version1.2-99-ge2bb18f)功能,根据序列比对位置对序列进行排序。其中参数为(samtoolsfixmate-obamsample.sam-|samtoolssort-\@5-m1g-sample.sort)对产生的sample.sort.bam文件建立索引,其中参数为(samtoolsindexsample.sort.bam>sample.sort.bam.bai)使用gatk的addorreplacereadgroups对提取出来的sample.sort.bam添加readgroup,在后续分析中gatk要求bam文件的header必须包含@rg,参数为(javagatkaddorreplacereadgroups-isample.sort.bam-osample.sort.header.bam-lbgenome.fa-plillumina-smgp1-pugrp1-socoordinate--create_indextrue)使用bamtools对sample.sort.header.bam文件进行过滤,将一些不合格的序列删除,参数为(bamtoolsfilter-ismappedtrue-ispairedtrue-isproperpairtrue-insample.sort.header.bam-outsample.sort.header.flt.bam)使用软件bammarkduplicates2过滤测序实验过程中产生的重复序列,参数为(/disk1/software/biobambam2/bin/bammarkduplicates2i=sample.sort.header.flt.bamo=sample.rmdup.sorted.bamm=sample.duplication-report2.txtmarkthreads=threadindex=1rmdup=1)(4)点突变识别利用已有的snp数据库,建立相关性模型,产生重校准表,输入已知的多态性位点数据库,用于屏蔽那些不需要重校准的部分。使用软件gatk(version4.1.4.0)baserecalibrator功能建立校准表,参数为(javagatkbaserecalibrator-rref_fa-isample.rmdup.sorted.bam-known-sitesdbsnp_150.hg19.vcf-orecal.table-obitrue-lbed.bed)根据这个模型对原始碱基进行调整,只会调整非已知snp区域。使用软件gatk(version4.1.4.0)applybqsr模块对bam文件进行调整,参数为(javagatkapplybqsr-rref_fa-isample.rmdup.sorted.bam-bqsrrecal.table-obitrue–osample.recal.bam)使用软件gatk(version4.1.4.0)mutect2功能识别snp和indel,其参数为(javagatkmutect2-rref_fa-isample.recal.bam-lbed.bed--af-of-alleles-not-in-resource0.00003125-osample.mutect2.raw.vcf)hrd状态评估:结合组织样本和血液样本kolmogorov-smirnov检验与scarhrd的计算结果,对hrd状态进行评估。(1)组织样本和血液样本kolmogorov-smirnov检验组织样本和血液样本k-s检验是由于对两样本的经验分布函数的位置和形状参数的差异都敏感而成为比较两样本的最有用且常规的非参数方法之一。检验统计量为:,其中和为累积分布函数,分别为观察序列值和理论序列值或另一观察序列值;supx是距离的上确界(supremum),基于glivenko-cantellitheorem,若xi服从理论分布f(x),则当n趋于无穷时dn趋于0。累积分布函数:其中为指示函数,采用该方法进行检测样本与对照样本位点突变频率分布是否有差异。hrd状态评估过程中,将bed区域按照每15m进行划分,分别对检测样本和对照样本vcf文件的突变位点进行突变频率、深度、突变区域等信息进行提取,由于关注的是低频等位基因频率分布情况,所以大于0.5的突变频率按照1-0.5进行计算。因此是检测样本位点突变频率值,是对照样本位点突变频率值,将相同区域内的样本突变频率与检测样本突变频率进行k-s检验。(a)提出假设h0:fn(x)=f(x);h1:fn(x)≠f(x)。(b)计算样本累积频率与理论分布累积概率的绝对差,令最大的绝对差为,;(c)如果,即临界值,则认为该区域内检测样本与对照样本位点突变频率分布相同。根据k-s检验结果,统计检测样本与异常样本差异区域的数量,计算差异区域占比,进行loh/tai/lst三指标的评分,根据评分,计算hrd的结果。注:1.“基因组稳定/基因组不稳定”判断主要基于与同源重组修复缺陷(hrd)密切相关的杂合性缺失(loh)、端粒等位不平衡(tai)和大片端迁移(lst)等基因组疤痕的综合情况;2.“loh/tai/lst三指标评分”通过综合分析loh/tai/lst三种基因组疤痕事件进行评分;3.“loh评分”通过分析loh事件影响的基因组范围进行评分;4.“loh/tai/lst三指标评分”和“loh评分”是国际主流的基因组稳定性评价标准,只要一个以上指标表现为基因组不稳定,则hrd状态评估结果为“基因组不稳定”。(2)scarhrdscarhrd是一个基于二代测序数据的r包,可以通过杂合性缺失、端粒等位基因不平衡以及大片端迁移的数量进行hrd的评估。该方法是本专利评估hrd状态的第二种方法。计算成对的正常样本与检测样本等位基因的拷贝数使用软件sequenza-utils的bam2seqz功能计算成对的正常样本与肿瘤样本的相对拷贝数,调用参数为(sequenza-utilsbam2seqz-gchg19.gc50base.wig.gz--fastagenome.fa-ncontrol.rmdup.sorted.bam--tumorcase.rmdup.sorted.bam-cchr1chr2chr3chr4chr5chr6chr7chr8chr9chr10chr11chr12chr13chr14chr15chr16chr17chr18chr19chr20chr21chr22chr23chr24chrx|sequenza-utilsseqz_binning-w50-s-|gzip>sample.small.seqz.gz)根据拷贝结果导入scarhrd包,计算hrd状态评分,调用参数为(scar_score("sample.small.seqz.gz",reference="grch37",seqz=true))通过hrdresults.txt文件判断评估样本hrd状态。。实施例2、使用实施例1的方法对11例卵巢癌患者的hrd检测利用实施例1的方法对11例卵巢癌患者(均经患者知情同意)的hrd情况进行检测。检测结果显示:实施例1的试剂及方法对对目标区域具有高捕获率,目标区域的平均有效测序read量达到20mb,目标区域的平均测序深度为3000x以上(见表2)。表2、利用本发明方法对11例卵巢癌患者检测的质控数据结果通过分析分析11例卵巢癌患者的brca基因突变情况以及hrd特征性基因组疤痕事件,如杂合性缺失(lossofheterozygosity)、端粒等位基因不平衡(telomericallelicimbalance)、大片端迁移(large-scalestatetransitions)等,分别根据loh在基因组中的影响范围以及三种事件的发生频次,综合评估基因组不稳定性,并判断受检者hrd情况(见表3)。表3、利用本发明方法对11例宫颈癌患者检测的hrd结果。当前第1页1 2 3 当前第1页1 2 3 

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips