测量无细胞混合物特性的尺寸标记的优选末端和识别方向的分析的制作方法
2021-02-01 22:02:28|261|起点商标网
测量无细胞混合物特性的尺寸标记的优选末端和识别方向的分析相关申请的交叉引用[0001]本申请要求2018年9月17日提交的标题为“测量无细胞混合物特性的尺寸标记的优选末端和识别方向的(orientation-aware)分析”的美国临时申请第62/732,509号和2018年5月3日提交的标题为“用于测量无细胞混合物性能的尺寸标记的优选末端”的美国临时申请第62/666,574号的优先权并且是它们的pct申请,通过引用将其整体并入本文用于所有目的。背景[0002]最早由mandel和metais报道了人血浆中循环无细胞dna(cfdna)的存在(86)。后来,在孕妇血浆中发现胎儿来源的dna(82),在移植患者中发现供体来源的dna(83)和在癌症患者中发现肿瘤来源的dna(100)打开了基于血浆dna的非侵入性产前测试(108),移植监测(97)和癌症液体活检(57,91,61)的大门。因此,cfdna已成为在全球范围内积极研究的生物标志物类别。[0003]采用人血浆中的循环无细胞dna分析进行分子诊断和监测引起了全球关注。在孕妇血浆中发现胎儿dna(1),在器官移植患者中发现供体特异性dna(2)和在癌症患者中发现肿瘤来源的dna(3)使得非侵入性产前测试,癌症液体活检,移植监测和器官损伤评估(4-8)成为可能。尽管有许多临床应用,血浆dna的生物学特性尚未得到足够的研究关注。技术实现要素:[0004]多个实施方案涉及与无细胞dna(例如血浆dna和血清dna)相关的片段化模式的分析的应用(例如,诊断应用)。例如,dna片段(分子)的末端位置可用于多种应用。一些实施方案可以确定来自不同组织类型的无细胞dna的混合物中特定组织类型的比例贡献的分类。例如,可以确定特定百分比,百分比范围或比例贡献是否高于指定百分比作为分类。在其它实施方案中,可以确定特定组织类型的性质,例如,对于一组织类型,序列失衡是否存在于特定区域中,或者对于该组织类型,病状是否存在。[0005]在一个实例中,分析了不同尺寸的无细胞dna分子的片段化模式。短和长dna分子可以与不同的称为尺寸标记的优选末端的优选dna末端位置相关。短的优选的dna末端位置与某些组织类型(例如胎儿,肿瘤或移植组织)相关。可以鉴定短(和可能长)dna分子的优选终止位置,并且在此类位置终止的dna分子可以用于多种应用中。[0006]在一些实施方案中,在短dna分子的优选终止位置终止的无细胞dna分子的相对丰度可以用于确定测试混合物中第一组织类型的比例贡献,例如,通过与在已知比例贡献的校准样品中的类似测量值相比较。[0007]在其它实施方案中,可以分析在短dna分子的优选终止位置和特定染色体区域中的位置终止的一组无细胞dna分子,以确定该组的值(例如,计数,尺寸分布的统计值或甲基化水平)。所述值可用于检测序列失衡(例如,拷贝数畸变,例如非整倍性,缺失或扩增以及基因型差异)。当在染色体区域中存在序列失衡时,所述值将显示出与参考值的统计学上显著的偏差。[0008]在另一个实例中,分析了与组织特异性开放染色质区域有关的片段化模式。可以使用相对于第一组织类型的组织特异性开放染色质区域的中心的一组基因组位置。具体地,可以在定量分析中使用关于dna片段在这组基因组位置具有上游末端还是下游末端(例如相对于特定组织类型的开放染色质区域的中心)的知识。例如,可以使用在具有上游末端和下游末端的dna分子的相应数目中的分离值(例如,差值或比值)。[0009]在一些实施方案中,分离值可以用于确定测试混合物中第一组织类型的比例贡献,例如,通过与已知比例贡献的校准样品中的类似测量值相比较。在其它实施方案中,例如当与参考值存在统计学上显著的偏差时,分离值可以用作第一组织类型中的病状的指标。这样的病状的实例包括来自第一组织类型的无细胞dna的异常高的浓度分数,是第一组织类型的移植器官的排斥或癌症。[0010]下面详细描述本发明的这些和其它实施方案。例如,其它实施方案涉及与本文描述的方法相关的系统,装置和计算机可读介质。[0011]参考以下详细描述和附图,可以更好地理解本公开的实施方案的性质和优点。附图的简要说明[0012]图1显示了根据本公开的实施方案的血浆dna片段的片段末端位点的分析。[0013]图2显示了在24个母体血浆样品中覆盖sets优选末端位点的血浆dna读取的尺寸分布(红色)对比覆盖setl优选末端位点的血浆dna读取的尺寸分布(蓝色)。[0014]图3显示了根据本公开的实施方案,在一种母体血浆样品中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。[0015]图4a显示了26个母体血浆样品中具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)与胎儿dna分数之间的相关性。图4b显示了26个母体血浆样品的尺寸比(短读取比长读取的数目)和胎儿dna分数之间的相关性。[0016]图5a显示了根据本公开的实施方案,在对照病例与21三体病例之间的chr21读取的相对丰度的比较。图5b显示了根据本公开的实施方案,对于21三体测试,覆盖sets优选末端位点的读取与随机读取之间的roc比较。[0017]图6显示在24名健康受试者中,覆盖sets优选末端位点的血浆dna读取的尺寸分布对比覆盖setl优选末端位点的血浆dna读取的尺寸分布。[0018]图7a显示了根据本公开的实施方案,在健康受试者中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。图7b显示了根据本公开的实施方案,在孕妇和健康受试者中具有sets优选末端位点的血浆dna读取对比具有setl优选末端位点的血浆dna读取的相对丰度(s/l比值)的比较。[0019]图8显示了根据本公开的实施方案,在肝细胞癌(hcc)患者中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。[0020]图9显示了在代表性的一组24例肝细胞癌患者中,覆盖sets优选末端位点的血浆dna读取的尺寸分布对比覆盖setl优选末端位点的血浆dna读取的尺寸分布。[0021]图10显示了根据本公开的实施方案,在血浆中具有大于1%的肿瘤dna分数的72例肝细胞癌患者中,具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)与肿瘤dna分数之间的相关性。[0022]图11显示了健康受试者和肝细胞癌患者之间具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)。[0023]图12显示了根据本公开的实施方案,在健康受试者,没有或患有肝硬化的hbv携带者和hcc患者中覆盖chr1p上的sets末端的归一化读取计数。[0024]图13显示了根据本公开的实施方案,在健康受试者,没有或患有肝硬化的hbv携带者和hcc患者中覆盖chr1q上的sets末端的归一化读取计数。[0025]图14显示了根据本公开的实施方案,在健康受试者,没有或患有肝硬化的hbv携带者和hcc患者中覆盖chr8p上的sets末端的归一化读取计数。[0026]图15显示了根据本公开的实施方案,在健康受试者,没有或患有肝硬化的hbv携带者和hcc患者中覆盖chr8q上的sets末端的归一化读取计数。[0027]图16显示了根据本公开的实施方案,sets和setl优选末端位点中的任意两个最接近的优选末端位点之间的距离分布。[0028]图17a显示了根据本公开的实施方案,血浆dna覆盖,sets和setl优选末端位点的快照。图17b显示了根据本公开的实施方案,围绕由胎盘组织和t细胞共有的共同的开放染色质区域的优选末端位点的分布。[0029]图18a显示了根据本公开的实施方案,妊娠血浆dna中的尺寸标记的优选末端位点相对于核小体结构的分布。图18b显示了根据本公开的实施方案,尺寸标记的优选末端位点相对于由straver等人(23)预测的核小体中心的分布。[0030]图19显示了根据本公开的实施方案,在健康的非妊娠受试者中短和长dna分子的常染色体片段末端相对于核小体结构的分布。[0031]图20a显示了核小体结构的图示。图20b显示了核小体结构中胎儿和母体特异性的优选末端位点的分布。图20c显示了妊娠病例和健康男性受试者的chry片段末端在核小体结构中的分布。图20d显示了在妊娠情况下短和长dna分子的chry片段末端在核小体结构中的分布。图20e显示了健康受试者中短和长dna分子的chry片段末端在核小体结构中的分布。[0032]图21a和21b显示了来自(a)血沉棕黄层样品和(b)胎盘组织的atac-seq数据的片段尺寸分布。[0033]图22显示了在短标记的终止位置上终止的无细胞dna分子的相对丰度(例如短/长)与混合物中组织a对dna的比例贡献(其通过分析来自组织a的两个或更多个具有已知的dna比例浓度的校准样品确定)之间的关系。[0034]图23是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法的流程。[0035]图24是根据本公开的实施方案,分析生物学样品以确定第一组织类型是否在无细胞dna分子的混合物中的染色体区域中显示序列失衡的方法的流程。[0036]图25a-25f显示了根据本公开的实施方案的无细胞dna(cfdna)片段化分析的概念框架。图25a是具有包裹的dna(黄线),接头(棕线)和活性调节元件(绿线)的核小体的图示。图25b显示了由凋亡dna片段化产生的cfdna的图示。图25c是两端的测序读取和提取的图示。红色和蓝色分别代表u(上游)和d(下游)血浆dna末端。图25d显示了基因组覆盖。图25e显示了相对于基因组坐标的cfdna的u和d片段末端概况。图25f显示了平滑的血浆dna末端信号和推导的核小体定位。[0037]图26a和26b显示了根据本公开的实施方案,在合并的健康非妊娠受试者的chr12p11.1区域中的血浆dna片段化模式。图26a显示了原始信号。图26b显示了平滑的信号和推导的核小体定位。图26c显示了管家基因的活性启动子周围的血浆dna覆盖和末端信号。图26d显示了非活性启动子周围的血浆dna覆盖和末端信号。[0038]图27a,27b和27c显示了根据本公开的实施方案,在合并的健康非妊娠受试者中的血浆dna片段化模式。图27a显示了t细胞和肝细胞共有的共同的开放染色质区域中的模式(还绘制了推导的核小体定位)。图27b显示了胚胎干细胞(esc)特异性开放染色质区域中的模式。图27c是ocf(识别方向的cfdna片段化)值的概念的图示。[0039]图28a-28g显示了根据本公开的实施方案,在健康受试者中的组织特异性开放染色质区域中的血浆dna片段化模式。每幅图显示了来自与一种组织类型相对应的组织特异性开放染色质区域的结果:28at细胞;28b胎盘;28c肝脏;28d肺;28e卵巢;28f乳房;28g肠。[0040]图29a显示了根据本公开的实施方案,在一例crc患者的肠特异性开放染色质区域中的血浆dna片段化模式。[0041]图29b显示了根据本公开的实施方案,在一例肺癌患者中的肺特异性开放染色质区域中的血浆dna片段化模式。[0042]图30显示了根据本公开的实施方案,对在健康非妊娠受试者群体中的各种组织之间的血浆dna片段化模式(ocf值)的定量。[0043]图31显示了根据本公开的实施方案,在健康个体中的组织类型的ocf值的表。[0044]图32a-32d显示了根据本公开的实施方案,血浆dna片段化模式分析在非侵入性产前测试中的应用。图32a显示了在一例妊娠病例中胎盘特异性开放染色质区域中的血浆dna片段化模式。图32b显示了健康的非妊娠受试者和孕妇之间t细胞的ocf值的比较。图32c显示了健康的非妊娠受试者和孕妇之间胎盘的ocf值的比较。图32d显示了在26名孕妇的群体中,胎盘的ocf值和胎儿dna分数之间的相关性。[0045]图33显示了根据本公开的实施方案,妊娠受试者中的ocf值组织类型的表。[0046]图34显示了根据本公开的实施方案,肝脏移植患者中的ocf值组织类型的表。[0047]图35a,35b和35c显示了根据本公开的实施方案,血浆dna片段化模式分析在肝脏移植和hcc患者中的应用。图35a显示了肝脏移植患者中肝脏的ocf值与供体dna分数之间的相关性。图35b显示了hcc病例中的肿瘤dna分数。图35c显示了健康受试者和hcc病例(根据血浆中的肿瘤dna负荷分为两组)的t细胞的ocf值的比较。图35d显示了健康受试者和hcc病例(根据血浆中的肿瘤dna负荷分为两组)的肝脏的ocf值的比较。[0048]图36a-36d显示了根据本公开的实施方案,肝细胞癌患者中的ocf值组织类型的表。[0049]图37a-37e显示了根据本公开的实施方案,血浆dna片段化模式分析在crc和肺癌患者中的应用。图37a显示了健康受试者与crc患者之间t细胞的ocf值的比较。图37b显示了健康受试者和crc患者之间肠的ocf值的比较。图37c显示了crc患者中肠的ocf值与结肠dna分数(通过血浆dna组织映射法推导)之间的相关性。图37d显示了健康受试者和肺癌患者之间t细胞的ocf值的比较。图37e显示了健康受试者和肺癌患者之间的肺ocf值的比较。[0050]图38显示了根据本公开的实施方案,肺癌患者中的ocf值组织类型的表。[0051]图39显示了根据本公开的实施方案,结肠直肠癌患者中的ocf值组织类型的表。[0052]图40是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法的流程。[0053]图41是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型是否存在病状的分类的方法的流程。[0054]图42示出了根据本公开的实施方案的测量系统。[0055]图43显示了可与根据本公开的实施方案的系统和方法一起使用的示例计算机系统的框图。术语[0056]“组织”对应于集合在一起作为功能单元的一组细胞。可以在单一组织中发现超过一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如肝细胞、肺泡细胞或血细胞)组成,但也可以对应于来自不同生物体(母亲对比胎儿)的组织或对应于健康细胞对比肿瘤细胞。“参考组织”可以对应于用于确定组织特异性甲基化水平的组织。来自不同个体的相同组织类型的多个样品可以用于确定该组织类型的组织特异性甲基化水平。[0057]“生物样品”是指从受试者(例如,人,例如孕妇,患有癌症的人或疑似患有癌症的人,器官移植受体或疑似患有涉及器官(例如,心肌梗塞的心脏、卒中的大脑或贫血的造血系统)的疾病过程的受试者)中采集的并且含有一种或多种目标核酸分子的任何样品。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、水囊肿(例如睾丸)液、阴道冲洗液、胸膜液、腹水液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、乳头排出液、来自身体不同部位(例如甲状腺、乳房)的吸入液等。也可以使用粪便样品。在多个实施方案中,已富集游离dna的生物样品(例如经由离心方案获得的血浆样品)中的大部分dna可以是游离的(例如超过50%、60%、70%、80%、90%、95%或99%的dna可以是游离的)。离心方案可以包括例如3,000g×10分钟,获得流体部分,并且以例如30,000g再离心10分钟以去除残留的细胞。[0058]如本文中所使用,术语“单倍型”是指在同一染色体或染色体区域上一起被传递的多个基因座处的等位基因的组合。单倍型可指少至一对基因座或染色体区域或整个染色体。术语“等位基因”是指在相同物理基因组基因座处的可选dna序列,其可能会或可能不会导致不同的表型性状。在任何特定的二倍体生物体中,每个染色体有两个拷贝(男性人类受试者中的性染色体除外),每个基因的基因型包括该基因座上存在的一对等位基因,其在纯合子中相同,而在杂合子中不同。生物体的群体或物种通常在各个个体的每个基因座上包含多个等位基因。在群体中发现一种以上等位基因的基因组基因座称为多态性位点。基因座处的等位基因变异可以被测量为存在的等位基因的数目(即多态性程度)或群体中杂合子的比例(即杂合率)。[0059]如本文中所使用,术语“片段”(例如dna片段)可以指多核苷酸或多肽序列中包含至少3个连续核苷酸的部分。核酸片段可以保留亲本多肽的生物活性和/或一些特征。核酸片段可以是双链的或单链的、甲基化的或未甲基化的、完整的或切割的、与其它大分子(例如脂质粒子、蛋白质)复合或未复合的。片段可以源自特定的组织类型,例如胎儿、肿瘤、移植器官等。[0060]术语“分析法(assay)”通常是指用于确定核酸性质的技术。分析法(例如第一分析法或第二分析法)通常是指用于确定以下的技术:样品中的核酸数目、样品中核酸的基因组身份、样品中核酸的拷贝数变异、样品中核酸的甲基化状态、样品中核酸的片段尺寸分布、样品中核酸的突变状态或样品中核酸的片段化模式。本领域技术人员已知的任何分析法都可以用于检测本文中提及的核酸的任一种性质。核酸的性质包括序列、数目、基因组身份、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸尺寸、一个或多个核苷酸位置处核酸中的突变以及核酸的片段化模式(例如核酸片段所在的核苷酸位置)。术语“分析法”可以与术语“方法”互换使用。分析法或方法可以具有特定的灵敏度和/或特异性,并且可以使用roc-auc统计来测量其作为诊断工具的相对有效性。[0061]“序列读取”通常是指从核酸分子的任一部分或全部测序的核苷酸串。例如,序列读取可以是存在于生物样品中的整个核酸片段。还例如,序列读取可以是从核酸片段测序的短核苷酸串(例如,20-150个碱基)、在核酸片段的一个或两个末端处的短核苷酸串,或生物样品中存在的整个核酸片段的测序。成对序列读取可以与参考基因组比对,这可以提供片段的长度。序列读取可以通过多种方式获得,例如使用测序技术或使用探针,例如通过杂交阵列或捕获探针或扩增技术,如聚合酶链式反应(pcr)或使用单引物的线性扩增或等温扩增,或基于生物物理的测量(例如质谱)。序列读取可从单分子测序获得。“单分子测序”是指对单个模板dna分子进行测序以获得序列读取,而无需解读来自模板dna分子克隆副本的碱基序列信息。单分子测序可以对整个分子或仅部分dna分子进行测序。可以对dna分子的大部分进行测序,例如大于50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。[0062]“临床相关的”dna的实例包括母体血浆中的胎儿dna和患者血浆中的肿瘤dna。另一个实例包括对移植患者血浆中移植物相关dna的量的测量。另一个实例包括对受试者血浆中造血dna和非造血dna的相对量的测量。后一个实施方案可用于检测或监测或预测涉及造血和/或非造血组织的病理学过程或损伤。[0063]“终止位置”或“末端位置”(或仅仅“末端”)可以指游离dna分子,例如血浆dna分子的最外碱基(即在末端处)的基因组坐标或基因组身份或核苷酸身份。末端位置可以与dna分子的任一末端对应。以此方式,如果一端是指dna分子的起点和末端,那么两个都可以对应于终止位置。在实践中,一个末端位置是通过分析方法检测或确定的游离dna分子的一个末端上的最外碱基的基因组坐标或核苷酸身份,所述分析方法例如(但不限于)大规模平行测序或下一代测序、单分子测序、双链或单链dna测序文库制备方案、聚合酶链式反应(pcr)或微阵列。此类体外技术可以改变游离dna分子的真实体内物理末端。因此,每个可检测末端可以表示生物学上的真实末端或所述末端是一个或多个朝内的核苷酸或一个或多个从分子的原始末端延伸的核苷酸,例如非平末端双链dna分子的悬突通过克列诺片段(klenowfragment)的5'钝化和3'填充。末端位置的基因组身份或基因组坐标可以从序列读取与参考基因组如hg19或其他参考基因组的比对结果获得。其可以来源于表示人类基因组的初始坐标的索引或代码的目录号。其可以指通过(但不限于)靶标特异性探针、微测序、dna扩增读取的游离dna分子上的位置或核苷酸身份。[0064]“优选末端”(或“经常性的终止位置”)是指在具有生理学(例如妊娠)或病理学状态(例如,疾病)的生物样品中比不具有这类状态的生物样品或比在相同的病理学或生理学状态下的不同时间点或阶段(例如在治疗之前或之后)的生物样品中具有更高的代表性或更普遍(例如,如由比率测量的)的末端。因此,相对于其它状态,优选末端在相关生理学或病理学状态中有增加的可能性或概率被检测到。增加的概率可以在病理学状态与非病理学状态之间,例如在患有癌症与无癌症的患者之间比较且定量为似然比或相对概率。似然比可以基于检测测试样品中的至少阈值数目的优选末端的概率或基于检测患有这类病况的患者相比于无这类病况的患者中的优选末端的概率来确定。似然比的阈值的实例包括(但不限于)1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80以及100。这类似然比可以通过比较具有和不具有相关状态的样品的相对丰度值来测量。因为相关生理学或疾病况态下检测到优选末端的概率较高,所以可以在具有相同生理学或疾病况态下的一个以上个体中发现这类优选终止位置。随着概率的增加,即使所分析的游离dna分子的数目远小于基因组的尺寸,也可以检测到多于一个游离dna分子在同一个优选终止位置上终止。因此,优选或经常性的终止位置也称为“频繁终止位置”。在一些实施方案中,定量阈值可用于要求同一个样品或同一个样品等分试样中末端至少多次(例如,3、4、5、6、7、8、9、10、15、20或50次)被检测认为是优选末端。相关生理学状态可以包括当个体健康、无疾病或未患相关疾病时的状态。类似地,“优选的终止窗”对应于优选终止位置的连续集合。[0065]在位置上终止的dna分子的“比率”与dna分子在该位置上终止的频率有关。该比率可以基于相对于分析的多个dna分子归一化的在该位置上终止的多个dna分子。因此,该比率对应于在一个位置上终止多少个dna分子的频率,而与在该位置上终止的dna分子的数目中具有局部最大值的位置的周期性无关。[0066]“校准样品”可以对应于这样的生物学样品,其组织特异性dna部分是已知的或通过校准方法确定的,例如使用对组织特异的等位基因确定的。作为另一个实例,校准样品可以对应于可以从其确定优选终止位置的样品。校准样品可以用于这两个目的。[0067]“校准数据点”包括“校准值”和感兴趣的dna(即,特定组织类型的dna)的测量或已知比例分布。校准值可以是针对校准样品确定的相对丰度,为此已知组织类型的比例分布。校准数据点可以包括校准值(例如,使用尺寸标记的终点位置或识别方向的片段化来测量的)和已知的(测量的)组织类型的比例分布。校准数据点可以以多种方式定义,例如,作为离散点或校准函数(也称为校准曲线或校准表面)。校准函数可以从校准数据点的附加数学转换中得出。校准函数可以是线性的或非线性的。[0068]“位点”(也称为“基因组位点”)对应于单个位点,其可以是单个碱基位置或一组相关碱基位置,例如,优选尺寸的位点,cpg位点或更大的一组相关碱基位置。“基因座”可以对应于包括多个位点的区域。基因座可以仅包括一个位点,这将使基因座在该上下文中等同于位点。[0069]哺乳动物基因组中的“dna甲基化”通常是指在cpg二核苷酸中的胞嘧啶残基(即5-甲基胞嘧啶)的5'碳上添加甲基基团。在其他情况下,胞嘧啶中可以发生dna甲基化,例如chg和chh,其中h为腺嘌呤,胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以是5-羟甲基胞嘧啶的形式。还报道了非胞嘧啶甲基化,例如n6-甲基腺嘌呤。[0070]每个基因组位点(例如,cpg位点)的“甲基化指数”可以指显示该位点处的甲基化的dna片段(例如,根据序列读取或探针确定的)占覆盖该位点的读取总数的比例。“读取”可以对应于从dna片段获得的信息(例如,位点处的甲基化状态)。可以使用优先与特定甲基化状态的dna片段杂交的试剂(例如引物或探针)获得读取。通常,这种试剂在用取决于其甲基化状态而差别修饰或差别识别dna分子的方法(例如亚硫酸氢盐转化,或甲基化敏感性限制性酶,或甲基化结合蛋白,或抗甲基胞嘧啶抗体)处理后施加。在另一个实施方案中,识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术可以用于阐明甲基化状态和确定甲基化指数。[0071]区域的“甲基化密度”可以指在显示甲基化的区域内的位点处的读取的数目除以覆盖该区域中的位点的读取的总数。这些位点可以具有特定的特征,例如是cpg位点。因此,区域的“cpg甲基化密度”可以指显示cpg甲基化的读取的数目除以覆盖该区域cpg位点(例如,特定cpg位点,cpg岛内的cpg位点或更大的区域)的读取的总数。例如,可以从亚硫酸氢盐处理后在cpg位点未转化的胞嘧啶总数(对应于甲基化的胞嘧啶)确定人类基因组中每100-kb堆栈的甲基化密度,所述cpg位点作为映射到该100-kb区域的序列读取所覆盖的所有cpg位点的一部分。还可以针对其他堆栈尺寸执行此分析,例如500bp、5kb、10kb、50kb或1-mb等。区域可以是整个基因组或染色体或染色体的一部分(例如,染色体臂)。当区域仅包含cpg位点时,该cpg位点的甲基化指数与该区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指显示被甲基化(例如,在亚硫酸氢盐转化后未转化)的胞嘧啶位点“c”的数目,相比在该区域中所分析的胞嘧啶残基(即包括cpg范围之外的胞嘧啶)的总数。甲基化指数,甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例,其可能包括涉及位点的甲基化读取的计数的其他比率。除亚硫酸氢盐转化外,本领域技术人员已知的其他方法可用于询问dna分子的甲基化状态,包括但不限于对甲基化状态敏感的酶(例如甲基化敏感的限制性酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台进行的单分子测序(例如,纳米孔测序(schreiber等人,procnatlacadsci2013;110:18910-18915))以及通过pacificbiosciences单分子实时分析(flusberg等人,natmethods2010;7:461-465))。[0072]“可识别甲基化的测序”是指允许在测序过程中确定dna分子的甲基化状态的任何测序方法,包括但不限于亚硫酸氢盐测序或甲基化敏感的限制性内切酶消化后的测序,使用抗甲基胞嘧啶抗体或甲基化结合蛋白进行的免疫沉淀或允许阐明甲基化状态的单分子测序。“可识别甲基化的分析法”或“甲基化敏感分析法”可包括基于测序和非测序的方法,例如msp,基于探针的询问,杂交,限制性内切酶消化然后进行密度测量,抗甲基胞嘧啶免疫测定,质谱询问甲基化胞嘧啶或羟甲基胞嘧啶的比例,免疫沉淀后不进行测序等。[0073]术语“测序深度”是指基因座被与基因座对齐的序列读取覆盖的倍数。基因座可以小至核苷酸,或与染色体臂一样大,或与完整基因组一样大。测序深度可以表示为50x、100x等,其中“x”是指基因座被序列读取覆盖的倍数。测序深度也可以应用于多个基因座或整个基因组,在此情况下,x可以分别指对基因座或单倍基因组或整个基因组进行测序的平均倍数。超深测序可以指测序深度是至少100x。[0074]“分离值”(或相对丰度)对应于涉及两个值,例如dna分子的两个量,两个分数贡献或两个甲基化水平,例如样品(混合物)甲基化水平和参考甲基化水平的差值或比值。分离值可以是简单的差值或比值。作为示例,x/y的直接比值以及x/(x+y)是分离值。分离值可以包括其他因素,例如乘法因素。作为其他示例,可以使用值的函数的差值或比值,例如,两个值的自然对数(ln)的差值或比值。分离值可以包括差值和/或比值。[0075]“相对丰度”是一种使在基因组位置的一个窗内终止的游离dna分子的量(一个值)与在基因组位置的另一窗内终止的游离dna分子的量(另一个值)相关联的分离值。两个窗可以重叠,但是可以具有不同的尺寸。在其它实施方式中,两个窗不重叠。此外,窗可以具有一个核苷酸的宽度,并且因此等效于一个基因组位置。“分离值”和“相对丰度”是参数(也称为度量)的两个实例,其提供不同分类(状态)之间有差异的样品的测量,并且因此可用于确定不同的分类。[0076]如本文中所使用,术语“分类”是指与样品的特定性质相关的任何数字或其它字符。举例来说,“+”符号(或词语“阳性”)可以表示样品归类为具有缺失或扩增。分类可以是二元的(例如阳性或阴性)或具有更多分类等级(例如1到10或0到1的标度)。[0077]术语“截止值”和“阈值”是指操作中所使用的预定数目。举例来说,截断尺寸可以指一种尺寸,高于所述尺寸则排除片段。阈值可以是一种值,高于或低于所述值则适用特定分类,例如病况的分类,例如受试者是否患有病况或病况的严重程度。截止值或阈值可以是“参考值”,也可以从代表特定分类或在两个或更多个分类之间进行区分的参考值得出。如本领域技术人员将理解的,可以以多种方式来确定这种参考值,例如,在测试数据的输出之后并基于测试数据的输出来选择。例如,可以针对具有不同的已知分类的两个不同群体的受试者确定度量,并且可以选择参考值来代表一个分类(例如,平均值)或在度量的两个聚类之间的值。因此,具有一种或多种病况的已知分类和测得的特征值(例如,甲基化水平,统计尺寸值或计数)的参考受试者可用于确定参考水平,以区分不同的病况和/或病况分类(例如,受试者是否患有该病况)。作为另一示例,可以基于样品的统计模拟来确定参考值。这些术语中的任何一个都可以在任何这些上下文中使用。如本领域技术人员将理解的,可以选择截止值以获得期望的灵敏度和特异性。[0078]如本文中所使用,术语“染色体非整倍性”是指染色体的定量数目与二倍体基因组的定量数目存在变化。变化可以是增加或损失。它可以涉及整个一条染色体或染色体的区域。染色体区域可以对应于整个一条染色体,染色体的臂或更小的区域,例如50kb、500kb、1mb、2mb、5mb或10mb。[0079]如本文中所使用,术语“序列失衡”或“畸变”是指在临床相关染色体区域(即,被测试的区域)的量中的至少一个截止值所定义与参考量的任何显著偏差。序列失衡可包括染色体剂量失衡,等位基因失衡,突变剂量失衡,拷贝数失衡,单倍型剂量失衡和其他类似失衡。例如,当肿瘤的基因的一个等位基因缺失或基因的一个等位基因扩增或其基因组中的两个等位基因差异扩增时,就可以发生等位基因失衡,从而在样品的特定基因座处产生失衡。作为另一个实例,患者可以在肿瘤抑制基因中具有遗传突变。然后,患者可以继续发展为肿瘤,其中肿瘤抑制基因的未突变等位基因缺失。因此,在肿瘤内,存在突变剂量失衡。当肿瘤将其dna释放到患者血浆中时,肿瘤dna将与患者血浆中的组成dna(来自正常细胞)混合。通过使用本文所述的方法,可以检测该dna混合物在血浆中的突变剂量失衡。畸变可包括染色体区域的缺失或扩增。[0080]术语“癌症水平”(或更一般地,“疾病水平”,“病状水平”或“病况水平”)可以指是否存在癌症(即存在或不存在)、癌症的阶段、肿瘤尺寸、是否存在转移、身体的总体肿瘤负担、癌症对治疗的反应和/或癌症严重程度的其他度量(例如癌症复发)。癌症水平可以是数字(例如,概率)或其他标记,例如符号,字母和颜色。水平可以为零。癌症水平还可以包括恶化前或癌前病况(状态)。癌症水平可以多种方式使用。例如,筛查可以检查以前不知道患有癌症的某人是否存在癌症。评估可以调查被诊断出患有癌症的某人,以监测癌症随时间的进展,研究治疗的有效性或确定预后。在一个实施方案中,预后可以表示为患者死于癌症的机会,或在特定持续时间或时间之后癌症进展的机会,或癌症转移的机会。检测可以意指“筛查”,也可以意指检查具有癌症暗示特征(例如症状或其他阳性检查)的某人是否患有癌症。多个实施方案可以确定针对肝癌,肺癌,胰腺癌,脑癌,结直肠癌,鼻咽癌,卵巢癌,胃癌和血液癌的癌症水平。[0081]术语“对照”,“对照样品”,“参考”,“参考样品”,“正常”和“正常样品”可以互换使用,以大体上描述不具有特定病况,或在其他方面是健康的样品。在一个实例中,本文公开的方法可以在患有肿瘤的受试者上进行,其中参考样品是取自受试者健康组织的样品。在另一个实例中,参考样品是取自患有疾病(例如,癌症或癌症的特定阶段)的受试者的样品。可以从受试者或数据库获得参考样品。参考通常是指参考基因组,其用于对从受试者的样品进行测序获得的序列读取进行映射。参考基因组通常是指单倍体或二倍体基因组,来自生物样品的序列读取和组成样品可以与之进行比对和比较。对于单倍体基因组,每个基因座只有一个核苷酸。对于二倍体基因组,可以鉴定杂合基因座,这样的基因座具有两个等位基因,其中任一等位基因都可以允许与基因座比对的匹配。[0082]如本文中所使用,短语“健康”通常是指具有良好健康的受试者。这样的受试者表现出不存在任何恶性或非恶性疾病。“健康个体”可以患有与被检疾病无关的其他疾病或病况,通常不被视为“健康”。[0083]术语“癌症”或“肿瘤”可以互换使用,并且通常是指异常的组织块,其中该块的生长超过正常组织的生长并且与其不协调。根据以下特征,可以将癌症或肿瘤定义为“良性”或“恶性”:细胞分化程度,包括形态和功能,生长比率,局部浸润和转移。“良性”肿瘤通常分化良好,典型的比恶性肿瘤生长缓慢,并且仍然局限于起源部位。另外,良性肿瘤不具有浸润,侵袭或转移到远处的能力。“恶性”肿瘤通常分化较差(发育不良),典型的快速生长,伴随着周围组织的进行性浸润,侵袭和破坏。此外,恶性肿瘤具有转移至远处的能力。“阶段”可用于描述恶性肿瘤的进展程度。与后期恶性肿瘤相比,早期癌症或恶性肿瘤与体内较少的肿瘤负荷相关,通常伴有较少的症状,更好的预后和更好的治疗效果。后期或晚期癌症或恶性肿瘤通常与远处转移和/或淋巴扩散有关。[0084]术语“假阳性”(fp)可以指个体未患病况。假阳性通常指个体未患肿瘤、癌症、癌前病况(例如癌前病灶)、局部或转移性癌症、非恶性疾病,或在其它方面是健康的。术语假阳性通常指个体未患病况,但通过本公开的分析法或方法鉴别为患有该病况。[0085]术语“灵敏度”或“真阳性比率”(tpr)可以指真阳性的数目除以真阳性和假阴性的数目的总和。灵敏度可以表征分析法或方法正确鉴定真正患有病况的群体的比例的能力。例如,灵敏度可以表征一种方法正确鉴定受试者在患有癌症的群体内的数目的能力。在另一实例中,灵敏度可以表征一种方法正确鉴定指示癌症的一种或多种标志物的能力。[0086]术语“特异性”或“真阴性比率”(tnr)可以指真阴性的数目除以真阴性和假阳性的数目的总和。特异性可以表征分析法或方法正确鉴定真正未患有病况的群体的比例的能力。例如,特异性可以表征一种方法正确鉴定受试者在未患有癌症的群体内的数目的能力。在另一实例中,特异性可以表征一种方法正确鉴定指示癌症的一种或多种标志物的能力。[0087]术语“roc”或“roc曲线”可以指受体操作特征曲线。roc曲线可以是二元分类器系统的性能的图形表示。对于任何给定方法,roc曲线可以通过在多种阈值设置下针对特异性绘制灵敏度来产生。用于检测受试者中是否存在肿瘤的方法的灵敏度和特异性可以在受试者的血浆样品中各种浓度的肿瘤衍生的核酸下确定。此外,只要提供三种参数(例如灵敏度、特异性和阈值设定)中的至少一种,并且roc曲线可以确定任何未知参数的值或预期值。未知参数可以使用针对roc曲线拟合的曲线测定。术语“auc”或“roc-auc”通常是指受体操作特征曲线下面积。这一度量考虑方法的灵敏度和特异性,可以提供方法的诊断效用的测量值。通常,roc-auc在0.5到1.0范围内,其中更接近0.5的值表明方法具有有限的诊断效用(例如较低的灵敏度和/或特异性),并且更接近1.0的值表明方法具有较大的诊断效用(例如较高的灵敏度和/或特异性)。参见例如pepe等人,“limitationsoftheoddsratioingaugingtheperformanceofadiagnostic,prognostic,orscreeningmarker”,am.j.epidemiol2004,159(9):882-890,其通过引用全文并入本文中。使用似然函数、优势比、信息理论、预测值、校准(包括拟合优度)和再分类测量表征诊断效用的其它方法是根据cook,“useandmisuseofthereceiveroperatingcharacteristiccurveinriskprediction)”,circulation2007,115:928-935概述,其通过引用全文并入本文中。[0088]术语“约”或“大约”可以意指在如由本领域技术人员测定的具体值的可接受的偏差范围内,其将部分取决于所述值如何测量或测定,即,测量系统的限制。例如,根据所属领域中的实践,“约”可以意指在1或大于1个标准差内。或者,“约”可以意指给定值的多达20%、多达10%、多达5%或多达1%的范围。或者,尤其相对于生物学系统或方法,术语“约”或“大约”可以意指在数目级内,在值的5倍内且更优选在2倍内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则应当假设术语“约”意指处于该特定值的可接受误差范围内。术语“约”可以具有如本领域技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。具体实施方式[0089]人血浆中的无细胞dna是非随机片段化的并反映了全基因组内的核小体组织。具体地,cfdna分子具有与其来源组织有关的信息。引起来自特定组织的细胞死亡的病状导致来自受累器官的dna的相对分布的扰动。这种来源的组织分析在开发用于癌症,产前测试和移植监测的液体活检中是特别有用的。因此,以同时的方式准确地确定对血浆dna池有贡献的组织的相对贡献是有价值的。[0090]非随机片段化的各种新颖方面可以被确定并用于实际应用,例如生物学测量。例如,测量片段化,包括dna片段末端的优选位置,与dna片段尺寸的关系。这种关系可用于实际应用,例如测量特定组织类型(例如胎儿,肿瘤或移植组织)的比例贡献和检测特定组织类型的染色体区域中的序列失衡。作为另一个实例,测量片段化和组织特异性开放染色质区域的关系,包括dna片段的哪一端(上游或下游)位于组织特异性开放染色质区域附近。上游末端相对于下游末端的定量模式可用于实际应用,例如测量特定组织类型的比例贡献和检测特定组织类型中的病状。[0091]为了进行尺寸分析,我们对血浆dna的片段化模式进行了深入的研究,并探讨了片段化机制是否与血浆dna的尺寸概况有关。因此,我们研究了这种优选末端位点是否可能与血浆dna的片段长度有任何关系。我们称这些末端位点为’尺寸标记的优选末端’。我们鉴定了优先与长和短血浆dna分子相关的优选末端位点。短和长血浆dna分子通常与不同的优选dna末端位点相关。我们发现,这些'尺寸标记的'末端在胎儿dna分数估计(比例贡献)和增强的非侵入性胎儿三体21(序列失衡)测试中显示出改进的准确性,因为孕妇的血浆显示出具有优选末端位点的非随机片段化。这种‘尺寸标记的’末端可用于其它组织类型(例如肿瘤或移植物)以估计特定组织类型的比例贡献或检测序列失衡。[0092]进一步的分析显示胎儿和母体的优选末端是从核小体结构内的不同位置产生的。胎儿dna经常在核小体核心内切割,而母体dna大部分在接头区内切割。我们进一步证明胎盘细胞中的核小体可及性高于白细胞,说明母体血浆中胎儿dna的切割位置和短小的差异。有趣的是,覆盖从短读取中挖掘的优选末端的血浆dna分子通常比覆盖从长读取中挖掘的优选末端的那些短,甚至在非妊娠健康受试者中也是如此。因为这些后面的样品不含有胎儿dna,所以数据表明优选dna末端,染色质可及性和血浆dna尺寸概况的相互关系可能是一般性的,延伸到妊娠的背景之外。因此,血浆dna片段末端模式在生产机理上已经变得更加清楚,并且在基于血浆dna的非侵入性分子诊断的未来发展中显示出效用。[0093]我们还研究了dna片段末端的定位与核小体结构的关系。在开放染色质区域中,cfdna分子显示特征性片段化模式,其反映为测序覆盖失衡和不同相位的片段末端信号。后者是指与cfdna分子的上游和下游末端的方向相对应的序列的读取密度相对于参考基因组的差异。这种cfdna片段化模式优先发生在组织特异性开放染色质区域,其中相应的组织有助于dna进入血浆。这些信号的定量分析允许测量各种组织对血浆dna池的相对贡献,以及检测特定组织类型中的病状。通过从孕妇,器官移植受体和癌症患者获得的血浆dna测序数据来验证这些发现。因此,在非侵入性产前测试,器官移植监测和癌症液体活检中,识别方向的血浆dna片段化分析具有诊断应用。i.片段化与技术综述[0094]已经证明血浆dna不是随机片段化的。高分辨率血浆dna尺寸概况显示在166bp处的主要峰和150bp以下的10bp周期性(9)。已经提出这种尺寸概况与核小体结构密切相关(9)。在这方面,核小体由4种核心组蛋白的八聚体(形成“核小体核心”,其被147bp的具有~10bp螺旋重复的dna包裹),接头组蛋白和接头dna(平均尺寸约20bp)组成(10)。此外,已经发现母体血浆中的胎儿dna(主要来源于胎盘组织(11))比母体dna(主要来源于造血系统)短(12-14)。胎儿和母体dna分子的尺寸差异已被用于非侵入性产前测试,允许胎儿dna分数估计,胎儿染色体非整倍性检测和胎儿甲基化组分析(15-19)。然而,对循环胎儿dna的这种相对缩短的机理基础仍然了解很少(9,14,20)。[0095]最近的研究进一步探索了血浆dna的终止模式。孕妇血浆dna的超深度测序揭示了胎儿和母体特异性优选末端位点的存在(21)。尽管这些优选末端位点显示出非侵入性产前测试的潜力,但是它们存在的分子基础在很大程度上是未知的。此外,血浆dna被认为是从凋亡细胞中释放的(22),这表明片段化模式与核小体结构和染色质状态相关(23-25)。[0096]在本公开中,我们展示存在无细胞dna的非随机片段化方法。非随机片段化方法可以在一定程度上在不同类型的生物样品中进行,所述生物样品含有无细胞dna,例如血浆、血清、尿液、唾液、脑脊髓液、胸膜液、羊膜液、腹膜流体和腹水流体。此外,非随机片段化发生在不同尺寸的dna片段上。无细胞dna以短片段形式天然存在。无细胞dna片段化是指当产生或释放无细胞dna分子时,高分子量dna(如细胞的细胞核中的dna)裂解、破坏或消化成短片段的过程。[0097]并非所有无细胞dna分子都具有相同长度。一些分子比其它分子短。已经表明,无细胞dna,例如血浆dna,在开放染色质结构域,包括转录起始位点周围,和在核小体核心之间的位置,例如在接头位置,通常较短和较不完整,即具有较差的完整概率或较差的完整性(straver等人,prenatdiagn2016,36:614-621)。每种不同的组织具有其特有的基因表达概况,其依次通过包括染色质结构和核小体定位的方式调节。因此,某些基因组位置的完整概率或完整性的无细胞dna模式,例如,如血浆dna的完整概率或完整性的无细胞dna模式是那些dna分子的组织来源的特征或标志。类似地,当疾病过程,例如癌症改变细胞的基因组的基因表达概况和功能时,来源于患病细胞的无细胞dna完整概率概况将反映那些细胞。因此,无细胞dna概况将为疾病存在提供证据或作为疾病存在的标志。[0098]一些实施方案进一步增强研究无细胞dna片段化概况的分辨率。代替仅对一段核苷酸的读取求和以鉴定具有较高或较低完整概率或完整性的区域,我们研究个别无细胞dna分子,尤其是血浆dna分子的实际终止位置或末端。值得注意的是,我们的数据表明切割无细胞dna分子的具体位置是非随机的。在体外剪切或超声处理的高分子量基因组组织dna显示dna分子具有随机分散在基因组中的终止位置。然而,存在在样品(如血浆)内大量呈现的无细胞dna分子的某些终止位置。这类终止位置的出现或呈现数目在统计学上显著高于单独偶然所预期的。这些数据使我们理解无细胞dna片段化的一个步骤超过完整性的区域变化的一个步骤(snyder等人,cell2016,164:57-68)。这里,我们显示无细胞dna片段化的过程甚至被协调到切割或剪切的特定核苷酸位置。我们将无细胞dna终止位置的这些非随机位置称为优选终止位置或优选末端。[0099]在本公开中,我们显示存在无细胞dna终止位置,其通常出现在不同生理学状态或疾病状态的个体中,并且出现在某些尺寸的片段上。例如,存在由短dna片段(例如,60-155个碱基),长dna片段(例如,170-250个碱基),妊娠和非妊娠个体共有的,由妊娠和癌症患者共有的,以及由患有和未患有癌症的个体共有的共同的优选末端。另一方面,主要仅在短dna片段,长dna片段,孕妇,仅在癌症患者或仅在未患癌症的非妊娠个体中存在优选末端。有趣的是,这些妊娠特异性或癌症特异性或疾病特异性末端在具有相当生理学或疾病状态的其它个体中也是高度代表性的。例如,在一例孕妇的血浆中鉴定的优选末端在其它孕妇的血浆中是可检测的。[0100]这种优选末端(例如对于短片段)的占比量与其它孕妇的血浆中的胎儿dna分数相关。这种优选末端确实与妊娠或胎儿有关,因为它们的量在非妊娠血浆样品中显著减少。类似地,在癌症中,在一例癌症患者的血浆中鉴定的优选末端在另一例癌症患者的血浆中是可检测的。此外,这种优选末端(例如,对于短片段)的占比量可以与其它癌症患者的血浆中的肿瘤dna分数相关。这种优选末端与癌症相关,因为它们的量在癌症治疗,例如手术切除后减少。[0101]存在许多用于分析无细胞dna尺寸优选(尺寸标记的)末端的应用或效用。它们可以提供关于妊娠中胎儿dna分数以及因此胎儿健康的信息。例如,已经报道了与孕龄匹配的对照妊娠相比,许多妊娠相关病症(例如,子痫前期,早产,子宫内生长限制(iugr),胎儿染色体非整倍性等)与胎儿dna的浓度分数的扰动(也称为胎儿dna分数,胎儿分数或来自胎儿组织的比例贡献)相关。因此,可以从这种对照妊娠确定胎儿dna的浓度分数的阈值。可以将测量的新样品中胎儿dna的浓度分数与阈值进行比较以确定妊娠相关病症的分类。因此,使用尺寸优选的末端测量胎儿dna分数可用于这种妊娠相关病症。[0102]与短dna片段相关的无细胞血浆dna优选末端也可揭示血浆样品中的肿瘤dna分数或浓度分数。知道肿瘤dna分数提供了关于癌症阶段,预后的信息,并有助于监测治疗效果或癌症复发。[0103]通过比较在具有不同生理学或病理学状态(或不同尺寸的片段)的个体中的优选末端的无细胞dna概况,例如非妊娠样品对比妊娠样品,癌症样品对比非癌症样品,或未患癌症的孕妇的概况对比非妊娠癌症患者的概况,可以鉴定与具体生理学状态或病理学状态(或不同尺寸的片段)相关的优选末端的目录。另一种方法是比较生理学(例如妊娠)或病理学(例如癌症)过程中的不同时间优选末端的无细胞dna概况。这类时间点的实例包括妊娠之前和之后,分娩胎儿之前和之后,跨越妊娠的不同孕龄收集的样品,治疗癌症之前和之后(例如靶向疗法、免疫疗法、化学疗法、手术)、在癌症诊断之后的不同时间点、在发展癌症之前和之后、在发展转移之前和之后、在疾病严重度增加之前和之后或在发展并发症之前和之后。[0104]当优选末端具有在一种生理学或病理学状态下被检测到的高可能性或概率(比率)时,可以将所述优选末端视为与所述生理学或疾病状态(或某尺寸的片段)相关。在其它实施方案中,优选末端具有相比于其它状态,更可能在相关生理学或病理学状态下被检测到的某一概率。由于检测到相关生理学或疾病状态下的优选末端的概率较高,这类优选或经常性末端(或终止位置)将见于超过一个具有所述相同生理学或疾病状态的个体中。高概率也将使得这类优选或反复性末端在相同个体的相同无细胞dna样品或等分试样中可以检测多次。在一些实施方案中,可以设定定量阈值以限制被视为优选末端的在相同样品或相同样品等分试样内检测至少指定次数(例如5、10、15、20等)的末端的纳入。[0105]在对于任何生理学或病理学状态(或不同尺寸)建立无细胞dna优选末端的目录之后,靶向或非靶向方法可以用于检测其在无细胞dna样品(例如血浆)或其它个体中的存在以确定具有类似健康、生理学或疾病状态的其它测试个体的分类。无细胞dna优选末端可以通过随机非靶向测序来检测。需要考虑测序深度,以便可以实现鉴定全部或一部分相关优选末端的合理概率。或者,可以对无细胞dna样品进行具有高密度的优选末端的基因座的杂交捕捉,以在不限于通过测序、微阵列或pcr进行的检测之后富集具有这类优选末端的无细胞dna分子的样品。然而,或者,基于扩增的方法可以用于特异性扩增和富集具有优选末端的无细胞dna分子,例如反向pcr、滚环扩增。扩增产物可以通过测序、微阵列、荧光探针、凝胶电泳和本领域技术人员已知的其它标准方法鉴定。[0106]在实践中,一个末端位置可以是通过分析方法检测或确定的无细胞dna分子的一个末端上的最外侧碱基的基因组坐标或核苷酸身份,所述分析方法是如(但不限于)大规模平行测序或下一代测序、单分子测序、双链或单链dna测序文库制备方案、pcr、用于dna扩增(例如等温扩增)的其它酶促方法或微阵列。这类体外技术可以改变无细胞dna分子的真实体内物理末端。因此,每个可检测末端可以表示生物学上的真实末端或末端是一个或多个向内的核苷酸或一个或多个从分子的原始末端延伸的核苷酸。举例来说,克列诺片段用于通过5'悬突的钝化和3'悬突的填充在dna测序文库构建期间产生平末端双链dna分子。尽管这类程序可以展示不与生物末端相同的无细胞dna末端位置,但仍可以建立临床相关性。这是因为与具体生理学或病理学状态相关或有关的优选项的鉴定可以基于将在校准样品和测试样品中对无细胞dna末端产生一致和可再现改变的相同实验室方案或方法原理。多种dna测序方案使用单链dna文库(snyder等人,cell2016,164:57-68)。单链文库的序列读取的末端可以比双链dna文库的末端更向内或进一步延伸。[0107]末端位置的基因组身份或基因组坐标可以来源于序列读取与受试者的参考基因组(例如hg19和其它人类参考基因组)的比对结果。其可以来源于表示人类基因组的初始坐标的索引或代码的目录。尽管末端是无细胞dna分子的一个或两个末端处的核苷酸,但末端的检测可以通过识别血浆dna分子上的其它核苷酸或其它核苷酸区段来进行。举例来说,具有通过能结合扩增子的中间碱基的荧光探针检测的优选末端的血浆dna分子的阳性扩增。举例来说,末端可以通过能结合血浆dna分子的中间部分上的一些碱基的荧光探针的阳性杂交来鉴定,其中已知片段尺寸。通过这种方式,可以通过算出多少碱基在具有已知序列和基因组身份的荧光探针外部来确定末端的基因组身份或基因组坐标。换句话说,末端可以通过检测相同血浆dna分子上的其它碱基来鉴定或检测。末端可以是通过(但不限于)靶标特异性探针、微测序和dna扩增读取的无细胞dna分子上的位置或核苷酸身份。进一步的细节可以在pct公开wo2017/012592中找到,其通过引用并入用于所有目的。ii.短片段和长片段的片段化[0108]进行血浆dna尺寸和优选dna末端位点的整合分析。观察到短dna片段和长dna片段的终止位置之间的差异,从而说明尺寸标记的优选末端。可以使用各种定义的短和长dna片段,例如可以使用各种长度范围。例如,短dna片段对应于具有小于长dna片段范围的最小值和/或最大值的最小值和/或最大值的范围。尽管实例可与血浆一起使用,但也可使用其它无细胞样品,因为样品中的无细胞dna也是自然的片段化过程的结果。a.尺寸标记的优选末端位点[0109]母体血浆中胎儿来源的dna分子通常比母体来源的dna分子短(9,14)。母体血浆中dna分子的尺寸概况分析使用配对末端测序和与参考基因组的比对进行,尽管可以进行整个dna片段的测序。我们将先前公开的两个母体血浆样品的血浆dna配对末端测序数据(20)汇集在一起以获得总共约470倍的人倍体基因组覆盖。我们将血浆dna读取分成short(短)和long(长)类别,如本文所述。然后,使用基于泊松分布的统计模型,我们确定人基因组中的某些位置是否在short和/或long类别中具有存在于血浆dna分子的末端的显著增加的概率,如下所述。可以使用其它分布,例如二项式分布,负二项式分布,正态分布和伽玛分布。[0110]图1显示了根据本公开的实施方案,对血浆dna片段的片段末端位点的分析。sets和setl分别包括短和长血浆dna分子的优选末端位点。中间的重叠组110包括短和长血浆dna分子的优选末端位点。如下面更详细描述的,可以使用对具有对应于sets的终止位置的无细胞dna分子的定量测量来表征特定组织类型,例如,确定组织类型的比例贡献或组织类型的序列失衡。[0111]我们分别获得了short和long类别的8,832,009和12,889,647个优选末端。在这些优选末端中,发现1,649,575个末端由两个类别共有。然后我们收集了仅出现在short类别(n=7,182,434)或long类别(n=11,240,072)中的基因组的优选末端,并将它们分别定义为sets和setl。这两个组含有尺寸标记的优选末端位点。可以使用sets和/或setl的子集。[0112]可以对其它类别的受试者,例如,患有癌症或具有移植器官的受试者进行类似的过程,这样的受试者具有的组织类型(例如,肿瘤或移植物)通常比来自健康组织的dna片段短。然而,尺寸优选的终止位点可以在受试者的类别中重新使用。对于不同类别的受试者,可以使用短和长的不同定义。b.优选终止位点的鉴定[0113]为了进行胎儿分析,我们将先前公开的两个孕妇的血浆dna测序数据(21)汇集在一起,这实现了总共约470倍的人单倍体基因组覆盖。然后根据dna分子的尺寸将测序读取分成两类:一类读取在60bp-155bp的尺寸范围内(表示为short),另一类读取在170bp-250bp的尺寸范围内(表示为long)。尺寸范围设置的精确选择可以涉及在两个类别中的表观胎儿dna分数的差异和两个类别的数据的测序深度之间的折衷。结果,对应于约140倍和165倍人单倍体基因组覆盖的汇集数据的~30%和~35%的读取分别属于short和long类别。收集这些读取并用于以下分析中。[0114]短dna分子的其它实例包括70-145bp、80-145bp、90-145bp、80-135bp、90-135bp等。长dna分子的其它实例包括160-210bp、160-220bp、160-230bp、160-240bp、180-260bp、160-260bp等。此外,所述范围可以重叠,例如,短为60-155bp且长为150-230bp,或短为90-185bp且长为170-250bp。在这种重叠情况下,第一尺寸范围仍然小于第二尺寸范围,因为第一尺寸范围的第一最大值小于第二尺寸范围的第二最大值。作为另一个实例,长片段可以是所有片段长度。[0115]对于每个尺寸类别中的读取,我们以全基因组的方式筛选所有核苷酸位置,以搜索显示血浆dna分子末端显著过度代表的基因座。对于每个核苷酸位置,我们对血浆dna末端的存在进行计数,并将结果与来自该位置周围位置的结果进行比较,例如使用1,000bp的窗,尽管也可以使用其它的窗尺寸,例如500bp或更大。窗可以具有在被分析的位置处的中心。[0116]将计算基于泊松分布的p值,以确定特定位置是否具有作为读取的末端的显著增加的概率,即优选末端位点:p值=泊松(n实际,n预测)其中泊松()是泊松概率函数,n实际是在特定核苷酸(基因组位置)终止的分子的实际数目,n预测是相邻1,000bp的窗(例如以特定核苷酸为中心)内的读取的总数除以该窗中的dna片段的平均片段尺寸(或通常在样品中的dna片段的平均尺寸)。在各种实例中,当整个片段在窗内或仅当片段部分地在窗内时,读取可以被定义为在窗内。在其它实施方式中,基因组位置的n预测可以是覆盖该位置的读取数目除以平均或预期片段尺寸。因此,实施方式可以确定全局参数,并将所有位点与全局参数进行比较,而不是与局部窗进行比较。n预测是用于确定在位置上终止的短(或长)dna分子的比率是否高于阈值(例如,确定是否与参考值存在统计学显著差异)的参考值(参考比率)的实例。这些实例举例说明了使用以特定基因组位置为中心的窗处终止的多个dna片段除以无细胞dna分子的平均尺寸所确定的参考值。[0117]可以使用benjamini方法进一步调整p值。使用<0.01的p值来指示统计学上显著的末端位点。这样的p值是用于确定在所述位置终止的无细胞dna分子的比率是否足够高从而被认为是优选末端的阈值的实例。[0118]在其它实例中,可以追踪在一位置终止的短dna分子的相对量,并且可以确定分布中的峰,例如,如稍后的图所示。对峰的追踪有效地比较了相对于在其它位置终止的数目(其充当参考值)的在一位置终止的短dna分子的数目。[0119]根据上述实例和本文的其它实例,参考值(也称为参考比率)可以从在特定基因组位置之外的基因组位置(或该位置周围的小窗)终止的第二多个无细胞dna分子的数目来确定。以这种方式,可以确定更多的dna片段以统计学上显著的量在特定位置而不是其它位置周围(例如,在该特定位置周围)终止。这将包括相对于在特定基因组位置周围的窗内的基因组位置处终止的dna片段的数目鉴定在峰处的特定基因组位置。[0120]因此,在多个实例中,可以按以下方式鉴定某尺寸(例如短的)无细胞dna分子的末端的出现率高于阈值的第一组基因组位置。第一组织类型可以与短dna片段相关,因此也可以与短dna片段的优选终止位置相关。可以按与测试样品类似的方式分析校准样品,其中已知两份相同类型的样品(例如血浆、血清、尿液等)和校准样品包括第一组织类型(例如来自孕妇的样品的胎儿组织或hcc患者的肝脏的肿瘤组织)。可以比较在基因组窗(例如宽度是一个或多个)中终止的无细胞dna分子的数目与参考值以确定终止位置的比率是否超过所述位置的阈值。在一些实施方案中,如果比率超过参考值,那么当对应数目超过参考值时,第一基因组窗内的基因组位置中的每一个可以鉴定为具有高于阈值的比率。这类方法可以鉴定优选的终止窗,其包括优选的终止位置。[0121]参考值可以使得仅前n个基因组窗具有高于阈值的比率。举例来说,第一组基因组位置可以具有关于对应数目的最高n值。作为实例,n可以是至少10,000;50,000;100,000;500,000;1,000,000;或5,000,000。[0122]作为另一实例,参考值可以是根据样品中无细胞dna分子的概率分布和平均长度,在基因组窗内终止的无细胞dna分子的预期数目。可以使用相应数目和预期数目确定p值,其中阈值对应于截止p值(例如0.01)。p值小于截止p值指示比率高于阈值。作为另一个实例,参考值可以包括从被鉴定为具有减少量的第一组织类型的样品中测量的在基因组窗内终止的无细胞dna分子的数目。iii.尺寸标记的优选末端位点的胎儿使用[0123]优选的终止位点可用于测量临床相关dna,例如胎儿dna,肿瘤dna或供体dna,其具有与健康dna不同的片段化模式。优选的终止位点可以从来自临床相关样品的历史数据集中挖掘出来。对随后的样品或样本的技术实践可以基于搜索在每个测试样品中的那些优选终止位点的存在或不存在或对其进行定量。本节描述了尺寸标记的优选末端位点在非侵入性产前测试中的应用。[0124]为了研究尺寸标记的优选末端位点在非侵入性产前测试中的潜在应用,我们重新分析了一个母体血浆dna测序数据集,我们以前从26名早孕期孕妇中产生了该数据集(21)。对于每一种情况,我们分别检查在sets和setl优选末端上终止的读取。[0125]图2显示了在24个母体血浆样品中覆盖sets优选末端位点的血浆dna读取的尺寸分布(红色)对比覆盖setl优选末端位点的血浆dna读取的尺寸分布(蓝色)。x-轴表示片段尺寸(bp),y-轴表示频率(%)。我们观察到,对于所有这些情况,覆盖sets优选末端位点的血浆dna读取比覆盖setl优选末端位点的那些短。[0126]图3显示了根据本公开的实施方案,在一种母体血浆样品中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。对于图2,x轴表示片段尺寸(bp),y轴表示频率(%)。覆盖sets末端位点的读取的尺寸分布具有明确定义的周期性,其中峰和谷在尺寸为约80bp至约150bp的峰之间。每个峰大约每10bp。a.确定胎儿分数[0127]图4a显示了26个母体血浆样品中具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)与胎儿dna分数之间的相关性。相对丰度可以通过计数在sets位点之一终止的无细胞dna分子的第一数目并除以在setl位点之一终止的无细胞dna分子的第二数目来确定。每个校准数据点405对应于其相对丰度和胎儿dna分数被确定的差异样品。胎儿dna分数可以使用胎儿特异性标志物,例如父系特异性等位基因,y染色体标志物或胎儿特异性表观遗传标志物,例如甲基化来确定。[0128]观察到血浆dna的相对丰度(sets对比setl优选末端位点[表示为s/l比值])和胎儿dna分数(r=0.79,p<0.001,皮尔森相关性)呈正相关。可使用相对丰度的其它值,例如,第一数目除以第一数目与第二数目之和,或第一数目除以所有读取。也可使用分离值的其它实例,例如,如上文术语部分中所定义的。[0129]为了确定新样品的胎儿dna分数,系统可以确定与其它无细胞dna分子(例如,在一组长优选末端位置终止的无细胞dna分子)相比,在一组短优选末端位置终止的无细胞dna分子的相对丰度。然后,可以将新测量的相对丰度与一个或多个校准数据点405进行比较。例如,校准函数410可以拟合校准数据点405,其中新测量的相对丰度可以用作校准函数410的输入,校准函数410提供胎儿dna分数的输出。可以以类似的方式测量其它组织类型的比例贡献。[0130]值得注意的是,该r值高于使用基于snp的方法挖掘的优选末端位点获得的r值(其为0.66)(21)。值得注意的是,尺寸标记的优选末端位点的挖掘不需要关于胎儿母体遗传多态性的知识。另一方面,我们的小组先前已经证明,单独的尺寸信息可以指示血浆dna中的胎儿dna分数(17)。因此,我们在没有选择具有特定末端的分子的情况下计算了母体血浆dna的尺寸比,并评估了其与胎儿dna分数的关系。[0131]图4b显示了26个母体血浆样品的尺寸比(短读取比长读取的数目)和胎儿dna分数之间的相关性。尺寸比与胎儿dna分数呈正相关(r=0.67,p<0.001,皮尔森相关)。尽管r值与先前研究的r值(17)相当,但它低于基于尺寸标记的优选末端的相关性。总之,结果表明,尺寸标记的优选末端允许改善血浆dna中胎儿dna分数的估计。[0132]因此,使用短dna分子的优选末端位置可以通过将相对丰度与从一个或多个校准样品确定的一个或多个校准值进行比较来提供胎儿组织的比例贡献的分类,所述校准样品的胎儿组织的比例贡献是已知的。如本文所述,分类可以是特定的百分比或百分比范围。对于其它组织类型,例如肿瘤组织,分类可以是是否测量到任何肿瘤组织或至少可评估的量(例如,高于检测的最小阈值)。[0133]在一些实施方案中,尺寸标记的优选终止位置可以延伸到包括相邻的核苷酸。因此,一组短的优选终止位置可以包括扩展的终止位置sets。在任一种情况下,可以使用第二数目的dna片段(其中至少一些dna片段在短优选集合之外的位置终止)将以短优选位置(sets或扩展的sets)终止的多个dna片段归一化以获得相对丰度。第二数目可以包括短优选集合的第一数目。在一个实例中,基于窗的相对丰度(例如,比值)可以在窗a内终止的片段的数目(较小的)和在该窗之外终止的那些片段的数目之间或者在短的优选终止位置周围的较大窗b内终止的那些片段的数目之间取得,因此包括一些非优选位置。可以调整窗a和窗b的尺寸,以获得所需的性能。可以通过实验获得不同窗尺寸的性能。可以设定窗a的尺寸,例如但不限于2bp,3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、15bp、20bp、25bp和30bp。窗b的尺寸将大于窗a的尺寸并且可以被设定,例如但不限于20bp、25bp、30bp、40bp、50bp、60bp、70bp、80bp、100bp、120bp、140bp、160bp、180bp和200bp。b.胎儿非整倍性检测[0134]此外,我们研究了尺寸标记的优选末端位点是否可用于检测胎儿组织中的染色体区域的序列失衡,例如,用于检测拷贝数畸变。在尺寸标记的优选末端位点终止的dna分子比随机选择任何dna片段具有更高的来自胎儿的可能性。胎儿dna的这种富集可以提高用于进行非侵入性产前测试的技术的准确性。作为实例,这种技术可以使用一定量的在短的优选末端位点终止的无细胞dna分子,以及这种无细胞dna分子的尺寸分布或甲基化水平的统计值,然后可以将其与参考值进行比较。[0135]为此,我们研究了尺寸标记的优选末端位点是否可以改善胎儿21三体的非侵入性产前测试。为此,我们从我们以前的研究中收集了包含36例21三体病例和108例对照病例的数据集(17)。我们利用覆盖sets优选末端的读取进行该分析。值得注意的是,在这些样品中具有sets优选末端的读取的中值数是133,702(范围:52,072-353,260)。[0136]一些实施方式可以使用基于z分数的方法(26)将映射到chr21的第一数目的这种读取通过具有映射到所有常染色体的sets优选末端的第二数目的读取归一化,以获得参数值,其可以与区分两个分类的参考值进行比较。在这种情况下,可以从整倍体病例确定参考值,其标准偏差为3或其它合适的偏差。因此,可以从对照样品确定参考值。由于可以分析不同数目的dna分子,因此归一化可以解释样品(例如测试样品和对照样品)尺寸的差异。任何合适的归一化技术可以用于任何组织类型的任何应用,例如,通过分析跨样品的相同数目的序列读取。[0137]用于基于计数的技术的其它参数值可包括各种比值,其涉及第一数目,例如用于某区域的s/l比值除以一个或多个参考区域的第二数目(例如,s/l比值)。一个或多个参考区域可包括预期不具有序列失衡(例如,具有两个染色体拷贝)的至少一个其它区域。仅在短的优选末端终止的dna片段的使用是富集胎儿dna,并因此获得更高的准确性的方式,例如,因为胎儿dna将是样品的更大百分比,并且将发生与参考值的更大百分比偏差。[0138]图5a显示了根据本公开的实施方案,在对照病例与21三体病例之间的chr21读取的相对丰度的比较。在该分析中仅考虑覆盖sets优选末端位点的读取(中值读取数目:133,702)。如图5a所示,21三体病例与对照病例相比显示出显著升高的归一化的具有sets优选末端的chr21读取(p<0.001,曼-惠特尼秩和检验)。[0139]图5b显示了根据本公开的实施方案,对于21三体测试,覆盖sets优选末端位点的读取与随机读取之间的roc比较。随机读取分析仅使用任何读取,而不是针对优选的末端位点进行过滤。使用接收器操作特征(roc)曲线分析,我们得到曲线下面积(auc)值为0.97。为了在读取数目方面实现公平的比较,我们通过随机选择与覆盖sets优选末端位点的读取相同数目的读取并重新计算降低采样数据集中的归一化chr21读取数目来降低采样每个样品的测序数据。结果,在21三体检测中,与覆盖sets优选末端位点的读取相比,随机读取显示较低的auc值(0.93)(p=0.033,delong检验(27);图5b)。这些结果表明,sets优选末端位点可以潜在地增强设计用于利用其特征的测定中的21三体测试(参见讨论)。[0140]除了由染色体拷贝的缺失或扩增引起的胎儿非整倍性之外,还可以检测其它拷贝数畸变,例如特定区域的扩增或缺失。例如,可以检测数个mb的微缺失或微扩增。这种序列失衡发生在两个单倍型之间,例如,重复的单倍型导致其被过度代表或单倍型的缺失导致其代表不足。c.胎儿基因型测定[0141]考虑到短的优选末端位置可以与特定组织类型相关,在这些优选终止位置处终止的无细胞dna分子具有来自该组织(例如胎儿,癌症或移植物)的高可能性。在一些情况下,无细胞dna混合物中的特定组织类型相对于其它组织类型在特定基因组位置可以具有不同的基因型。例如,胎儿组织或肿瘤组织可以具有不同的基因型。由于在短优选位点终止的无细胞dna分子具有来自目的组织类型的高可能性,所以可以分析在该位置终止的无细胞dna分子以确定该位置的组织类型的基因型。以这种方式,尺寸优选的终止位置可以用作过滤器以鉴定来自该组织类型的dna。[0142]关于无细胞dna片段的尺寸优选的终止位置的信息(例如,从血浆测序)可以用于确定哪一个母体等位基因已经被来自孕妇的胎儿遗传。这里,我们使用一个假设的实例来说明该方法的原理。我们假定母亲,父亲和胎儿的基因型分别是at,tt和tt。为了确定胎儿基因型,我们需要确定胎儿是从母亲遗传了a还是t等位基因。我们以前已经描述了一种称为相对突变剂量(rmd)分析的方法(lun等人,procnatlacadsciusa2008;105:19920-5)。在该方法中,比较母体血浆中两个母体等位基因的剂量。如果胎儿已经遗传了母体t等位基因,那么胎儿将是t等位基因的纯合子。在这种情况下,与a等位基因相比,母体血浆中的t等位基因将被过度代表。另一方面,如果胎儿已经从母亲遗传了a等位基因,则胎儿的基因型将是at。在这种情况下,a和t等位基因在母体血浆中将以大致相同的剂量存在,因为母亲和胎儿对at而言都是杂合的。因此,在rmd分析中,将比较母体血浆中两个母体等位基因的相对剂量。[0143]可以分析读取的终止位置以提高rmd方法的准确性。例如,可以对读取进行过滤,以仅包括在短的优选位点终止,并覆盖正被基因分型的位置的那些读取。[0144]在说明性实例中,在短的优选终止位置上终止的两个分子携带t等位基因(例如,在优选的终止位置或在被两个相应的读取覆盖的附近位置)。在一个实施方案中,当只有两个在短优选终止位置终止的分子被用于下游分析时,胎儿基因型将被推断为tt。因此,仅t相关读取的序列失衡(或高百分比,例如大于70%)可指示纯合基因型。序列平衡(例如,任一等位基因小于60%)可指示杂合基因型。[0145]在另一实施方案中,携带t等位基因的两个胎儿来源的分子在rmd分析中被赋予较高的权重,因为这两个分子在短的优选终止位置终止。可以将不同的权重给予在短的优选终止位置终止的分子,例如但不限于1.1、1.2、1.3、1.4、1.5、2、2.5、3和3.5。[0146]作为实例,用于确定基因座是否杂合的标准可以是两个等位基因的阈值,每个等位基因出现在至少预定百分比(例如,30%或40%)的与该基因座对齐的读取中。如果一个核苷酸以足够的百分比(例如,70%或更高)出现,则可以确定该基因座在特定组织中是纯合的。[0147]可以对患有肿瘤的受试者进行类似的技术。可以鉴定和分析在短优选终止位置终止的无细胞dna分子。可以为该组中的每种无细胞dna分子确定与该位置(或由dna片段覆盖的附近测试位置)对应(例如对齐)的碱基,并且可以为每种碱基计算总碱基的百分比。例如,可以测定在无细胞dna分子上观察到的测试位置处的c的百分比,所述无细胞dna分子在所述位置终止。如果在受试者的健康组织中未观察到c,则如果鉴定到足够数目的c,例如,高于阈值数目,这可取决于样品中测量的肿瘤dna分数,则可将c鉴定为突变。d.健康受试者对比妊娠受试者的尺寸标记的优选末端[0148]上述分析表明,sets优选末端位点确实反映了胎儿来源的dna的片段化模式。然而,这些末端位点是从胎儿和母体dna分子的混合物中挖掘的。因此,为了测试这些优选末端位点是否仅反映胎儿特异性片段化模式,我们从我们组的先前研究(28)中检索了包含32个健康(非妊娠的)受试者的数据集,并在这些样品中搜索携带sets优选末端位点的血浆dna读取。有趣的是,具有sets优选末端位点的一些血浆dna读取确实存在于健康受试者的血浆中,并且这种血浆dna分子也比覆盖setl优选末端位点的那些短。[0149]图6显示在24名健康受试者中,覆盖sets优选末端位点的血浆dna读取的尺寸分布对比覆盖setl优选末端位点的血浆dna读取的尺寸分布。红色和蓝色线是分别覆盖sets和setl优选末端位点的读取。x-轴表示片段尺寸(bp),y-轴表示频率(%)。在sets优选末端位点终止的无细胞dna分子平均比在setl终止的那些短。[0150]图7a显示了根据本公开的实施方案,在健康受试者中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。图7a显示了具有典型尺寸分布的情况。[0151]图7b显示了根据本公开的实施方案,在孕妇和健康受试者中具有sets优选末端位点的血浆dna读取对比具有setl优选末端位点的血浆dna读取的相对丰度(s/l比值)的比较。这些健康受试者与孕妇相比显示出较低的s/l比。因此,相对于其它终止位置组,例如setl或整个基因组,在sets终止的读取具有增加的胎儿dna比例。[0152]这表明s/l用于序列失衡检测的增加准确性的参数值是可行的,例如,当相对于一个或多个参考区域的s/l归一化时。更一般地,sets终止位置可以用作过滤器以仅使用某些鉴定的dna分子,导致胎儿dna的富集。在一个区域(胎儿dna富含的)内的sets处终止的dna分子可用于检测胎儿dna是否存在序列失衡。作为实例,参数值可包括测试区域的s/l与一个或多个参考区域的s/l的比值,或仅包括在测试区域的短优选末端终止的dna分子的第一数目与在一个或多个参考区域的短优选末端终止的dna分子的第二数目的比值。[0153]因此,数据表明,尺寸标记的优选末端位点是血浆中短和长dna分子的一般足迹,而不管它们的起源(例如胎儿对比母体)如何。此外,与母体dna相比,胎儿dna分子显示较高比例的覆盖sets优选末端位点的分子。因此,测试区域和一个或多个参考区域的s/l值的比值可以被用作参数值,该参数值与参考值进行比较以区分序列失衡的分类。iv.尺寸标记的优选末端位点的肿瘤使用[0154]可以对包括肿瘤dna的样品进行类似的测量,如以下数据所示。例如,可以确定无细胞样品中肿瘤dna的比例贡献,或者可以确定序列失衡。a.肿瘤dna片段化[0155]图8显示了根据本公开的实施方案,在肝细胞癌(hcc)患者中覆盖sets和setl优选末端位点的血浆dna读取的尺寸分布。x-轴表示片段尺寸(bp),y-轴表示频率(%)。图8显示了具有典型尺寸分布的情况。尽管hcc被用作测试病例,但其它癌症也表现出短的无细胞dna片段,因此该技术同样适用于其它类型的癌症。[0156]图9显示了在代表性的一组24例肝细胞癌患者中,覆盖sets优选末端位点的血浆dna读取的尺寸分布对比覆盖setl优选末端位点的血浆dna读取的尺寸分布。红色和蓝色线分别是覆盖sets和setl优选末端位点的读取。x-轴表示片段尺寸(bp),y-轴表示频率(%)。总之,分析了90名hcc患者,其中90名患者具有与图9所示相似的尺寸分布。b.测定肿瘤分数[0157]图10显示了根据本公开的实施方案,在血浆中具有大于1%的肿瘤dna分数的72例肝细胞癌患者中,具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)与肿瘤dna分数之间的相关性。使用与图1相同的sets和setl位点。观察到具有sets优选末端位点的血浆dna与具有setl优选末端位点的血浆dna的相对丰度[表示为s/l比值]和肿瘤dna分数之间正相关(r=0.58,p<0.001,皮尔森相关)。[0158]图10显示了与图4a类似的行为。例如,相对丰度可以通过计数在sets位点之一终止的无细胞dna分子的第一数目并除以在setl位点之一终止的无细胞dna分子的第二数目来确定。每个校准数据点1005对应于其相对丰度和胎儿dna分数被确定的差异样品。可以使用肿瘤特异性标志物,例如肿瘤特异性等位基因,例如杂合性丧失(loh)来确定肿瘤dna分数。[0159]如同胎儿测量一样,为了确定新样品的肿瘤dna分数,系统可以确定与其它无细胞dna分子(例如,在一组长优选末端位置终止的无细胞dna分子)相比,在一组短优选末端位置终止的无细胞dna分子的相对丰度。然后,可以将新测量的相对丰度与一个或多个校准数据点1005进行比较。例如,校准函数1010可以拟合校准数据点1005,其中新测量的相对丰度可以用作校准函数1010的输入,校准函数1010提供肿瘤dna分数的输出。[0160]组织类型(例如肿瘤组织)的比例贡献的分类可对应于除百分比或百分比范围以外的值。例如,分类可以对应于癌症的检测,更具体地,对应于肿瘤负荷。[0161]图11显示了健康受试者和肝细胞癌患者之间具有尺寸标记的优选末端位点的血浆dna分子的相对丰度(s/l比值)。基于血浆中的肿瘤dna分数,将肝细胞癌患者分成4组。s/l比值越高,肿瘤负荷越高。这4组对应于肿瘤dna分数的不同百分比范围。<1组中的下降是由于小肿瘤,使得周围坏死组织中较长的dna超过来自肿瘤的短dna。[0162]因此,该分类可以是是否测量到任何肿瘤组织或者或至少可评估的量(例如,高于检测的最小阈值)。因此,比例贡献的分类可以是检测到癌症。根据灵敏度或特异性,实施方案可以使用约0.5、0.51、0.52或0.53的检测阈值作为实例。[0163]可以使用相对丰度的其它值(除了比值s/l之外),例如,如以上针对用于确定胎儿分数所描述的。例如,归一化可以使用所获得的读取的总数,这将包括在任何短优选窗之外的位置终止的读取。这样的总数是包括不在短的优选位置终止的读取的第二数目的读取的实例。分析从一个样品到另一个样品的相同数目的读取提供了与通过读取总数或其它第二数目进行归一化相同的结果,因此这种归一化被包括在内。c.检测肿瘤引起的序列失衡[0164]在肿瘤组织的染色体区域也可以检测到序列失衡。例如,扩增和缺失通常发生在肿瘤组织中。因此,序列失衡将发生,并导致一个单倍型相对于另一个单倍型过度代表。可以在不同尺寸的区域(例如染色体臂)的多个区域(例如,所有相同的尺寸,例如1mb)中测试这样的拷贝数畸变。[0165]在下面的实例中,为了检测来自患有肿瘤的受试者的无细胞样品中的序列失衡,研究了染色体区域1p、1q、8p和8q,因为已知它们经常患有hcc中的cna。在这些区域之一的短优选位置终止的第一数目的无细胞dna分子可以用作检测该区域中序列失衡的参数值。在一个或多个参考区域的短优选位置终止的第二数目的无细胞dna分子,可用于使第一数目归一化,例如,使得可考虑样品的尺寸。一个或多个第二区域可以已知或假定没有序列失衡。[0166]在下面的实例中,一个或多个参考区域包括所有常染色体,并因此包括在常染色体的短优选位点终止的所有dna片段。因此,所有常染色体被组合用作对照,以使在sets位置之一终止的读取的计数归一化。可以将在特定位置组(例如,sets)终止的dna分子的归一化计数与参考值(例如,当不存在序列失衡时的期望值)进行比较,这可以包括与截止值进行比较以确定是否存在与参考值的统计学上显著的偏差。[0167]图12显示了根据本公开的实施方案,在健康受试者,患有或没有肝硬化的hbv携带者和hcc患者中覆盖chr1p上的sets末端的归一化读取计数。图12显示了每一类受试者的框图,其中中间显示为条形,上四分位数和下四分位数显示为突出(whisker)。每个数据点对应于给定样品的chr1p区域的归一化读取计数,其中样品在四个类别中的一个中。归一化的读取计数可以被确定为在chr1p区域中的sets末端之一处具有末端位置的读取的数目除以在sets末端之一处具有末端位置的读取的总数。[0168]还并入了拷贝数畸变信息,因为某些样品被标记为表现出增加(扩增),损失(缺失)或正常。通常,期望在非癌症受试者中有相对较少的畸变,尽管在患有肝硬化的hbv受试者中很少,肝硬化可能是hcc的前兆。如图所示,具有拷贝数损失的区域通常具有低于中值的值。与中值的足够偏差或特定百分比值的偏差可以用作阈值或参考值,以确定该区域存在的序列失衡。使用(28)来确定区域的增加和损失。[0169]图13显示了根据本公开的实施方案,在健康受试者,患有或没有肝硬化的hbv携带者和hcc患者中覆盖chr1q上的sets末端的归一化读取计数。还并入了拷贝数畸变信息(增加,损失或正常)。图13显示了与图12类似的图,但是拷贝数增加是chr1q的主要畸变,这与chr1p主要是损失相反。[0170]图14显示了根据本公开的实施方案,在健康受试者,患有或没有肝硬化的hbv携带者和hcc患者中覆盖chr8p上的sets末端的归一化读取计数。还并入了拷贝数畸变信息。图14显示了与图12类似的图,其中拷贝数损失是chr8p的主要畸变。[0171]图15显示了根据本公开的实施方案,在健康受试者,患有或没有肝硬化的hbv携带者和hcc患者中覆盖chr8q上的sets末端的归一化读取计数。还并入了拷贝数畸变信息。图15显示了与图12类似的图,但是拷贝数增加是chr8q的主要畸变,这与chr1p主要是损失相反。[0172]如第iii.c节所述,序列失衡可涉及确定组织的基因型。可以鉴定出一组在短的优选位点终止的dna分子,例如,通常对应于肿瘤dna片段。可以分析被鉴定组的dna片段覆盖的给定基因座上的等位基因以确定该基因座上的基因型。例如,可以确定具有第一等位基因的组中的第一数目的dna片段与具有第二等位基因的组中的第二数目的dna片段之间的差值或比值。差值或比值是所鉴定的无细胞dna分子的组的值的实例。可以将该值与参考值进行比较以确定是否存在序列失衡,例如,如果不存在序列失衡,则该基因型对于肿瘤组织中的两个等位基因是杂合的,并且当存在序列失衡时,该基因型对于优势等位基因(可能是组中仅有的等位基因)是纯合的。v.染色质中终止位点的位置a.尺寸标记的优选末端位点的基因组注释[0173]为了探索在基因组中如何产生尺寸标记的优选末端位点,我们分别研究了sets和setl中任何两个最接近的优选末端位点之间的分离(以bp为单位)。[0174]图16显示了根据本公开的实施方案,sets和setl优选末端位点中的任意两个最接近的优选末端位点之间的距离分布。该距离在sets数据的最接近的s位点之间,以及该距离在setl数据的最接近的setl位点之间。对于sets优选末端位点,存在高达~150bp的强10bp周期性。另一方面,对于setl优选末端位点,在~170bp处存在一个峰,而没有观察到10bp的周期性。因此,这种分离模式与血浆dna的尺寸特征和核小体结构高度一致,表明sets优选末端位点可能位于核小体核心内,而setl优选末端可能位于接头区内。[0175]为了探索这一假说,我们研究了尺寸标记的优选末端位点在具有良好定位的核小体的区域周围的分布。具体地,我们研究了chr12p11.1中的优选末端概况,chr12p11.1是已知在几乎所有组织类型中都具有良好定位的核小体的区域(29,30)。[0176]图17a显示了根据本公开的实施方案,血浆dna覆盖,sets和setl优选末端位点的快照。显示了chr12p11.1区域上的核小体阵列的说明。核小体阵列1720显示具有核小体核心1705和接头区1710。dna覆盖1730显示覆盖每个基因组位置的多个读取,横轴对应于基因组位置。如图17a所示,setl优选末端主要位于接头区1710,而sets优选末端主要位于核小体核心1705内,即使在核心的边缘。[0177]此外,由于也已知开放染色质区域(例如启动子和增强子)周围的核小体定位良好(30),我们研究了开放染色质区域周围的优选末端位点的定位。已知母体血浆中的胎儿和母体dna分子主要分别来自胎盘组织和造血系统(12,31)。为此,我们从roadmapepigenomics项目中下载了胎盘和所选造血组织的dnasei超敏概况(32)。值得注意的是,嗜中性粒细胞的dnasei概况是不可用的。我们使用t-细胞概况作为其它造血细胞的代表,因为roadmap项目揭示了几种造血细胞谱系(即t-细胞,b-细胞,自然杀伤细胞,单核细胞,嗜中性粒细胞和造血干细胞)之间的表观遗传学概况是相似的(32)。我们确定了由胎盘和t细胞共有的开放染色质区域(这些被称为共同的开放染色质区域)周围的尺寸标记的优选末端位点。[0178]图17b显示了根据本公开的实施方案,围绕由胎盘组织和t细胞共有的共同的开放染色质区域的优选末端位点的分布。显示了核小体位置的说明。由于数据是针对所有共同的开放染色质区域,优选末端位点的数目比图17a多得多,并且可以看到分布模式。[0179]在x-轴上绘制的比对的核小体位置是相对于表示为区域1770的共同开放染色质区域的中心。长优选位点的归一化末端计数显示为1750,短优选位点的归一化末端计数显示为1760。在图17b中,通过存在于共同的开放染色质区域,即图17b中所示的基因组坐标内的短和长优选位点的总数来归一化一个位置处的末端计数。因此,以相同的方式对两个数据集1750和1760进行归一化。[0180]如图17b所示,可以在任一数据集的峰之间观察到~190bp的周期性模式,这与核小体定相模式一致并代表核小体之间的距离(29)。此外,优选末端位点在开放染色质区域的中心不太丰富。据报道,在开放染色质区域中存在转录因子结合的频繁占用(33),并因此可能阻止dna切割。此外,sets和setl优选末端位点的峰不位于相同的位置。这些峰间隔约25bp,其约为接头区的尺寸。总之,这些数据表明,尺寸标记的优选末端位点的位置与核小体结构密切相关。因此,血浆dna末端位点的位置与核小体结构有关。正好在开放染色质区域之后的第一核小体之后的高峰是由于开放染色质区域周围的两个核小体比附近的核小体更严格地良好定相,这使得优选末端在它们的接头中更可预测(即峰更高)。[0181]为了以全基因组方式进一步验证尺寸标记的优选末端位点和核小体结构的关系,我们从snyder等人(24)下载了注释的“核小体轨迹”,其含有约13m核小体中心(即具有最大核小体保护的基因座)的位置,这是利用计算方法对所有组织推导出来的。对于sets和setl优选末端位点,我们将每个优选末端位点与其最近的核小体中心相关联。然后,我们描绘了优选末端位点到核小体中心的距离的分布。[0182]图18a显示了根据本公开的实施方案,妊娠血浆dna中的尺寸标记的优选末端位点相对于核小体结构的分布。横轴是相对于核小体中心的基因组位置,纵轴是两类尺寸标记的优选末端的归一化末端计数,其中每一组值分别使用它们各自的尺寸优选末端位点的总数进行归一化。[0183]红色剪刀1805和蓝色剪刀1810分别表示将产生sets和setl优选末端位点的切割事件。如图18a所示,sets和setl优选末端位点分别在±73bp和±95bp处显示出主峰,其与基因组中包裹核小体核心的dna的尺寸和核小体间隔模式相匹配。straver等人(23)使用另一种计算推导的核小体轨迹进行注释显示了类似的结果。[0184]图18b显示了根据本公开的实施方案,尺寸标记的优选末端位点相对于由straver等人(23)预测的核小体中心的分布。在x-轴上绘制的比对的核小体位置是相对于核小体中心。数据与图16一致,证明了sets优选末端位点位于核小体核心内,而setl优选末端位点位于接头区。图18b与图18a的不同之处在于,使用来自独立组的另一核小体位置来确认图18a中的结果。[0185]此外,我们还研究了健康受试者中所有常染色体的片段末端。[0186]图19显示了根据本公开的实施方案,在健康的非妊娠受试者中短和长dna分子的常染色体片段末端相对于核小体结构的分布。红色剪刀1905和蓝色剪刀1910分别代表将产生短片段和长片段的切割事件。在x-轴上绘制的比对的核小体位置是相对于核小体中心(23)。[0187]归一化的末端计数是在特定位置终止的dna片段的数目,例如短dna片段1920的数目和长dna片段1930的数目,除以对应尺寸类别的总读取数目。在73bp处出现短dna的峰,在95bp处出现长dna的峰。短dna片段对应于60-155个碱基,长dna片段对应于170-250个碱基。[0188]如图19所示,短dna分子显示出与sets优选末端相似的分布,长dna分子显示出与setl优选末端相似的分布。因此数据表明,在健康受试者中,短dna分子大部分在核小体核心内切割,而长dna分子大部分在接头区内切割。b.胎儿和母体特异性末端位点的特征[0189]考虑到从胎儿和母体dna的混合物中挖掘出sets和setl优选末端位点,我们进一步研究了我们以前的研究中(21)胎儿和母体特异性优选末端位点的核小体定位。这些优选末端位点是从携带胎儿特异性和母体特异性snp等位基因的母体血浆中的dna分子挖掘的。因此,进行胎儿特异性,母体特异性血浆dna末端位点和chry片段末端位点的分析。[0190]图20a显示了核小体结构的图示。图20b显示了核小体结构中胎儿和母体特异性的优选末端位点的分布。图20c显示了妊娠病例和健康男性受试者的chry片段末端在核小体结构中的分布。图20d显示了在妊娠情况下短和长dna分子的chry片段末端在核小体结构中的分布。图20e显示了健康受试者中短和长dna分子的chry片段末端在核小体结构中的分布。[0191]在x-轴上绘制的比对的核小体位置是相对于核小体中心(23)。纵轴是归一化的末端计数。每幅图显示两组数据,其为每个数据集提供归一化的终止或读取计数。[0192]如图20b所示,胎儿特异性优选末端位点主要位于核小体核心内,而母体特异性末端位点主要位于接头区内。使用胎儿和母体特异性snp位点在先前的研究中挖掘这些胎儿和母体特异性优选末端(55)。这类似于主要位于核小体核心内的短优选末端位点(如图18a所示)和位于接头区中的长优选末端位点。归一化的末端计数对应于位置的数目除以给定组的总数目。因此,这两个组(胎儿优选的和母亲优选的)被分别归一化。[0193]在携带男性胎儿的孕妇的血浆中,chry读取是胎儿来源的。另一方面,在健康男性受试者中,chry读取主要来源于造血系统。在携带男性胎儿的孕妇的血浆和健康男性的血浆中研究所有chry读取的末端位点。[0194]图20c显示了整个末端位点分布。归一化的末端计数对应于样品中在相对于核小体中心的位置终止的无细胞dna片段的数目,归一化是基于样品中分析的dna片段的总数。与从图20b得到的观察结果相似,妊娠样品中的chry分子显示位于核小体核心内的更多末端位点,而健康男性受试者的血浆中的chry分子显示超出核小体核心的更多末端位点。[0195]我们进一步将孕妇和健康男性受试者的chry读取分成短和长类别。[0196]图20d和20e分别显示妊娠病例和健康受试者的末端位点的分布。有趣的是,妊娠和非妊娠样品中的短dna分子显示出其末端位点的相似的核小体定位。这一观察结果表明类似的机制在产生这种短dna分子中起作用的可能性。类似地,妊娠和非妊娠样品中的长dna分子也显示出其末端位点的相似的核小体定位,因此可能在其产生中共有相似的机制。另一方面,产生短和长dna分子的偏好似乎在胎儿和母体来源的dna中不同。[0197]总之,在妊娠的情况下,胎儿dna经常在核小体核心内被切割(即,sets优选末端位点),并且母体dna大部分在接头区内被切割(即,setl优选末端位点)。c.胎盘和造血细胞中的核小体可及性[0198]我们想知道为什么胎儿dna经常在核小体核心内被切割。在体细胞组织中,内切核酸酶切割核小体核心内的dna比切割接头区更困难,因为核小体核心内的dna与组蛋白结合(34)。因此,我们假设胎盘细胞与体细胞组织不同,因为核小体核心内的dna更易接近,因此更容易被切割。[0199]为了检验这一假说,对两个胎盘组织样品(一个合胞体滋养层样品和一个细胞滋养层样品)和两个母体血沉棕黄层样品进行了atac-seq(使用测序对转座酶可及的染色质的测定)实验(35),该实验已经用于探索核小体可及性(36)。atac-seq实验利用切割无核小体dna的转座酶来研究开放染色质区域和附近的核小体定位(35)。在先前对体细胞组织进行的atac-seq实验(35,37,38)中的dna插入片段尺寸模式显示出约200bp的强周期性模式。这种模式表明开放染色质区域被200bp的区域分开并且可能与完整的核小体结合(35)。在图21a和21b中显示了我们的atac-seq实验的插入片段尺寸分布。[0200]图21a和21b显示了来自(a)血沉棕黄层样品和(b)胎盘组织的atac-seq数据的片段尺寸分布。测量转座酶切割产生的dna片段的尺寸,然后确定频率直方图。对于图21a和21b中的每一个标记染色质结构的不同部分。[0201]在血沉棕黄层样品中,转座酶主要切割非核小体结合的dna(例如,接头区)。相反,转座酶能够在胎盘组织中的核小体内切割,表明胎盘组织中的核小体包装不如血沉棕黄层样品中的紧密。蓝色和红色剪刀分别指示血沉棕黄层样品和胎盘组织中可能的切割事件。[0202]血沉棕黄层样品(图21a)的插入片段尺寸分布类似于先前研究中观察到的那些(35,37,38)。尺寸概况中在~200和~400bp处的峰是由整数倍的核小体保护的dna(37),这表明转座酶主要切割血沉棕黄层样品中的非核小体结合的dna(例如,接头区)。另一方面,胎盘组织样品显示出显著改变的尺寸分布,因为在200bp附近的峰不存在(图21b)。相反,胎盘样品的atac-seq插入片段分布显示短得多的dna分布,表明转座酶能够在核小体中切割,从而表明胎盘组织中的核小体包装不如血沉棕黄层样品中的紧密。结果,数据显示胎盘dna与比血沉棕黄层dna更易接近的染色质相关联。vi.使用尺寸标记的终止位置的技术[0203]如上所述,各实施方案可以使用短的优选终止位置来确定来自与短的无细胞dna片段相关的特定组织类型(例如,肿瘤,移植物,或胎儿组织)的dna片段的比例贡献。各实施方案还可以确定对于第一组织类型是否存在序列失衡。第一组织类型(例如,肿瘤、移植物或胎儿组织)可基于特定受试者来鉴定。例如,如果受试者先前患有肝癌,则可进行筛查以检查肝癌是否已经重新开始,这将导致来自肿瘤组织的比例贡献的增加。作为另一个实例,如果受试者是妊娠的女性,则第一组织类型可以是胎儿组织。这种选择标准适用于本文所述的其它方法。a.尺寸标记的优选末端的示例性结果概述[0204]我们对血浆dna中的尺寸概况和优选dna末端位点进行了综合分析。与使用基因型信息推断胎儿和母体特异性优选末端位点相比,在此描述的尺寸标记的方法允许我们挖掘尺寸优选的末端位点,这使得能够改进对血浆dna中胎儿dna分数的估计。如图4a和4b所示,为了估计胎儿dna分数,这种尺寸标记的优选末端位点也显示出比单独使用尺寸概况(17)更好的性能。此外,我们显示覆盖尺寸标记的优选末端位点的读取在21三体的非侵入性产前测试中提供了比使用随机读取更好的性能(图5b)。这些数据为开发特异性富集具有尺寸标记的优选末端位点的血浆dna分子的靶向方法开辟了可能。这种富集方法将潜在地降低非侵入性胎儿非整倍性检测的测序深度要求。[0205]此外,我们将尺寸标记的优选末端位点在核小体结构的背景中的位置关联起来,例如,如图17a所示。我们发现,sets优选末端位点位于核小体核心内,而setl优选末端位点位于接头区内。有趣的是,我们发现,对于所有被研究的孕妇和健康非妊娠受试者,覆盖sets优选末端位点的读取比覆盖setl优选末端位点的读取短,如图2、3、6和7a中所示。这一观察结果表明,sets和setl优选末端位点与短的和长的血浆dna分子相关,而与它们的来源组织无关,因为该相关也存在于健康的非妊娠受试者中。[0206]对孕妇血浆中chry读取的进一步分析显示一致的结果。即使胎儿dna在母体血浆中的相对短小在2004年首次报道(14),对这种现象的机理解释仍未解决。这里,我们已经提出了胎盘组织中的核小体可及性高于母体体细胞组织(例如血细胞)的理论,从而允许内切核酸酶在细胞死亡过程(例如细胞凋亡)期间在核小体核心内切割。我们的atac-seq实验表明,与血细胞相比,胎盘细胞中的转座酶确实更容易接近核小体核心,如图21a和21b所示。尽管这种可及性的分子基础仍然不清楚,我们提出dna甲基化可能是一个起作用的因素。在人基因组中,dna甲基化概况在核小体结合的dna中显示出10bp的周期性,这与血浆dna的尺寸模式一致(39)。[0207]事实上,我们和其他人已经证明血浆dna的片段尺寸与dna甲基化水平正相关(40,41)。此外,在妊娠期间,胎盘基因组的dna甲基化逐渐增加,并且母体血浆中胎儿来源的dna的片段尺寸也随孕龄而增加(42)。所有这些研究表明dna甲基化可能通过改变染色质可及性而影响片段化过程。与体细胞组织相比,已知胎盘组织表现出全基因组的低甲基化(43)。先前的研究已经表明dna甲基化可以诱导dna在伴随的组蛋白(44)周围的更紧密的包裹,并且增加核小体的压缩,刚性和稳定性(45,46)。此外,dna甲基化还可以调节组蛋白修饰以及异染色质形成(47,48),这与核小体展开,解体和稳定性有关(49)。所有这些研究表明,胎盘组织中较高的核小体可及性可能与其低甲基化有关。[0208]尽管我们使用循环的无细胞胎儿dna和来自胎盘组织的dna来获得对胎儿dna片段化的机理认识,但该概念可适用于非胎儿来源的无细胞dna。非妊娠个体的血浆中短和长dna分子的优选末端位点显示出与核小体结构相同的定位模式,例如,如图20d和20e所示。这些数据表明,类似的一组机制可能有助于将短或长的dna分子释放到妊娠个体和非妊娠个体的血浆中。然而,如图7b所示,在妊娠的样品中,短dna分子与长dna分子的比值高于来自非妊娠个体的血浆中的比值。此外,癌症患者和孕妇的血浆dna概况之间存在显著的相似性。因此,血浆中的肿瘤来源的dna分子较短(28),并且肿瘤基因组也表现出全基因组的低甲基化(50,51)。因此,我们认为肿瘤来源的dna的短小可能是由于类似的机制(52)。因此,如本文所述,尺寸标记的末端位点可用于非侵入性癌症测试。[0209]我们已经在挖掘无细胞dna的优选末端位点中并入了尺寸特征,并证明了这种尺寸标记的位点在非侵入性产前和癌症测试中的用途。我们进一步表明,优选末端与核小体结构高度相关,从而揭示了对母体血浆中无细胞dna产生机制及胎儿dna相对短小的机理认识。[0210]此外,我们使用短的尺寸和片段末端特征来富集临床相关的dna分子。这里,实施方案使用这些特征来鉴定相关的无细胞dna分子的子集。对于测试样品来说,不需要宽的和深的测序,并且宽的和深的测序可能只需要从历史样品中鉴定这些特征。用于临床相关dna(例如胎儿,肿瘤和移植物)的这种富集的样品可用于以更高的准确性检测序列失衡。b.从特定组织类型确定dna的分数[0211]图22显示了在短标记的终止位置上终止的无细胞dna分子的相对丰度(例如短/长)与混合物中组织a对dna的比例贡献(其通过分析来自组织a的两个或更多个具有已知的dna比例浓度的校准样品确定)之间的关系。在所示的实例中,分析了具有x1和x2的组织a的比例贡献的两个样品。将两个样品的相对丰度值分别确定为y1和y2。相对丰度与a的比例贡献之间的关系可以基于x1,x2,y1和y2的值来确定。本文描述了在短标记的终止位置终止的无细胞dna分子的相对丰度的各种实例。[0212]值y1和y2是校准值的实例。数据点(x1,y1)和(x2,y2)是校准数据点的实例。可以将校准数据点拟合到函数以获得校准曲线(例如,1010,其可以是线性的)。当测量新样品的新的相对丰度时,可以将新的相对丰度与校准值中的至少一个进行比较,以确定新样品的比例贡献的分类。可以以各种方式进行与校准值的比较。例如,校准曲线可用于找到对应于新的相对丰度的比例贡献x。作为另一个实例,可以将新的相对丰度与第一校准数据点的校准值y1进行比较,以确定新的样品是作为大于还是小于x1的比例贡献。[0213]在其它实施方案中,可以类似地分析含有多于两种类型组织的混合物中的组织a的比例贡献,只要其它组织的相对丰度相对恒定即可。这种方法在实际中可用于分析不同的临床情况,例如但不限于癌症检测,移植监测,创伤监测,感染和产前诊断。[0214]对于胎儿分析,目标可以是提供比例贡献的定量值或确认存在最小百分比的胎儿dna。例如,该方法可用于测定母体血浆中的胎儿dna浓度。在母体血浆中,携带胎儿基因型的dna分子通常来源于胎盘。[0215]对于癌症,可能需要其它分类。例如,可以测定短优选位置处的相对丰度,并与正常健康受试者进行比较。通过与类似于图22的校准曲线进行比较,可以确定特定组织(例如胎儿,肿瘤或移植物)的贡献。可以将测试病例的相对丰度值与健康受试者中肝脏的贡献范围进行比较。[0216]类似地,通过这种方法可以确定移植器官在已经接受器官移植的患者中的贡献。在先前的研究中,显示排斥患者将导致dna从移植器官释放增加,导致血浆中移植器官dna浓度升高。对移植器官相对丰度的分析将是检测和监测器官排斥的有用方法。用于这种分析的区域可以根据移植的器官而变化。[0217]图23是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法2003的流程。生物样品包括来自包括第一组织类型的多种组织类型的无细胞dna分子的混合物。与这里描述的其它方法一样,方法2300可以使用计算机系统。第一组织类型的实例包括胎儿组织,移植组织和肿瘤组织。[0218]在框2310,鉴定第一组基因组位置,在这些位置处,对于含有第一组织类型的样品,短无细胞dna分子的末端以高于第一阈值的第一比率出现。短无细胞dna可具有指定的第一尺寸,例如60-155个碱基,本文所述的其它范围,或比长无细胞dna片段小的其它范围。范围不必是连续的,例如60-120和125-155。作为实例,长dna片段可以是170-250个碱基和本文所述的其它范围。可以在至少一个另外的样品(例如,在校准样品中)中确定较高的比率。关于框2310的进一步细节可以在上面的ii.b部分和本公开的别处中找到。[0219]在一些实施方案中,鉴定第一组基因组位置可以包括分析来自至少一个另外的样品的第二多个无细胞dna分子以鉴定第二多个无细胞dna分子的终止位置。已知至少一个另外的样品包括第一组织类型并且具有与生物样品相同的样品类型。例如,另外的样品可以来自妊娠的女性,具有移植器官的受试者,或具有肿瘤的受试者。对于多个基因组窗中的每个基因组窗,可以计算在基因组窗上终止的第二多个无细胞dna分子的相应数目,并将其与参考值进行比较,以确定在基因组窗内的一个或多个基因组位置上终止的无细胞dna分子的比率是否高于阈值。[0220]在框2320,分析来自受试者的生物样品的第一多个无细胞dna分子。无细胞dna分子的分析可包括确定参考基因组中对应于无细胞dna分子的至少一个末端的基因组位置(终止位置)。因此,可以确定两个终止位置,或仅确定无细胞dna分子的一个终止位置。[0221]在一些实施方案中,分析第一多个无细胞dna分子可包括对第一多个无细胞dna分子进行测序以获得序列读取并将序列读取与参考基因组比对以确定第一多个无细胞dna分子的基因组位置。在其它实施方案中,分析第一多个无细胞dna分子可以包括在第一组基因组位置的第一多个无细胞dna分子的杂交捕获或扩增。[0222]终止位置可以以多种方式确定,如本文所述。例如,可以对无细胞dna分子进行测序以获得序列读取,并且可以将序列读取映射(比对)至参考基因组。如果生物体是人,则参考基因组将是可能来自特定亚群的参考人基因组。作为另一个实例,可以用不同的探针(例如,在pcr或其它扩增之后)分析无细胞dna分子,其中每种探针对应于基因组位置,其可以覆盖至少一个基因组区域。[0223]可以分析统计学上显著数目的无细胞dna分子,以便提供来自第一组织类型的比例贡献的精确测定。在一些实施方案中,分析至少1,000个无细胞dna分子。在其它实施方案中,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个无细胞dna分子或更多。作为另一个实例,可以产生至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个序列读取。[0224]在框2330,确定第一数目的第一多个无细胞dna分子在多个窗之一内终止。在方框2320中,可以基于对第一多个无细胞dna分子的分析来进行测定。例如,无细胞dna分子末端的基因组位置可以从分析(例如,特定探针的比对或使用)中获知。每个窗包括第一组基因组位置中的至少一个。如iia部分所述,第一组基因组位置可以从初始组中鉴定,然后扩展到包括初始组周围的窗。因此,一组短的优选终止位置可以包括扩展的终止位置sets。作为实例,窗的宽度可以是1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、15bp、20bp、25bp和30bp。窗可以具有或可以不具有所有相同的宽度。提及bp和碱基可被认为是宽度或长度的等同单位。[0225]在框2340,计算在多个窗之一内终止的第一多个无细胞dna分子的相对丰度。相对丰度可以通过使用第二数目的无细胞dna分子将第一数目的第一多个无细胞dna分子归一化来确定。第二数目的无细胞dna分子可包括在包括第一组基因组位置的多个窗之外的第二组基因组位置终止的无细胞dna分子。作为实例,相对丰度可以包括第一数目和第二数目的比值。[0226]在多个实施方案中,第二组基因组位置可以是长的无细胞dna片段优选的终止位置或在生物样品中测定的任何终止位置。第二组基因组位置可以使得长的无细胞dna分子的末端在至少一个另外的样品中以高于阈值的第二比率出现。长的无细胞dna将具有大于第一尺寸的第二尺寸。第一尺寸可以具有第一尺寸范围,第二尺寸可以具有第二尺寸范围。第一尺寸范围可以小于第二尺寸范围,在于第一尺寸范围的第一最大值小于第二尺寸范围的第二最大值。如本文所述,第一尺寸范围可以与第二尺寸范围重叠。在另一个实施方式中,第二组基因组位置可以包括对应于第一多个无细胞dna分子中的至少一个的末端的所有基因组位置,从而包括可能以随机方式采样的多种基因组位置。[0227]相对丰度值的另一个实例是在基因组窗上终止的无细胞dna分子的比例,例如作为在优选终止位置上终止的测序dna片段的比例来测量。因此,第二组基因组位置可以包括对应于第一多个无细胞dna分子中的至少一个的末端的所有基因组位置。在另一个实例中,第二组基因组位置可以对应于这样的窗,其大于用于定义第一组基因组位置的窗,从而包括不在第一组中的另外的基因组位置。可以调整两组窗的宽度以获得所需的性能。作为实例,第二组窗的宽度可以是20bp、25bp、30bp、40bp、50bp、60bp、70bp、80bp、100bp、120bp、140bp、160bp、180bp和200bp。[0228]在框2350,通过将相对丰度与从一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分类,所述一个或多个校准样品的第一组织类型的比例贡献是已知的。在图4a和4b中显示了胎儿组织作为第一组织类型的实例,并且在图10和11中显示了肿瘤dna的实例。作为一个实例,比例贡献的分类可以对应于高于指定百分比的范围。作为另一个实例,分类可以对应于指定精度范围内的特定百分比或指定精度。作为进一步的实例,分类可以是对应于范围的文本分类,诸如低,中和高。[0229]如上所述,与校准值的比较可以通过已经使用校准样品中测量的校准数据点确定的校准函数进行,所述校准样品的比例贡献通过其它技术测量,例如使用组织特异性标志物(例如,用于胎儿,移植物或肿瘤组织的),例如组织特异性等位基因或组织特异性表观遗传标志物,例如在特定组织的特定部位相对于其它组织的低甲基化或高甲基化。因此,将相对丰度与一个或多个校准值进行比较可以使用与校准点拟合的校准函数,所述校准点包括在多个校准样品中测量的第一组织类型的比例贡献和在多个校准样品中确定的相应相对丰度。[0230]当第一组织类型是肿瘤时,分类可以选自:受试者中的肿瘤组织的量,受试者中的肿瘤尺寸,受试者中的肿瘤阶段,受试者中的肿瘤负荷,和受试者中的肿瘤转移的存在。[0231]对于癌症,如果比例贡献高,则可以进行进一步的动作,例如受试者的治疗干预或成像(例如,如果第一组织类型对应于肿瘤)。例如,调查可以使用受试者(整个受试者或身体的特定部分(例如胸腔或腹部),或具体地候选器官)的成像模态,例如计算机断层摄影(ct)扫描或磁共振成像(mri),以确认或确定受试者中肿瘤的存在。如果肿瘤的存在被证实,则可以进行治疗,例如,手术(通过刀或通过放射)或化疗。[0232]可以根据确定的癌症水平,鉴定的突变和/或来源的组织提供治疗。例如,所鉴定的突变(例如,用于多态性实施)可以用特定的药物或化疗靶向。来源组织可用于指导手术或任何其它形式的治疗。并且,癌症的水平可以用于确定用任何类型的治疗有多大侵略性,这也可以基于癌症的水平来确定。c.确定序列失衡[0233]图24是根据本公开的实施方案,分析生物学样品以确定第一组织类型是否在无细胞dna分子的混合物的染色体区域中显示序列失衡的方法2400的流程。序列失衡可涉及染色体区域中的各种测量,例如非整倍性,扩增/缺失,或在区域中的基因座处对第一组织类型进行基因分型分析。例如,第一组织可以具有与多种组织类型中的其它组织类型不同的基因型。染色体区域可以是完整的染色体。第一组织类型的实例包括胎儿组织和肿瘤组织。[0234]在框2410,鉴定第一组基因组位置,在该位置,对于含有第一组织类型的样品,短无细胞dna分子的末端以高于第一阈值的第一比率出现。短的无细胞dna分子可以具有第一尺寸,其可以是一个或多个范围。框2410可以以与图23的框2310相似的方式进行。[0235]在框2420,分析来自受试者的生物样品的第一多个无细胞dna分子。分析无细胞dna分子包括确定参考基因组中对应于无细胞dna分子的至少一个末端的基因组位置。框2420可以以与图23的框2320相似的方式进行。[0236]在框2430,基于对第一多个无细胞dna分子的分析来鉴定在多个窗之一内终止的无细胞dna分子的组。每个窗包括基因组位置组中的至少一个,并且位于染色体区域中。通过选择在短dna片段优选的这组基因组位置上终止的特定的无细胞dna分子,这组无细胞dna分子可以有效地富集用于第一组织类型,例如肿瘤dna或胎儿dna。此外,可以扩增或捕获覆盖或在基因组位置组终止的无细胞混合物中的dna片段,以提供进一步的富集。[0237]框2430可以以与图23的框2330相似的方式进行,例如,关于在基因组位置组中的一个处终止的dna分子的鉴定。通过在染色体区域内具有窗,该组无细胞dna分子可以作为该染色体区域的代表性集合。因此,这组无细胞dna分子(针对第一种组织类型而富集)可以使用现有技术进行分析以用于非侵入性分析。[0238]在多个实施方案中,可以为特定的单倍型选择组。在多个窗之一内终止的另一组无细胞dna分子可以对应于另一个单倍型。或者,该组的一个亚组可以对应于一个单倍型,而该组的另一个亚组可以对应于另一个单倍型。对应于单倍型的dna分子可以基于与特定单倍型的特定等位基因匹配的dna分子的等位基因(例如,通过测序或探针确定)来确定。方法2400的后面的框可以分析这两个组以比较这两个单倍型的特性,例如从而确定序列失衡。[0239]在框2440,确定无细胞dna分子的组的值。可以以各种方式确定该值。例如,组中的无细胞dna分子的数目可以例如如美国专利公开号2009/0087847、2009/0029377、2011/010553、2013/0040824和2016/0201142中所述来确定。作为另一个实例,该值可以是无细胞dna分子的组的尺寸分布的统计值,例如,如美国专利公开号2011/0276277、2013/0040824和2016/0201142中所述,其全部内容通过引用整体并入本文。作为另一个实例,该值可以是无细胞dna分子的组的甲基化密度,例如,在被这些无细胞dna分子覆盖的cpg位点的甲基化密度。因此,在多个实施方案中,无细胞dna分子的组的值可以是无细胞dna分子的组的量,无细胞dna分子的组的尺寸分布的统计值,或无细胞dna分子的组的甲基化水平。关于使用甲基化检测序列失衡的进一步细节可在pct公开wo2017/012544中找到。[0240]无细胞dna分子的组的值可以被归一化,例如,以解释不同样品中dna分子的不同数目。例如,组的值可以通过来自一个或多个参考区域的另一组无细胞dna分子的值或样品中无细胞dna分子的总数进行归一化(例如除以)。作为另一个实例,可以分析相同数目的无细胞dna分子,这是一种通过样品中无细胞dna分子的总数进行归一化的类型。[0241]在框2450,基于该值与参考值的比较来确定受试者染色体区域内,第一组织类型中是否存在序列失衡的分类。参考值可以以各种方式确定,例如,从健康受试者,从患有癌症或妊娠的受试者,从样品中没有失衡的其它区域确定的一个或多个值,或从染色体区域中的另一个单倍型确定(例如,以确定基因型是什么)。基因型可以通过分析在一个基因座处的不同等位基因或单倍型的读取的不平衡来确定,例如,如部分iii.c所述。比较可以包括确定所述值是否在统计学上不同于参考值(例如,超过截止值,例如从群体确定的特定数目的标准偏差)。[0242]作为一个实例,可以将在第一染色体区域(待测试的临床相关区域)中的第一窗之一终止的第一数目的无细胞dna分子与在一个或多个参考染色体区域中的第二窗之一终止的第二数目的无细胞dna分子进行比较,其中第一和第二窗包括基因组位置组中的至少一个。这种比较可以包括使用第一目的和第二数目来确定分离值(例如,差值或比率),其中可以将分离值与参考值进行比较以检测序列失衡。类似地,可以确定第一和第二单倍型的第一和第二数目。[0243]作为另一个实例,可以确定无细胞dna分子的组的尺寸分布。可以确定尺寸分布的统计值,例如平均或中值尺寸,或短dna分子比长dna分子的量。可以确定染色体区域的第一统计值和一个或多个参考染色体区域的尺寸分布的第二统计值之间的分离值,其中可以将分离值与参考值进行比较以检测序列失衡。类似地,可以确定第一和第二单倍型的第一和第二统计值。[0244]作为另一个实例,甲基化水平可以使用无细胞dna分子的组覆盖的多个位点处的甲基化状态(甲基化或非甲基化)来确定。可将该组的甲基化水平与对应于一个或多个参考染色体区域的另一组的另一甲基化水平进行比较。可以确定两个甲基化水平之间的分离值,其中可以将分离值与参考值进行比较以检测序列失衡。类似地,可以确定第一和第二单倍型的两个甲基化水平。在另一个实例中,可以确定区域中的不同位点的多个甲基化水平,并且可以使用如wo2017/012544中的去卷积技术来确定分数贡献。分数贡献将是在框2440中确定的组的值的实例。[0245]因此,对于单倍型分析,可以使用对应于第一单倍型的第一亚组和对应于染色体区域中的第二单倍型的第二亚组来确定组的值。可以确定第一单倍型值和第二单倍型值(上面提供了实例)之间的分离值,并将其与参考值进行比较。[0246]为了在区域之间进行比较(如上所述),可以通过鉴定在多个参考窗之一内终止的无细胞dna分子的参考组来确定参考值,每个参考窗包括基因组位置组中的至少一个,并且位于一个或多个参考染色体区域,其可以已知或假定没有序列失衡(例如扩增或缺失)。然后,可以从无细胞dna分子的参考组确定参考值。参考值可以是与该值相同的类型(例如,量,统计尺寸值或甲基化水平)。然后可以将该值和参考值之间的分离值与截止值进行比较,所述截止值分离存在序列失衡和不存在序列失衡的分类,例如如图5a所示。[0247]例如,当序列失衡是第一组织类型与其它组织类型的不同基因型的结果时(例如,如部分iii.c所述),无细胞dna分子的组的值可以是该组中在一基因座具有第一等位基因的第一数目的无细胞dna分子和在该基因座具有第二等位基因的第二数目的无细胞dna分子之间的相对丰度。当其它组织类型在染色体区域中的基因座处是杂合时,序列失衡的分类可以是第一等位基因过多,这表明第一组织类型对于第一等位基因是纯合的。当其它组织类型在染色体区域中的基因座处是杂合时,分类可以是不存在失衡,这表明第一组织类型对于第一等位基因和第二等位基因是杂合的。[0248]如果序列失衡与癌症(扩增或缺失)相关,则可以确定癌症水平(例如,基于具有序列失衡的多个区域)。然后可提供治疗,例如如本文所述,如方法2300。vii.开放染色质区无定向血浆细胞dna片段化分析[0249]最近的研究已经证实了cfdna分析对敏感癌症筛查的临床可行性(56,57,61)。对于该领域的未来发展,开发用于在阳性液体活检之后定位肿瘤部位的稳健方法将是有益的。利用组织之间dna甲基化模式的差异,我们以前已经证明母体血浆中的循环胎儿来源的dna主要来自胎盘(58)。该工作基于母体血浆中作为胎盘标志物的未甲基化serpinb5序列的检测(58)。最近,一种方法已经被应用于检测来源于脑(78),红系细胞(75),心脏(109)和肝脏(64,77)的cfdna。[0250]我们进一步开发了一种基于dna甲基化的通用方法,用于确定多种组织类型对cfdna池的贡献,这是一种我们命名为“血浆dna组织映射”的方法(102)。该原理也被其它研究者用来预测肿瘤的来源组织(72,79)。这些公开的方法使用全基因组亚硫酸氢盐测序(bs-seq)(80,54,85)。然而,bs-seq的缺点是亚硫酸氢盐转化与输入dna的降解有关(65),并且还引入gc含量变化,这可能导致测序数据中的偏差(89)。[0251]近来的研究表明,cfdna分子除了dna甲基化外,还保留了其核小体来源的特征,这显示在166bp处具有主峰和10bp的周期性的尺寸分布(81)。已经显示cfdna携带非随机的片段化模式,其提供了跨越基因组的表观遗传调节的窗(67)。考虑到跨越基因组的核小体定位与细胞身份高度相关(92),因此这种片段化模式具有追踪回cfdna分子的来源组织的潜力。snyder等人显示血浆dna分子携带核小体足迹(98)。作者进一步构建了“核小体轨迹”,发现核小体间隔模式可用于推断cfdna的组织来源。他们还证明了这种方法在预测癌症患者中的肿瘤来源方面的潜力。在另一个研究中,ulz等人报道了启动子中的血浆dna覆盖可用于预测基因的表达(106)。我们的小组已经证实在cfdna中存在组织特异性优选的终止位点,这在预测母体血浆中的胎儿dna分数中显示出临床实用性(55)。[0252]在本公开中,我们进一步探索了片段化模式的临床潜力,特别是在追踪cfdna分子的来源组织方面。我们首先对已知的良好定位的核小体阵列和开放染色质区域周围的覆盖和cfdna片段末端特征进行了描述。在分析过程中,我们将血浆dna片段末端分成两组,其中考虑了方向信息,即在血浆dna片段相对于参考基因组的上游或下游侧的末端。我们显示在这些区域中,血浆dna表现出特征性片段化模式,包括测序覆盖失衡以及上游和下游片段末端信号之间的差异。然后,我们分析各种组织特异性开放染色质区域中的血浆dna片段化模式,并进一步定量各种临床情况中的片段化模式,以研究推断cfdna的来源组织的可行性,包括预测癌症患者中的肿瘤位置。a.概念框架和命名法[0253]图25a-25f显示了我们的方法的概念框架。图25a显示了基因组中核小体定位的图示。核小体2505用dna2510(黄线)包裹。还显示了dna的其它部分:接头dna2512(棕线),和活性调节元件2514(绿线),它们在开放染色质区域中。还显示了核小体定位的抽象概念和在细胞凋亡期间切割事件(剪刀)的图示。[0254]在真核染色质中,核小体是dna包装的基本单元,其由包裹在组蛋白周围的dna区段组成。核小体通常通过相对较短的接头dna相互连接,除了在活性调节元件(例如,开放染色质区域)中之外,其中核小体被驱逐并且附近的核小体将通过更长的dna节段连接。据信在细胞凋亡后释放了相当大比例的cfdna分子(68,81)。在凋亡dna片段化过程中,提出内切核酸酶优选切割核小体间dna(94,103)。[0255]图25b显示了由凋亡dna片段化产生的cfdna的图示。包裹核小体的dna部分2520被保留,同时接头和开放染色质区域中非常小的dna片段2522被切割成这种小片段(灰线),这种小片段不能被有效测序。结果,当cfdna分子进行测序时,包裹在组蛋白上的dna部分2520被保留。另一方面,源自接头和活性调节元件的dna,由于它们相对不受保护,将被切割成小dna片段2522(灰线),并且可能不能被有效测序(图25c)(69,98,106)。[0256]图25c是测序读取和两个末端的提取的图示。红色末端2530和蓝色末端2532分别代表u(上游)和d(下游)血浆dna末端。dna片段2522没有显示,因为它们没有被测序。因此,cfdna的基因组覆盖在核小体中是高的,而在接头和开放染色质区域中是低的(图25d)。[0257]图25d显示了基因组覆盖。横轴对应于基因组坐标。纵轴对应于覆盖每个坐标(位置)的读取的数目。在这种理想化的描述中,在接头和开放染色质区域中的覆盖是零(或接近零),但是在核小体区域中是大量和均匀的。[0258]图25e显示了相对于基因组坐标的cfdna的u和d片段末端概况。我们利用cfdna片段末端的方向信息,并基于它们与参考基因组的比对来定义那些cfdna片段末端。上游(u)末端2530代表在基因组坐标中具有较低值的末端,而下游(d)末端2532代表在基因组坐标中具有较高值的末端。因此,包裹在核小体上的dna将分别在核小体的上游和下游边界处产生一对u和d末端。[0259]dna的上游末端2530和下游末端2532的示例性位置示于图25e中。上游u信号2550位于上游末端2530的终止位置。下游d信号2552位于下游末端2532的终止位置。u信号2550和d信号2552聚束在一起,显示出一些随机过程,因为不是每个片段都在相同的位置被切割。这种位置窗可以对应于上述用于尺寸优选的终止位置的窗。[0260]可以基于u信号2550和d信号2552来鉴定接头和开放染色质区域。对于接头或开放染色质区域,在它们的上游边界侧有d末端,在它们的下游边界侧有u末端。在这点上,u和d末端信号可用于推断核小体,接头和开放染色质区域的定位(图25f)。[0261]图25f显示了平滑的血浆dna末端信号和推导的核小体定位。这种平滑的末端信号说明了真实的数据,因为dna片段的末端将显示由于切割dna所涉及的随机过程而引起的分布。上游分布2560以图25e中的u信号2550为中心。下游分布2562以图25e中的d信号2552为中心。[0262]在平滑的血浆dna末端信号下鉴定不同的区域。紫色线2575代表核小体。棕色线2572代表接头区。绿色线2574代表开放染色质区域。b.显示差异定相的结果[0263]通过分析基因组的各个部分,例如管家基因的活性启动子,非活性启动子和组织特异性开放染色质区域,测试来自概念框架的假设。1.差异定相血浆dna片段在核小体阵列终止[0264]为了说明在人基因组区域中的上述概念,我们首先检查chr12p11.1,一个已知在几乎所有人类组织类型中具有良好定位的核小体的区域(107,63,98)。为此,我们收集了来自我们以前研究的32名健康非妊娠受试者的血浆dna数据(70),并对该区域的覆盖和片段末端进行了描述。[0265]图26a和26b显示了根据本公开的实施方案,在合并的健康非妊娠受试者的chr12p11.1区域中的血浆dna片段化模式。图26a显示基因组覆盖2605,上游u末端位置2607和下游d末端位置2609的原始信号。x轴是基因组坐标。y轴是基因组覆盖的归一化密度,因此在任何坐标下的平均值是1。基因组覆盖2605对应于与每个基因组比对上了的读取的数目。上游终止位置2607和下游终止位置2609的数据是在这些位置终止的dna片段的数目的归一化计数。由于我们只对不同位置上的末端的相对计数感兴趣,因此在该图中以拟合y轴的方式对原始计数进行归一化。[0266]如图26a所示,血浆dna覆盖2605显示~190bp的强周期性模式,并且具有较高和较低覆盖率的区域分别对应于核小体和接头(98)。u终止位置2607和d终止位置2609显示出类似的周期性模式,并且两者都富集在接头中,即,接头区中的u和d末端比核小体中的u和d末端多。通过将原始信号除以该区域中的平均信号来归一化覆盖信号;将末端信号线性调整以拟合成该图。图26a,26b,26c和26d中覆盖和末端信号之间的这些非通用归一化程序仅用于说明片段化模式的目的。[0267]图26b显示了平滑的信号和推断的核小体定位。然后使用lowess(局部加权回归散点平滑)算法(60)对u和d端信号进行平滑,用于进一步分析。如图26b所示,任何d末端峰(例如2610)与其最近的上游u末端峰(例如2620)之间的距离为~170bp,其大致为核小体的尺寸(101)。任何d末端峰(例如,2610)与其最近的下游u末端峰(例如,2630)之间的距离为~20bp,其大致为接头的尺寸(101)。在该图下方,核小体2640和接头2650显示在对应于该图中的数据的位置。[0268]因此,这些数据与我们的概念框架高度一致(图25a-25f),并且显示出差异定相的血浆dna片段末端确实反映了该区域中的核小体定位。值得注意的是,利用u和d末端的分离,我们能够解析核小体和接头两者的定位,这显示了相对于以前的研究的进展,这些研究主要集中于预测核小体中心的位置(即,具有最大核小体保护的基因座)(63,90,98)。[0269]除了chr12p11.1区域之外,还已知活性启动子周围的核小体被很好地定位(69)。为了探索活性启动子周围的片段化模式,从文献中获得了人类管家基因的列表(62)。[0270]图26c显示了管家基因的活性启动子周围的血浆dna覆盖和末端信号。显示了位于watson链上的管家基因的血浆dna覆盖2660,u终止信号2662和d终止信号2664。x-轴是相对于管家基因的转录起始位点(tss)的基因组坐标。y轴是血浆dna覆盖2660,u终止信号2662和d终止信号2664的归一化密度。tss显示在两组核小体阵列之间的开放染色质区域2670的中心。[0271]位于crick链上的管家基因显示出几乎相同的镜像模式。血浆dna覆盖2660在启动子周围显示“v”形模式。然而,末端概况2662和2664在u和d末端之间显示出强的周期性和相位差异,这与转录起始位点(tss)周围的核小体耗竭区域和附近的良好定位的核小体阵列一致。另外,在tss和+1核小体2680(即,tss下游的第一核小体)之间可以观察到~60bp的距离,这与人中的典型基因结构一致(69)。[0272]此外,我们还从expressionatlas(73)中挖掘出在主要的人体细胞组织中不表达的基因列表,以研究无活性启动子(其中没有这样的核小体耗竭模式)周围的片段化模式。[0273]图26d显示了非活性启动子周围的血浆dna覆盖和末端信号。在无活性启动子周围,发现血浆dna末端均匀分布,并且在这些未表达基因的启动子周围没有显示任何特定的核小体定位模式。因此,特定类型细胞的非表达基因的启动子是无活性的,并且不具有指示开放染色质区域的结构。这些结果与先前对核小体定位的研究(在该研究中,研究了微球菌核酸酶或转座酶消化后的dna片段末端)(96,95)一致。总之,我们的结果表明,差异定相的血浆dna片段末端确实可以告知活性启动子中的核小体定位模式。2.组织特异性开放染色质区域中的差异定相的血浆dna片段末端[0274]已知开放染色质区域是在中心缺乏核小体且侧翼为定相良好的核小体阵列的调节元件(63,95)。因此,我们假设来源于这种区域的cfdna也可能显示出差异定相的片段末端信号。因此,我们首先研究了t细胞和肝脏共有的共同开放染色质区域,考虑到这些组织在各种临床情况下是血浆dna池的重要贡献者。因此,来源于t细胞的dna是从造血系统释放的血浆dna的一个实例(103),造血系统是健康个体血浆dna的主要来源(84)。在健康个体以及肝脏移植受体和肝癌患者中,肝脏是血浆dna的另一个主要来源(83,64,77)。[0275]我们从roadmapepigenomics项目(93)和encode项目(104)获得了t细胞和肝脏的开放染色质数据(参见材料和方法)。我们将t细胞和肝脏共有的开放染色质区域鉴定为共同的开放染色质区域。然后我们对合并的血浆dna数据中的这些区域进行片段化分析。[0276]图27a、27b和27c显示了根据本发明实施方案,合并的健康非妊娠受试者的血浆dna片段化模式。使用上游和下游终止信号以及基因组覆盖分析开放染色质区域中和开放染色质区域附近的dna片段化。[0277]图27a显示了t细胞和肝细胞共有的共同开放染色质区域中的模式(也绘制了推断的核小体定位)。x-轴是相对于共同开放染色质区域的中心的相对位置。y轴是基因组覆盖2705,上游终止信号2707和下游终止信号2709的归一化密度。开放染色质区域2710在上面显示,在每一侧有两个核小体。覆盖和末端信号都通过除以它们相应的总信号进行归一化,然后通过恒定的数字因子1000扩大,使得覆盖和末端信号的平均值均匀地调整到5。将该归一化应用于所有显示开放染色质区域周围的覆盖和末端信号的附图(即,图27至29)。[0278]下游峰与核小体的下游末端一致,上游峰与核小体的上游末端一致。两个峰之间的差异程度表明在两个核小体之间是否存在接头或是否存在开放染色质区域。[0279]如图27a所示,可以观察到血浆dna的特征性片段化模式,包括覆盖失衡和差异定相的片段末端。覆盖失衡由坐标0,即共同的开放染色质区域的中心处的覆盖减少来说明。差异定相的片段末端显示为接头区2716的峰之间的小间隔(例如2712),以及开放染色质区域2710的较大间隔(例如2714)。这些结果是开放染色质区域中心的核小体耗竭区域和相邻的定相良好的核小体的存在的结果。因此,这些结果表明,差异定相的血浆dna片段末端可以告知开放染色质区域中的核小体定位模式。[0280]图27b显示胚胎干细胞(esc)特异性开放染色质区域的模式。作为阴性对照,我们使用相同的数据集来分析对胚胎干细胞(esc)特异的开放染色质区域周围的血浆dna片段化模式。我们推断在健康成年人中没有来自esc的血浆dna。实际上,我们发现在esc特异性开放染色质区域中不能看到核小体定位模式(例如,开放染色质区域中心的核小体耗竭)。[0281]我们进一步假设cfdna仅在开放染色质区域显示片段化模式,在开放染色质区域,相应的组织将dna贡献到血浆中。为了检验这一假说,除了t细胞和肝脏,我们为5个另外的主要人组织(即,胎盘,肺,卵巢,乳房和小肠)挖掘了组织特异性开放染色质区域(参见下面的材料和方法部分)。这些组织的选择是基于数据可用性和以前的知识,即它们将在选定的临床情况下将dna贡献到血浆中。在以前的工作中,研究者已经表明,胎盘、肺、卵巢和乳房来源的dna可以分别在孕妇,肺癌,卵巢癌和乳腺癌患者的血浆中发现(82,58,59,66,88)。此外,结肠dna可以在结肠直肠癌患者的血浆中发现(99)。由于对于结肠组织没有可公开访问的开放染色质数据,我们在本项工作中使用来自小肠的数据来表示胃肠系统并且认为小肠特异性开放染色质区域作为结肠染色质的替代物。此后将这些开放染色质区域称为“肠特异性的”。我们相信我们的决定是正当的,因为小肠和结肠的表观遗传学概况共有许多相似性(93)。[0282]为每种组织类型总共获得~26,000个组织特异性开放染色质区域(范围:7,540-55,537)。组织特异性开放染色质区域可如后面部分所述进行鉴定。然后我们研究了健康个体血浆中这些组织特异性开放染色质区域中的血浆dna片段化模式。[0283]图28a-28f显示了根据本公开实施方案,健康受试者的组织特异性开放染色质区域中的血浆dna片段化模式。每幅图显示对应于一种组织类型的组织特异性开放染色质区域的结果:图28at-细胞;图28b肝脏;图28c胎盘;图28d肺;图28e卵巢;图28f:乳房;图28g肠。x-轴显示相对于开放染色质区域的相应中心的位置。y轴是基因组覆盖,u末端和d末端的归一化密度。[0284]正如所预期的,血浆dna在t-细胞和肝脏特异性开放染色质区域中显示核小体耗竭和定相良好的核小体阵列,而在其它组织特异性开放染色质区域中则不显示。定相良好的核小体阵列可以指基因组中的区域,其中核小体的位置在相同组织类型的几乎所有细胞中是高度可重复的和可预测的。这些结果与在健康个体中造血系统和肝脏是血浆dna的主要贡献者的事实是一致的(84,102,78)。c.血浆dna片段化模式的定量[0285]探讨了开放染色质区域周围血浆dna片段化模式的定量。为了定量组织特异性开放染色质区域周围的血浆dna片段化模式,我们集中在中心处的核小体耗竭信号,因为它是该模式的关键特征之一(69)。在该核小体耗竭信号中,上游(u)和下游(d)末端在远离开放染色质区域的中心的不同方向上在偏移(例如,60bp)处表现出最高的读取密度(图27c)。[0286]图27c是ocf(识别方向的cfdna片段化)值的概念的图示。x-轴是相对于开放染色质区域中心的相对位置。y轴表示上游终止信号2727和下游终止信号2729的归一化密度。该分析集中在开放染色质区域中心的u和d末端,并测量阴影区域2737和2739中的u和d信号2727和2729之间的分离值(例如,差值或比值)作为组织特异性开放染色质区域中的ocf值。[0287]可以看出,d末端峰在左手侧,而u末端峰在右手侧。从图28a-28g和其它图中可以看出,组织类型的存在与上游和下游信号之间的定相差异有关。可以使用关于峰位置差异的信息来测量该定相差异,该关于峰位置差异的信息可以提供用于测量u和d末端的特定基因组位置。这种位置上的差异将导致在一个位置或位置窗(例如,在区域2737中)处出现比下游位置更多的上游末端。例如,在区域2737中,上游峰2747对应于该区域中比d末端信号2757多的u末端。类似地,在区域2739中,下游峰2749对应于该区域中比u末端信号2759多的d末端。考虑到大多数组织特异性开放染色质区域具有相似的尺寸,可以在相对于各种组织的中心对称的位置选择这些区域。[0288]在一些实例中,如下通过在峰周围的两个窗(例如,20bp)中的u和d末端的读取密度的差异定量定相差异:峰是距开放染色质区域的中心的距离,并且仓(bin)是该区域的宽度。如图27c所示,峰距中心60个碱基,宽约10个碱基。[0289]这类参数被称为ocf(识别方向的cfdna片段化)值。在多个实施方案中,可以存在一个或两个项,并且可以使用不同的峰偏移值。在一些实施方式中,我们使用(但不限于)60bp作为峰和10bp作为仓尺寸,用于定量。峰偏移的其它示例值是40、45、50、55、65、70和75bp。窗的其它示例值是2、3、4、5、6、7、8、9、15、20、25和30bp。一个峰可以被鉴定为下游峰,其中预期更多的下游终止位置。另一个峰可以被鉴定为上游峰,其中期望更多的上游终止位置。对于每种情况,分别使用其组织特异性开放染色质区域计算本研究中研究的7种组织类型的ocf值。d.应用[0290]上述结果表明,差异定相的血浆dna片段末端可用于推断cfdna的组织来源。并且,这些结果表明cfdna片段化概况与开放染色质区域中的核小体定位有关。进一步的结果表明,可以使用特定组织特异性开放染色质区域的差异定相的血浆dna片段末端的定量测量来检测该组织类型中的病状。也可以使用除血浆以外的其它无细胞样品。1.差异定相的血浆dna片段末端的定量[0291]为了探索在推断血浆dna池中各种组织的相对贡献的潜力,我们开发了一种新的测量组织特异性开放染色质区域中上游(u)和下游(d)片段末端的差异定相的方法。我们通常将这种策略称为识别方向的cfdna片段化(ocf)分析,其中可以使用各种ocf值。ocf值可以基于在相对于相关开放染色质区域的中心的偏移位置处的u和d末端信号的差异,所述相关开放染色质区域出现在感兴趣的组织中。来自感兴趣组织的dna越多,差异将越大,例如,在一个或多个偏移区域中下游峰2749和u末端信号2759之间的差异。[0292]如图27a所示,对于将dna贡献到血浆中的组织,预期在相应的组织特异性开放染色质区域中心的核小体耗竭区域已经发生了大量的血浆dna片段化。在这样的区域中,u和d末端在距中心~60bp处显示出最高的读取密度(即峰),u和d末端的峰分别位于右手侧和左手侧。在一些实例中,我们测量组织特异性开放染色质区域中的峰(例如,图27c中的阴影区域)周围的20bp窗中的u和d末端信号的差异作为相应组织的ocf值。相反,对于相应的组织没有将dna贡献到血浆中的组织特异性开放染色质区域(例如,图27b中的esc),这种模式将不会被预期。[0293]结果,对于将dna贡献到血浆中的组织,预期相应的组织特异性开放染色质区域的正ocf值。否则,ocf值应该为零或负。当然,ocf值的不同定义可以具有相反的关系(即,如果测试组织存在,则预期负值)。使用正值为指示物的定义,负值可由噪声的末端信号产生,其可与测序偏倚(例如,gc偏倚)相关,当这些区域不具有开放染色质结构时,在这些区域中导致稍微更多的dna。[0294]图30显示了根据本发明的实施方案,健康非妊娠受试者群体中的各种组织之间的血浆dna片段化模式(ocf值)的定量。图31显示了根据本发明的实施方案,健康个体的组织类型的ocf值的表。[0295]在图30和图31中显示了在32名健康个体中7种组织类型的ocf值。所有受试者均显示出t细胞和肝脏的正ocf值;此外,在所有情况下t细胞的ocf值均高于肝脏的ocf值(p<0.001,威尔克森符号秩检验)。其它组织类型的ocf值低得多并且接近于零或低于零。这些结果与以前的数据一致,表明在健康个体中,大部分血浆dna来源于造血系统和肝脏,前者是最主要的来源(84,102)。因此,我们的结果显示了ocf值在测量不同组织对cfdna池的相对贡献中的效用。2.在非侵入性产前测试中的应用[0296]为了证明我们的方法在非侵入性产前测试中的效用,我们从先前的研究中取得了母体血浆dna测序数据(55)。如之前所讨论的,孕妇血浆中的循环胎儿dna主要来源于胎盘(58)。图32a-32d显示了根据本发明的实施方案,血浆dna片段化模式分析在的非侵入性产前测试中的应用。图33显示了根据本发明的实施方案,妊娠受试者的ocf值组织类型的表。[0297]图32a显示了晚孕期妊娠病例中胎盘特异性开放染色质区域中的血浆dna片段化模式。轴与类似的图类似。可以在健康的非妊娠个体中观察到类似于共同的开放染色质区域的强核小体定位模式(图27a)。这些观察结果表明血浆dna片段化模式分析确实可以检测母体血浆中胎盘dna的存在。[0298]我们使用来自26例早孕期妊娠病例的群体的先前公布的数据进一步研究血浆dna片段化模式(55)。在该群体中的每一个病例都携带男性胎儿。因此,可以通过分析与y染色体比对上了的读取来确定血浆dna中的胎儿dna分数。我们分析了胎盘(妊娠病例较高)和t细胞的血浆dna片段化,这在妊娠中应随着母亲百分比的降低而降低。[0299]图32b显示了健康非妊娠受试者和孕妇之间t细胞的ocf值的比较。图32c显示了健康非妊娠受试者和孕妇之间胎盘的ocf值的比较。总计25,223个开放染色质区域用于t细胞,而55,537个用于胎盘。当与来自非妊娠健康个体的结果比较时,在妊娠样品中t细胞的ocf值显著降低,而仅胎盘的ocf值显示显著升高(图32b和32c;p<0.001,曼-惠特尼秩和检验;图33)。只有胎盘的ocf值显示显著升高(图32c;p<0.001,曼-惠特尼秩和检验)。因此,ocf值和胎盘dna之间的相关性表明ocf值可用于测量无细胞样品中的胎儿dna分数。[0300]图32d显示了26位孕妇群体中胎盘的ocf值和胎儿dna分数之间的相关性。观察到胎盘的ocf值和胎儿dna分数之间的强正相关(图32d;r=0.77;p<0.001;皮尔森相关)。值得注意的是,该r值高于通过我们以前的胎儿特异性优选末端位点方法获得的值(其为0.66)(55)。胎儿dna分数是控制非侵入性产前测试性能的最重要的参数之一。因此,这些结果证明了差异定相的血浆dna片段末端在非侵入性产前测试中的潜在效用。3.肝脏移植与肝细胞癌患者[0301]为了研究血浆dna片段化模式分析在预测肝脏组织的贡献中的性能,取得了来自先前报道的14例肝脏移植患者的群题的血浆dna测序结果(64)。对于每一种情况,供体和受体都进行基因分型,从而可以鉴定供体特异性信息snp位点以推断血浆中的供体-dna分数(64)。供体特异性信息snp位点具有对供体而不是受体特异的等位基因。图34显示了根据本发明实施方案,肝脏移植患者中的ocf值组织类型的表。最后一列显示使用供体特异性信息snp位点测定的供体dna分数。肝脏的ocf值与供体dna分数之间存在相关性。[0302]图35a显示了肝脏移植患者中肝脏的ocf值与供体dna分数之间的相关性。当对该数据集进行血浆dna片段化模式分析时,可以观察到肝脏的ocf值与供体dna分数之间的正相关(r=0.74,p=0.0022,皮尔森相关)。[0303]此外,我们还从先前公布的肝细胞癌(hcc)患者群体中取得血浆dna测序数据(70)。对于这些hcc患者,通过拷贝数畸变分析估计血浆dna中的肿瘤dna分数(70),尽管也可以使用其它技术,例如肿瘤特异性等位基因。通过这种分析,74个hcc血浆样品显示出血浆中存在肿瘤dna的证据。值得注意的是,在这些hcc患者中,认为肿瘤来源的cfdna分子起源于肝脏,因为它们仅在肝脏中具有肿瘤(102,64)。[0304]图35b显示了hcc病例中的肿瘤dna分数。图36a-36d显示了根据本公开的实施方案,肝细胞癌患者中的ocf值组织类型的表。观察到肝脏的ocf值与肿瘤dna分数之间的正相关(r=0.36,p=0.0017,皮尔森相关)。[0305]此外,我们根据肿瘤dna分数将hcc患者分成两个亚组:“低肿瘤dna负荷”组包含肿瘤dna负荷低于10%的hcc患者,而“高肿瘤dna负荷”组则包含其余的病例。这种分离是基于肝脏在健康受试者中贡献约10%血浆dna的知识(102)。[0306]图35c显示了健康受试者和hcc病例(根据血浆中的肿瘤dna负荷分为两组)的t细胞的ocf值的比较。如图35c所示,当与健康受试者比较时,对于两个hcc患者组,t细胞的ocf值显著降低(对于低和高肿瘤dna负荷组,分别为p=0.0035和p<0.001,曼-惠特尼秩和检验)。如本文所解释的,当来自其它组织(在这种情况下是肝脏)的贡献发生显著变化时,t细胞的贡献将下降。[0307]图35d显示了健康受试者和hcc病例(根据血浆中的肿瘤dna负荷分为两组)的肝脏的ocf值的比较。图35d中肝脏的ocf值在低肿瘤dna负荷组患者中没有显示统计学差异(p=0.080,曼-惠特尼秩和检验),而在高肿瘤dna负荷组患者中显著升高(p<0.001,曼-惠特尼秩和检验)。总之,这些结果表明本发明的技术在肝脏移植监测和癌症测试中具有应用。4.结肠直肠癌和癌肺患者中的应用[0308]在本研究中新招募了11例结肠直肠癌(crc)患者的群体。对于每种情况,对血浆dna进行亚硫酸氢盐测序(参见材料和方法部分),使得可以使用血浆dna组织映射方法测定结肠贡献。这些结果允许我们探索cfdna片段化模式分析在bs-seq数据中的使用。在这些个体的血浆dna中,我们观察到肠特异性开放染色质区域中的特征性片段化模式,其对应于中心处的核小体耗竭和附近的定向良好的核小体阵列(102)。[0309]图29a显示了根据本公开的实施方案,在一例crc患者的肠特异性开放染色质区域中的血浆dna片段化模式。当存在具有测试的开放染色质区域的组织时,基因组覆盖2905以与图27a、28a和28b中类似的方式显示在开放染色质区域的中心处的减少。此外,u终止信号2907和d终止信号2909显示将导致正ocf值的定相差异。[0310]图37a显示了健康受试者与crc患者之间t细胞的ocf值的比较。图37b显示了健康受试者和crc患者之间肠的ocf值的比较。图39显示了根据本公开的实施方案,结肠直肠癌患者中的ocf值组织类型的表。结肠dna贡献也在图39中提供。[0311]对于crc患者,t细胞的ocf值降低,如当来自另一组织的贡献增加时所预期的。图37b显示了肠开放染色质区域(使用28,456个)的ocf值的相应增加。因此,当与健康受试者比较时,在crc患者中t细胞的ocf值显著降低,而肠的ocf值显著升高(图37a和37b;p<0.001,曼-惠特尼秩和检验)。[0312]图37c显示了crc患者中肠的ocf值与结肠dna分数(通过血浆dna组织映射方法推导)之间的相关性。使用血浆dna组织映射方法测定结肠贡献(102)。可以观察到肠的ocf值和结肠贡献(如使用血浆dna组织映射方法测量的(102))之间的正相关(图37c;r=0.89,p<0.001,皮尔森相关)。[0313]此外,从snyder等人产生的数据集中取得9例肺癌症患者的血浆dna测序数据(98)。我们发现,血浆dna显示特征性片段化,即在这些患者的肺特异性开放染色质区域中,中央核小体耗竭区域(侧翼为有相位良好的核小体阵列)的差异定相的末端特征。[0314]图29b显示了根据本公开的实施方案,在一例肺癌患者的肺特异性开放染色质区域中的血浆dna片段化模式。当存在具有测试的开放染色质区域的组织时,基因组覆盖2955以与图27a、28a和28b中类似的方式显示在开放染色质区域的中心处的减少。此外,u终止信号2957和d终止信号2959显示将导致正ocf值的定相差异。[0315]图37d显示了健康受试者和肺癌患者之间t细胞的ocf值的比较。图37e显示了健康受试者和肺癌患者之间肺ocf值的比较。图38显示了根据本公开的实施方案,肺癌患者中的ocf值组织类型的表。[0316]对于肺癌患者,t细胞的ocf值降低,如当来自另一组织的贡献增加时所预期的。图37e显示了肺开放染色质区域(使用19,701个)的ocf值的相应增加。因此,与健康个体相比,t细胞的ocf值降低,而肺的ocf值升高(对于t细胞和肺,分别为p<0.001和0.025,曼-惠特尼秩和检验)。e.识别方向的技术[0317]如上所述,提供了使用开放染色质区域的识别方向的分析进行核小体定位概况分析的技术,以及通过这种片段化模式分析定量测定血浆dna中各种组织的相对贡献。我们还证明了在非侵入性产前测试,器官移植监测以及癌症测试中使用组织特异性开放染色质区域的识别方向的分析的诊断能力。我们表明血浆dna片段化模式分析在核小体耗竭区域和开放染色质区域周围的定相良好的核小体阵列中具有特征性概况。1.示例性结果识别方向的分析的概述[0318]追踪cfdna的来源组织的能力在液体活检中,特别是在预测癌症患者中的来源肿瘤方面是非常感兴趣的。我们显示,通过定量癌症患者的血浆dna片段化模式,t细胞的ocf值将降低,而肿瘤来源组织的ocf值将增加(例如,图32b、32c、35c、35d、37a、37b、37d和37e)。这些观察结果与以下事实是一致的:在这些患者中,肿瘤组织(和肿瘤周围组织)将dna释放到血浆中,其:(i)将增加来自该癌症的来源组织的贡献,和(ii)将稀释造血系统的贡献。此外,对crc病例的结果(图37c)显示,我们的方法与血浆dna组织映射方法高度一致(102)。[0319]有趣的是注意到在亚硫酸氢盐转化的dna中保持了血浆dna片段化模式。这可能部分地与我们的文库制备方案有关,由此在亚硫酸氢盐处理之前首先将测序适配子连接到血浆dna分子上(85)。一些实施方案可以通过以协同方式使用ocf测量和基于甲基化的组织映射来提供加和值,以进一步增强来源组织分析的性能。这里,我们证明ocf分析是一种在不依赖甲基化分析的情况下提供来源组织信息的方法。这可以节省成本。与亚硫酸氢盐测序(bs-seq)相比,标准dna测序实验更便宜并且涉及更简单的方案。[0320]至于进一步的效率提高,ulz等人已经证明了血浆dna覆盖模式分析在推断基因表达从而揭示癌症患者中肿瘤来源组织方面的潜力(105)。然而,这些作者估计为此目的可能需要血浆中75%的肿瘤dna分数(105),这在大多数临床情况下是难以实现的。相比之下,本发明的技术可用于具有来自感兴趣组织的低得多的dna分数的情况。例如,在crc病例中,当结肠贡献仅为5%时,肠的ocf值高于健康个体的ocf值,如图37a、37b和39中可以看到的。因此,这些结果表明这些技术可用于相对早期的癌症病例,其中血浆中的肿瘤dna负荷可能不高。[0321]实施方案可以与靶向大规模平行测序技术整合(87)以分析血浆dna。由于组织特异性开放染色质区域仅占人基因组的非常小的比例,通过设计杂交探针来捕获这些区域,可以大大降低成本。[0322]实施方案可以包括在确定患者的疾病或病况的水平之后治疗患者的疾病或病况。治疗可以包括任何合适的疗法、药物、化疗、放射或手术,包括在本文提及的参考文献中描述的任何治疗。参考文献中关于治疗的信息通过引用并入本文中。2.确定组织类型的比例贡献[0323]图40是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型的比例贡献的分类的方法4000的流程。生物样品包括来自包括第一组织类型的多个组织类型的无细胞dna分子的混合物。与这里描述的其它方法一样,方法4000可以使用计算机系统。第一组织类型的实例包括胎儿组织,肿瘤组织和来自移植器官的组织。方法4000的各方面可以以与方法2300和2400类似的方式进行。[0324]在框4010,鉴定第一组基因组位置,其与对应于第一组织类型的一个或多个组织特异性开放染色质区域的中心具有指定的距离。组织特异性开放染色质区域可以通过分析第一组织类型的组织样品来鉴定,例如肝脏、t细胞、结肠、卵巢、乳房等。该组基因组位置可以被指定为一个距离范围。作为实例,组织特异性开放染色质区域的数目可以是至少500、1000、2000、5000、10,000、20,000、30,000、40,000、50,000或更多。[0325]作为实例,指定距离可以是离中心的+/-x个碱基对,包括数值范围(窗),如本文所述。因此,指定距离可以包括在中心之前的第一距离范围,并且包括在中心之后的第二距离范围。这种组可以由与中心的偏移和围绕该偏移的窗来定义。偏移的示例值是40、45、50、55、60、65、70和75bp。窗的其它示例值是2、3、4、5、6、7、8、9、10、15、20、25和30bp。范围可以是不对称的或对称的。[0326]在框4020,分析来自受试者的生物样品的第一多个无细胞dna分子。无细胞dna分子的分析可包括确定参考基因组中对应于无细胞dna分子的两个末端的基因组位置(终止位置)。分析还可以包括基于哪个末端具有基因组位置的较低值,例如如参考基因组中所定义的,将一个末端分类为上游末端,将另一个末端分类为下游末端。可使用各种比对/映射程序来确定末端的基因组位置。框4020的各方面可以以与方法2300的框2320类似的方式进行。[0327]在框4030,确定第一数目的第一多个无细胞dna分子在第一组基因组位置之一具有上游末端。基于对第一多个无细胞dna分子的分析进行确定。考虑到第一组位置可以被定义为参考基因组中的特定基因组坐标,一旦dna片段的序列读取被比对,上游末端位置可以与第一组进行比较以确定该末端位置是否落入第一组内。[0328]在框4040,确定第二数目的第一多个无细胞dna分子在第一组基因组位置之一具有下游末端。基于对第一多个无细胞dna分子的分析进行确定。考虑到第一组位置可以被定义为参考基因组中的特定基因组坐标,一旦dna片段的序列读取被比对,下游末端位置可以与第一组进行比较以确定该末端位置是否落入第一组内。[0329]在框4050,使用第一数目和第二数目计算分离值。分离值可以以多种方式确定,并且可以包括比值和/或差值。分离值可以由多个贡献组成。在使用两个范围的实施方案中(例如,在对应于第一组织类型的组织特异性开放染色质区域的中心的任一侧),分离值可以具有对于第一范围以第一方式(例如,第一公式)确定的分离值的第一贡献,和对于第二范围以第二方式(例如,第二公式)确定的分离值的第二贡献。[0330]在一个实例中,分离值可以是ocf值,例如,如由以下定义的:其中d是数字下游,u是数字上游。峰位置可以对应于与中心的偏移,并且仓对应于围绕峰的窗尺寸。这样的和可以在每个位置上进行。这样的和可以以任何顺序进行,例如,确定一个峰的d的总数和该峰的u的总数。可以确定围绕每个中心的一个或两个峰的贡献。一个峰可以被鉴定为下游峰,其中期望更多的下游终止位置。另一个峰可以被鉴定为上游峰,其中期望更多的上游终止位置。当使用两个峰时,可以确定和使用两个下游和两个上游数字,例如,如在上式中。作为另一个实例,可以利用用于该位置的指定公式来确定每个位置的分离值,例如,取决于该位置与哪个峰相关联,可以将不同的公式用于该位置。因此,第一组的每个位置可以具有由公式定义的贡献,该公式包括在该位置具有上游末端的第一数目的无细胞dna片段和在该位置具有下游末端的第二数目的无细胞dna片段。[0331]在具体的实施方案中,第一范围比中心小50至70个碱基,第二范围为50至70个碱基,并且其中分离值包括:其中u为第一数目且d为第二数目。[0332]第一数目可以是在第一组中的一个位置(例如,第一范围或第二范围中的特定位置)处的数值u,并且第二数目可以是在相同位置处的数值d。作为另一个实例,第一数目可以是具有在第一范围内的上游末端(例如,对应于上游或下游峰)的无细胞dna的数目的总和,并且第二数目可以是在相同的第一范围内的无细胞dna的数目的总和。可以使用来自每个范围的数目对来确定分离值。例如,可以确定在第二范围内的位置处具有上游末端的第三数目的无细胞dna(例如,以上ocf公式中的第二总和贡献),并且可以确定在第二范围内的位置处具有下游末端的第四数目的无细胞dna。对分离值的第二贡献可以使用第三和第四数目来确定,例如,如上所述。[0333]其它示例分离值可以包括和的比值,而不是差的比值。例如,峰区域中的d末端之和除以峰区域的u末端之和,或两个数目的其它比值,例如分子或分母是在峰区域中具有任一末端的读取的总量)。例如,分离值可以包括第一数目和第二数目的比值。当使用一个以上的峰时,可以为每个峰不同地确定比值(或其它函数)。[0334]在框4060,通过将分离值与从一个或多个校准样品确定的一个或多个校准值进行比较来确定第一组织类型的比例贡献的分类,所述一个或多个校准样品的第一组织类型的比例贡献是已知的。在图32d中显示了胎儿组织作为第一组织类型的实例,在图35a中显示了来自移植的肝器官的供体dna的实例,在图35b中显示了来自肝脏为第一组织类型的肿瘤dna的实例。作为一个实例,比例贡献的分类可以对应于高于指定百分比以上的范围。另一个实例可以对应于癌症的存在以及本文提供的其他实例,例如,对于框2350,以及如本文所述的其他动作,例如治疗。框4060的各方面可以以与框2350相似的方式进行,例如,涉及用于分类的数值以及与校准值的比较,以及稍后的治疗步骤。[0335]图41是根据本公开的实施方案,分析生物样品以确定混合物中第一组织类型是否存在病状的分类的方法4100的流程。生物样品包括来自包括第一组织类型的多个组织类型的无细胞dna分子的混合物。与这里描述的其它方法一样,方法4100可以使用计算机系统。第一组织类型的实例包括肿瘤组织和来自移植器官的组织。方法4100的各方面可以以与方法2300,2400和4100类似的方式进行。[0336]在框4110,鉴定第一组基因组位置,其与对应于第一组织类型的一个或多个组织特异性开放染色质区域的中心具有指定的距离。框4110可以以与图40的框4010类似的方式进行。[0337]在框4120,分析来自受试者的生物样品的第一多个无细胞dna分子。无细胞dna分子的分析可包括确定参考基因组中对应于无细胞dna分子的两个末端的基因组位置(终止位置)。分析还可以包括基于哪个末端具有基因组位置的较低值,例如如参考基因组中所定义的,将一个末端分类为上游末端,将另一个末端分类为下游末端。框4020的各方面可以以与方法2300的框2320类似的方式进行。[0338]在框4130,确定第一数目的第一多个无细胞dna分子在第一组基因组位置之一具有上游末端。框4130可以以与图40的框4030类似的方式进行。[0339]在框4140,确定第二数目的第一多个无细胞dna分子在第一组基因组位置之一具有下游末端。框4140可以以与图40的框4040类似的方式进行。[0340]在框4150,使用第一数目和第二数目计算分离值。框4150可以以与图40的框4050相似的方式进行。[0341]在框4160,基于分离值与参考值的比较来确定受试者的第一组织类型是否存在病状的分类。作为实例,框4160可以使用利用具有已知分类的训练样品确定的参考值,该训练样品的分离值(例如,ocf)已经被测量。图37b和37e提供了训练样品的示例组,其中病状是来自特定组织(即肺)的癌症。因此,病状可以是第一组织类型的癌症。还可以更具体地确定癌症的水平,例如,如图35c或35d所示。[0342]因此,可以根据不具有病状的一个或多个对照样品,和/或根据具有病状的一个或多个对照样品来确定参考值。[0343]病状的另一个实例是移植器官的排斥。如果移植的器官被排斥,来自该器官的dna的浓度分数将增加到异常水平。病状的另一个实例是来自第一组织类型的无细胞dna的异常高的浓度分数。其它示例性病状可以包括自身免疫攻击(例如,损伤肾脏的狼疮性肾炎)、炎性疾病(例如,肝炎)和缺血性组织损伤(例如,心肌梗塞)。受试者的健康状态可以被认为是无病状的分类。样品处理。viii.材料和方法a.样品处理[0344]将外周血收集在含有edta的管中并在4℃以1,600×g离心10分钟。将血浆部分在4℃以16,000×g再离心10分钟以获得无细胞血浆并储存在-80℃。将白细胞和红细胞部分用ack裂解缓冲液(gibco)以1:10的比值在室温下处理5分钟以去除红细胞。将混合物在4℃以300xg离心10分钟。丢弃具有裂解的红细胞的上清液,并用磷酸盐缓冲盐水(gibco)洗涤白细胞团。将白细胞部分在4℃下以300xg再离心10分钟以去除残留红细胞。将约50,000个细胞用于下游atac-seq文库制备。[0345]收集来自胎盘的组织并用磷酸盐缓冲盐水(gibco)洗涤,然后通过medimachine(bdbiosciences)解聚成单细胞溶液。分别用针对cd105的抗体(miltenyibiotec)和针对hai-1的抗体(abcam)处理来自胎盘组织的正选择的合胞体滋养层和细胞滋养层。通过用磷酸盐缓冲盐水(gibco)稀释macsbsa储备溶液(miltenyibiotec),将匀浆的胎盘细胞重悬于80μl的0.5%牛血清白蛋白缓冲液中。为了分离合胞体滋养层,加入20μlcd105微珠(miltenyibiotec),并在4℃下孵育15分钟。在合胞体滋养层结合到抗体包被的珠上之后,通过加入2ml缓冲液洗涤细胞,并在200×g下离心10分钟。将标记的细胞重悬于500μl缓冲液中用于分离步骤。为了分离细胞滋养层,将20μl的hai-1抗体(abcam)和80μl的缓冲液添加到匀浆的胎盘组织中并且在4℃下孵育15分钟。孵育后,添加2ml的缓冲液,通过在200xg下离心10分钟来洗去过量的初级抗体。将细胞重悬于80μl缓冲液中,并加入20μl第二抗小鼠igg微珠(miltenyibiotec),并在4℃下孵育15分钟。与第一抗体类似,加入2ml缓冲液,通过在200xg下离心10分钟来洗去过量的初级抗体。将标记的细胞重悬于500μl缓冲液中用于分离步骤。每个细胞类型的每个样品使用一个ms柱(miltenyibiotec)。在施加标记的细胞之前,我们用500μl缓冲液冲洗柱子。通过将细胞施加到柱中,将标记的细胞附着到柱中的磁珠上,并将未标记的细胞留在流通中。洗涤柱3次,每次用500μl缓冲液。将分选的合胞体滋养层和细胞滋养层洗脱在1ml缓冲液中,并通过血细胞计数器计数,每份样品等分50,000个细胞用于atac-seq。b.atac-seq文库的制备和测序[0346]如(35)所述进行atac-seq。简言之,将50,000个细胞在4℃下以500×g旋转5分钟,然后使用冷裂解缓冲液(10mmtris-hcl,ph7.4(ambion),10mmnacl(ambion),3mmmgcl2(ambion)和0.1%igepalca-630(sigma))进行细胞裂解。将混合物立即在4℃下以500xg离心10分钟。将细胞核重悬于转座酶反应混合物中,所述转座酶反应混合物含有25μl2×td缓冲液、来自nexteradna文库制备试剂盒(illumina)的2.5μl转座酶和22.5μl无核酸酶的水。转座和标记在37℃进行30分钟。在转座后立即用qiagenminelute试剂盒(qiagen)按照制造商的说明书纯化样品。将纯化的dna片段与1xnebnextpcr主混合物(newenglandbiolabs)和1.25μmnexterapcr引物1和2(idt)混合,用于使用以下条件进行pcr扩增:72℃5分钟;98℃30秒;98℃10秒,63℃30秒和72℃1分钟,热循环15个循环。用qiagenpcr清理试剂盒(qiagen)纯化文库。用2100bioanalyzer(agilent)分析文库,并在测序前用kapa文库定量试剂盒(kapabiosystems)定量。在hi-seq2500(illumina)上进行2×75配对末端测序。c.测序数据的比对[0347]在实例中,使用配对末端模式的soap2比对器(53)将配对末端读取映射到参考人基因组(ncbi37/hg19),允许对于每个末端的比对有两个错配。只有两个末端以正确的方向与同一染色体比对上了的,跨越≤600bp的插入片段尺寸的配对末端读取用于下游分析。可以使用其它比对技术(软件),例如blast、blat、bwa、bowtie、star等。如果整个dna片段被测序,则不需要配对末端模式。此外,错配的数目可以根据期望的精度而变化。d.血浆dna数据收集和可用性[0348]健康个体、hcc患者和妊娠病例的血浆数据从欧洲基因组-表型档案(ega;登录号egas00001001024和egas00001001882)取得(70,55)。我们以前工作中描述的肝脏移植患者的血浆dna测序数据(64)已经保藏在ega(登录号egas00001003116)。从基因表达omnibus(geo;登录号gse71378)获得肺癌病例的血浆dna测序数据(98)。[0349]在本研究中新招募了结肠直肠癌患者。将外周血样品收集到含有edta的管中。将血液样品在4℃以1,600×g离心10分钟。收集血浆部分,并在4℃以16,000×g再离心10分钟以去除血细胞。亚硫酸氢盐转化如之前所述进行(85)。使用kapahtp文库制备试剂盒(kapabiosystems)根据制造商的说明书(56)制备dna文库,并在hiseq2000系统(illumina)上以75×2(配对末端模式)循环模式用truseqsbs试剂盒v3(illumina)测序。如之前所述(71,102)进行bs-seq数据的分析,包括质量控制,序列比对,甲基化状态测定和结肠贡献推断。这些样品的中值测序深度为3.2倍(范围:0.6-6.4倍;图39)单倍体人基因组覆盖。e.组织特异性开放染色质区域[0350]开放染色质区域是基因组中重要的调节元件,并且是高度组织特异性的。活性启动子是一种类型的开放染色质区域。其它类型包括增强子和绝缘子。开放染色质区域可以使用感兴趣的组织的公共dnase-seq数据来确定。dnase-seq是使用dnasei内切核酸酶处理细胞基因组dna的实验程序,其优选切割非核小体结合的dna。结果,开放染色质区域中的dna被切割并收集用于测序。因此,我们可以将这些dna坐标鉴定为开放染色质区域,例如,如图25d所示。对于每个区域,获得其开始和结束的基因组坐标,并且可以使用中间坐标(即(开始+结束)/2)作为中心。[0351]在从每种组织类型的dnase-seq数据获得开放染色质区域之后,可以将开放染色质区域相互比较,并且只有那些一种组织类型特有的区域可以被保留并定义为“组织特异性”区域,用于进一步分析,如本文所述。对于这些组织特异性开放染色质区域,核小体仅在相应的组织类型中定位良好,从而允许确定血浆dna中的比例贡献。除dnase-seq外,鉴定开放染色质区域的其它示例方法包括ctcf转录因子上的faire-seq、atac-seq、mnase-seq和chip-seq。[0352]在一些实施方案中,我们使用可公开获得的dnase-seq(dnasei高敏感位点测序)数据来挖掘开放染色质区域。从roadmapepigenomics项目获得t细胞,胎盘,肺,卵巢,乳房和小肠的dnase-seq数据(93)。从encode项目获得肝脏和esc的dnase-seq数据(104)。对于每种组织类型,下载原始测序数据并使用蝴蝶结比对软件(1.1.1版)与参考人基因组(ucschg19)比对(76)。然后,使用macs(chip-seq的基于模型的分析)软件(2.0.9版)确定开放染色质区域(110,74)。可以使用其它参考基因组和比对软件。[0353]对于这样的分析,chip-seq(染色质免疫沉淀,随后大规模平行dna测序)输入数据用作阴性对照,并且0.01的q值(即,反映错误发现率的调整的p值)用作呼叫峰的阈值。对于肺,分析imr90(人胎儿的肺)和hlf(人肺成纤维细胞)细胞系的dnase-seq数据,并且仅鉴定存在于两个样品中的峰。然后,对于每种组织类型,我们将其峰与所有其它组织进行比较,并且仅保留该组织类型所特有的峰并且在50-200bp的尺寸范围内作为最终的组织特异性开放染色质区域。ix.实例系统[0354]图42说明根据本公开的实施方案的测量系统4200。所示系统包括样品4205,如样品保持器4210内的无细胞dna分子,其中样品4205可以与分析器4208接触以提供物理特征4215的信号。样品保持器的实例可以是流动池,其包括分析器的探针和/或引物或液滴通过其移动的管(液滴包括于分析器中)。通过检测器4220检测来自样品的物理特征4215(如荧光强度、电压或电流)。检测器可以间隔地(例如,周期性间隔)进行测量以获得组成数据信号的数据点。在一个实施方案中,模数转换器多次将来自检测器的模拟信号转换成数字形式。数据信号4225从检测器4220发送到逻辑系统4230。样品保持器4210和检测器4220可以形成测定装置,例如,根据本文所述的实施方案进行测序的测序装置。数据信号4225从检测器4220发送到逻辑系统4230。数据信号4225可以存储在局部存储器4235、外部存储器4240或存储装置4245中。[0355]逻辑系统4230可以是或可以包括计算机系统、asic、微处理器等。其还可以包括显示器(例如监测器、led显示器等)和用户输入装置(例如鼠标、键盘、按钮等)或与其耦接。逻辑系统4230和其它组件可以是独立或网络连接的计算机系统的一部分,或者其可以直接连接或整合在包括检测器4220和/或样本保持器4210的装置(例如,测序装置)中。逻辑系统4230还可以包括在处理器4250中执行的软件。逻辑系统4230可以包括存储用于控制系统4200执行本文所述的任何方法的指令的计算机可读介质。例如,逻辑系统4230可以向包括样本保持器4210的系统提供命令,从而执行测序或其它物理操作。这样的物理操作可以以特定的顺序进行,例如,以特定的顺序加入和除去试剂。这种物理操作可以由机器人系统执行,例如,包括机器人臂,其可以用于获得样品和执行分析。[0356]本文中提及的任何计算机系统(例如逻辑系统4230)都可以利用任何合适数目的子系统。这类子系统的实例展示于计算机系统10中的图43中。在一些实施方案中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的组件。在其它实施方案中,计算机系统可以包括具有内部组件的多个计算机设备,每个计算机设备是子系统。计算机系统可以包括桌面计算机和膝上型计算机、平板计算机、移动电话和其它移动装置。[0357]图43中展示的子系统是通过系统总线75互连。展示其它子系统,如打印机74、键盘78、存储装置79、与显示适配器82耦接的监测器76等。耦接到i/o控制器71的外围装置和输入/输出(i/o)装置可以通过本领域中已知的任何数目的装置,如输入/输出(i/o)端口77(例如usb、)连接到计算机系统。举例来说,i/o端口77或外部接口81(例如以太网、wi-fi等)可以用于将计算机系统10连接到广域网,如因特网、鼠标输入装置或扫描仪。通过系统总线75的互连允许中央处理器73与每个子系统通信并且控制来自系统存储器72或存储装置79(例如固定磁盘,如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储装置79可以体现为计算机可读介质。另一种子系统是数据收集装置85,如相机、麦克风、加速计等。本文中提及的任何数据可以从一个组件输出到另一个组件且可以输出到用户。[0358]计算机系统可以包括例如通过外部接口81、通过内部接口或经由可移动存储装置(其可从一个组件连接到另一个组件并从其移除)连接在一起的多个相同组件或子系统。在一些实施方案中,计算机系统、子系统或设备可以通过网络进行通信。在这类情况下,一个计算机可以视为客户端且另一个计算机视为服务器,其中每一个可以是同一个计算机系统的一部分。客户端和服务器可以各自包含多个系统、子系统或组件。[0359]实施方案的各方面可以按使用硬件电路的控制逻辑(例如专用集成电路或现场可编程门阵列)形式实施,和/或借助于通用可编程处理器使用计算机软件以模块或集成的方式实施。如本文中所使用,处理器可以包括单核处理器、在同一集成芯片上的多核处理器,或在单个电路板上或网络化的多个处理单元以及专用硬件。基于本文中提供的公开和教导,本领域技术人员将知晓和理解使用硬件以及硬件和软件的组合实施本公开的实施方案的其它方式和/或方法。[0360]本申请中描述的任何软件组件或功能可以实施为使用任何适当计算机语言(例如java、c、c++、c#、objective-c、swift)或脚本语言(如perl或python),使用例如传统或面向受试者技术由处理器执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。适合的非暂时性计算机可读介质可以包括随机存取存储器(ram)、只读存储器(rom)、如硬盘驱动器或软盘等磁性媒体或如光盘(cd)或dvd(数字通用光盘)等光学介质、闪存等。计算机可读介质可以是这类存储或传输装置的任何组合。[0361]这类程序还可以使用适合于通过符合多种协议的有线、光学和/或无线网络(包括因特网)传送的载波信号来编码和传输。因此,计算机可读介质可以使用以这类程序编码的数据信号产生。以程序代码编码的计算机可读介质可以与兼容装置一起封装或与其它装置分开提供(例如,通过因特网下载)。任何这类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器,cd或整个计算机系统)之上或之内,并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括监视器、打印机,或用于向用户提供本文中提及的任何结果的其它适合的显示器。[0362]本文中所描述的任何方法可以完全或部分用计算机系统执行,所述计算机系统包括一或多个处理器,所述处理器可以经配置以执行所述步骤。因此,实施方案可以涉及经配置以执行本文中所描述的任何方法的步骤的计算机系统,所述计算机系统可能具有用于执行各步骤或各步骤组的不同组件。尽管以编号的步骤呈现,但本文中的方法的步骤可以同时或不同时或按不同的顺序执行。此外,一部分这些步骤可以与其它方法的一部分其它步骤一起使用。并且,所有或一部分步骤可以是任选的。此外,任何方法中的任何步骤可以借助于用于执行这些步骤的模块、单元、电路或其它方法执行。[0363]在不脱离本发明实施方案的精神和范围的情况下,特定实施方案的具体细节可以以任何合适的方式组合。然而,本发明的其它实施方案可涉及与每个单独方面或这些单独方面的具体组合相关的具体实施方案。[0364]为了说明和描述的目的,已经给出了本发明的示例性实施方案的上述描述。并不是要穷举或将本发明限制于所描述的精确形式,并且根据以上教导,许多修改和变化是可能的。[0365]除非特别指出相反,否则“一个”、“一种”或“所述”的表述旨在表示“一个或多个”。除非特别指出相反,否则“或”的使用旨在表示“逻辑或”,而不是“互斥或”。提及“第一”部件不一定要求提供第二部件。此外,除非明确说明,否则提及“第一”或“第二”组件并不将所提及的组件限制到特定位置。术语“基于”旨在表示“至少部分基于”。[0366]本文所提及的所有专利、专利申请、出版物和描述通过引用并入用于所有目的。任一个均未被认为是现有技术。x.参考文献1.loymd,etal.(1997)presenceoffetaldnainmaternalplasmaandserum.lancet350(9076):485-487.2.loymd,etal.(1998)presenceofdonor-specificdnainplasmaofkidneyandliver-transplantrecipients.lancet351(9112):1329-1330.3.ulzp,heitzere,geigljb,&speichermr(2017)patientmonitoringthroughliquidbiopsiesusingcirculatingtumordna.intjcancer141(5):887-896.4.cohenjd,etal.(2018)detectionandlocalizationofsurgicallyresectablecancerswithamulti-analytebloodtest.science359(6378):926-930.5.schutze,etal.(2017)graft-derivedcell-freedna,anoninvasiveearlyrejectionandgraftdamagemarkerinlivertransplantation:aprospective,observational,multicentercohortstudy.plosmed14(4):e1002286.6.chankca,etal.(2017)analysisofplasmaepstein-barrvirusdnatoscreenfornasopharyngealcancer.nengljmed377(6):513-522.7.lehmann-wermanr,etal.(2016)identificationoftissue-specificcelldeathusingmethylationpatternsofcirculatingdna.procnatlacadsciusa113(13):e1826-1834.8.vanopstald,etal.(2017)originandclinicalrelevanceofchromosomalaberrationsotherthanthecommontrisomiesdetectedbygenome-widenips:resultsofthetridentstudy.genetmedoct2.doi:10.1038/gim.2017.132.9.loymd,etal.(2010)maternalplasmadnasequencingrevealsthegenome-widegeneticandmutationalprofileofthefetus.scitranslmed2(61):61ra91.10.struhlk&segale(2013)determinantsofnucleosomepositioning.natstructmolbiol20(3):267-273.11.chimssc,etal.(2005)detectionoftheplacentalepigeneticsignatureofthemaspingeneinmaternalplasma.procnatlacadsciusa102(41):14753-14758.12.sunk,etal.(2015)plasmadnatissuemappingbygenome-widemethylationsequencingfornoninvasiveprenatal,cancer,andtransplantationassessments.procnatlacadsciusa112(40):e5503-5512.13.luiyyn,etal.(2002)predominanthematopoieticoriginofcell-freednainplasmaandserumaftersex-mismatchedbonemarrowtransplantation.clinchem48(3):421-427.14.chankca,etal.(2004)sizedistributionsofmaternalandfetaldnainmaternalplasma.clinchem50(1):88-92.15.sunk,etal.(2018)noninvasivereconstructionofplacentalmethylomefrommaternalplasmadna:potentialforprenataltestingandmonitoring.prenatdiagn38(3):196-203.16.sunk,etal.(2017)coffee:control-freenoninvasivefetalchromosomalexaminationusingmaternalplasmadna.prenatdiagn37(4):336-340.17.yuscy,etal.(2014)size-basedmoleculardiagnosticsusingplasmadnafornoninvasiveprenataltesting.procnatlacadsciusa111(23):8583-8588.18.ciriglianov,ordoneze,ruedal,syngelakia,&nicolaideskh(2017)performanceoftheneobonatest:anewpaired-endmassivelyparallelshotgunsequencingapproachforcell-freedna-basedaneuploidyscreening.ultrasoundobstetgynecol49(4):460-464.19.zhangl,zhuq,wangh,&lius(2017)count-basedsize-correctionanalysisofmaternalplasmadnaforimprovednoninvasiveprenataldetectionoffetaltrisomies13,18,and21.amjtranslres9(7):3469-3473.20.yuscy,etal.(2013)high-resolutionprofilingoffetaldnaclearancefrommaternalplasmabymassivelyparallelsequencing.clinchem59(8):1228-1237.21.chankca,etal.(2016)secondgenerationnoninvasivefetalgenomeanalysisrevealsdenovomutations,single-baseparentalinheritance,andpreferreddnaends.procnatlacadsciusa113(50):e8159-e8168.22.jahrs,etal.(2001)dnafragmentsinthebloodplasmaofcancerpatients:quantitationsandevidencefortheiroriginfromapoptoticandnecroticcells.cancerres61(4):1659-1665.23.straverr,oudejanscb,sistermansea,&reindersmj(2016)calculatingthefetalfractionfornoninvasiveprenataltestingbasedongenome-widenucleosomeprofiles.prenatdiagn36(7):614-621.24.snydermw,kircherm,hillaj,dazarm,&shendurej(2016)cell-freednacomprisesaninvivonucleosomefootprintthatinformsitstissues-of-origin.cell164(1-2):57-68.25.ivanovm,baranovaa,butlert,spellmanp,&mileykov(2015)non-randomfragmentationpatternsincirculatingcell-freednareflectepigeneticregulation.bmcgenomics16suppl13:s1.26.chiurwk,etal.(2008)noninvasiveprenataldiagnosisoffetalchromosomalaneuploidybymassivelyparallelgenomicsequencingofdnainmaternalplasma.procnatlacadsciusa105(51):20458-20463.27.delonger,delongdm,&clarke-皮尔森dl(1988)comparingtheareasundertwoormorecorrelatedreceiveroperatingcharacteristiccurves:anonparametricapproach.biometrics44(3):837-845.28.jiangp,etal.(2015)lengtheningandshorteningofplasmadnainhepatocellularcarcinomapatients.procnatlacadsciusa112(11):e1317-1325.29.valoueva,etal.(2011)determinantsofnucleosomeorganizationinprimaryhumancells.nature474(7352):516-520.30.gaffneydj,etal.(2012)controlsofnucleosomepositioninginthehumangenome.plosgenet8(11):e1003036.31.lamwkj,etal.(2017)dnaoferythroidoriginispresentinhumanplasmaandinformsthetypesofanemia.clinchem63(10):1614-1623.32.roadmapepigenomicsconsortium,etal.(2015)integrativeanalysisof111referencehumanepigenomes.nature518(7539):317-330.33.jiangc&pughbf(2009)nucleosomepositioningandgeneregulation:resectablecancerswithamulti-analytebloodtest.science359(6378):926-930.62.eisenberge,levanoney.2013.humanhousekeepinggenes,revisited.trendsgenet29(10):569-574.63.gaffneydj,mcvickerg,paiaa,fondufe-mittendorfyn,lewellenn,michelinik,widomj,gilady,pritchardjk.2012.controlsofnucleosomepositioninginthehumangenome.plosgenet8(11):e1003036.64.gaiw,jil,lamwkj,sunk,jiangp,chanawh,wongj,laipbs,ngssm,mabbyetal.2018.liver-andcolon-specificdnamethylationmarkersinplasmaforinvestigationofcolorectalcancerswithorwithoutlivermetastases.clinchem(doi:10.1373/clinchem.2018.290304).65.grunauc,clarksj,rosenthala.2001.bisulfitegenomicsequencing:systematicinvestigationofcriticalexperimentalparameters.nucleicacidsres29(13):e65-65.66.hulberta,jusue-torresi,starka,chenc,rodgersk,leeb,griffinc,yanga,huangp,wranglejetal.2017.earlydetectionoflungcancerusingdnapromoterhypermethylationinplasmaandsputum.clincancerres23(8):1998-2005.67.ivanovm,baranovaa,butlert,spellmanp,mileykov.2015.non-randomfragmentationpatternsincirculatingcell-freednareflectepigeneticregulation.bmcgenomics16suppl13:s1.68.jahrs,hentzeh,englischs,hardtd,fackelmayerfo,heschrd,knippersr.2001.dnafragmentsinthebloodplasmaofcancerpatients:quantitationsandevidencefortheiroriginfromapoptoticandnecroticcells.cancerres61(4):1659-1665.69.jiangc,pughbf.2009.nucleosomepositioningandgeneregulation:advancesthroughgenomics.natrevgenet10(3):161-172.70.jiangp,chancw,chankc,chengsh,wongj,wongvw,wonggl,chansl,mokts,chanhletal.2015.lengtheningandshorteningofplasmadnainhepatocellularcarcinomapatients.procnatlacadsciusa112(11):e1317-1325.71.jiangp,sunk,lunfmf,guoam,wangh,chankca,chiurwk,loymd,sunh.2014.methy-pipe:anintegratedbioinformaticspipelineforwholegenomebisulfitesequencingdataanalysis.plosone9(6):e100360.72.kangs,liq,chenq,zhouy,parks,leeg,grimesb,krysank,yum,wangwetal.2017.cancerlocator:non-invasivecancerdiagnosisandtissue-of-originpredictionusingmethylationprofilesofcell-freedna.genomebiol18(1):53.73.kapusheskym,emami,hollowaye,kurnosovp,zorina,malonej,rusticig,williamse,parkinsonh,brazmaa.2010.geneexpressionatlasattheeuropeanbioinformaticsinstitute.nucleicacidsres38(databaseissue):d690-698.74.koohyh,downta,spivakovm,hubbardt.2014.acomparisonofpeakcallersusedfordnase-seqdata.plosone9(5):e96303.75.lamwkj,gaiw,sunk,wongrsm,chanrwy,jiangp,channph,huiwwi,chanawh,szetoccetal.2017.dnaoferythroidoriginispresentinhumanplasmaandinformsthetypesofanemia.clinchem63(10):1614-1623.76.langmeadb,trapnellc,popm,salzbergsl.2009.ultrafastandmemory-efficientalignmentofshortdnasequencestothehumangenome.genomebiol10(3):r25.77.lehmann-wermanr,magenheimj,mossj,neimand,abrahamo,piyanzins,zemmourh,foxi,dort,grompemetal.2018.monitoringliverdamageusinghepatocyte-specificmethylationmarkersincell-freecirculatingdna.jciinsight3(12).78.lehmann-wermanr,neimand,zemmourh,mossj,magenheimj,vaknin-dembinskya,rubertssons,nellgardb,blennowk,zetterberghetal.2016.identificationoftissue-specificcelldeathusingmethylationpatternsofcirculatingdna.procnatlacadsciusa113(13):e1826-1834.79.liw,liq,kangs,samem,zhouy,sunc,liucc,matsuokal,sherl,wongwhetal.2018.cancerdetector:ultrasensitiveandnon-invasivecancerdetectionattheresolutionofindividualreadsusingcell-freednamethylationsequencingdata.nucleicacidsres(doi:10.1093/nar/gky423).80.listerr,o'malleyrc,tonti-filippinij,gregorybd,berrycc,millarah,eckerjr.2008.highlyintegratedsingle-baseresolutionmapsoftheepigenomeinarabidopsis.cell133(3):523-536.81.loymd,chankca,sunh,chenez,jiangp,lunfm,zhengyw,leungty,lautk,cantorcretal.2010.maternalplasmadnasequencingrevealsthegenome-widegeneticandmutationalprofileofthefetus.scitranslmed2(61):61ra91.82.loymd,corbettan,chamberlainpf,raiv,sargentil,redmancw,wainscoatjs.1997.presenceoffetaldnainmaternalplasmaandserum.lancet350(9076):485-487.83.loymd,teinms,pangcc,yeungck,tongkl,hjelmnm.1998.presenceofdonor-specificdnainplasmaofkidneyandliver-transplantrecipients.lancet351(9112):1329-1330.84.luiyyn,chikkw,chiurw,hocy,lamcw,loym.2002.predominanthematopoieticoriginofcell-freednainplasmaandserumaftersex-mismatchedbonemarrowtransplantation.clinchem48(3):421-427.85.lunfmf,chiurwk,sunk,leungty,jiangp,chankc,sunh,loym.2013.noninvasiveprenatalmethylomicanalysisbygenomewidebisulfitesequencingofmaternalplasmadna.clinchem59(11):1583-1594.86.mandelp,metaisp.1948.lesacidesnucléiquesduplasmasanguinchezl'homme.crseancessocbiolfil142(3-4):241-243.87.mertesf,elsharawya,sauers,vanhelvoortjm,vanderzaagpj,frankea,nilssonm,lehrachh,brookesaj.2011.targetedenrichmentofgenomicdnaregionsfornext-generationsequencing.brieffunctgenomics10(6):374-386.88.o'learyb,hrebiens,mordenjp,beaneym,fribbensc,huangx,liuy,bartlettch,koehlerm,cristofanillimetal.2018.earlycirculatingtumordnadynamicsandclonalselectionwithpalbociclibandfulvestrantforbreastcancer.natcommun9(1):896.89.olovan,kruegerf,andrewss,oxleyd,berrensrv,brancomr,reikw.2018.comparisonofwhole-genomebisulfitesequencinglibrarypreparationstrategiesidentifiessourcesofbiasesaffectingdnamethylationdata.genomebiol19(1):33.90.pedersenjs,valene,velazquezam,parkerbj,rasmussenm,lindgreens,liljeb,tobindj,kellytk,vangsetal.2014.genome-widenucleosomemapandcytosinemethylationlevelsofanancienthumangenome.genomeres24(3):454-466.91.phallenj,sausenm,adleffv,leala,hrubanc,whitej,anagnostouv,fikselj,cristianos,pappeetal.2017.directdetectionofearly-stagecancersusingcirculatingtumordna.scitranslmed9(403).92.radman-livajam,randooj.2010.nucleosomepositioning:howisitestablished,andwhydoesitmatter?devbiol339(2):258-266.93.roadmapepigenomicsconsortium,kundajea,meulemanw,ernstj,bilenkym,yena,heravi-moussavia,kheradpourp,zhangz,wangjetal.2015.integrativeanalysisof111referencehumanepigenomes.nature518(7539):317-330.94.samejimak,earnshawwc.2005.trashingthegenome:theroleofnucleasesduringapoptosis.natrevmolcellbiol6(9):677-688.95.schepan,buenrostrojd,dennysk,schwartzk,sherlockg,greenleafwj.2015.structurednucleosomefingerprintsenablehigh-resolutionmappingofchromatinarchitecturewithinregulatoryregions.genomeres25(11):1757-1770.96.schonesde,cuik,cuddapahs,rohty,barskia,wangz,weig,zhaok.2008.dynamicregulationofnucleosomepositioninginthehumangenome.cell132(5):887-898.97.schutze,fischera,beckj,hardenm,kochm,wuenscht,stockmannm,nashanb,kollmaro,matthaeijetal.2017.graft-derivedcell-freedna,anoninvasiveearlyrejectionandgraftdamagemarkerinlivertransplantation:aprospective,observational,multicentercohortstudy.plosmed14(4):e1002286.98.snydermw,kircherm,hillaj,dazarm,shendurej.2016.cell-freednacomprisesaninvivonucleosomefootprintthatinformsitstissues-of-origin.cell164(1-2):57-68.99.stricklerjh,loreejm,ahronianlg,parikhar,niedzwieckid,pereiraaal,mckinneym,kornwm,atreyace,bankskcetal.2018.genomiclandscapeofcell-freednainpatientswithcolorectalcancer.cancerdiscov8(2):164-173.100.strounm,ankerp,mauricep,lyauteyj,lederreyc,beljanskim.1989.neoplasticcharacteristicsofthednafoundintheplasmaofcancerpatients.oncology46(5):318-322.101.struhlk,segale.2013.determinantsofnucleosomepositioning.natstructmolbiol20(3):267-273.102.sunk,jiangp,chankca,wongj,chengyk,liangrh,chanwk,maes,chansl,chengshetal.2015.plasmadnatissuemappingbygenome-widemethylationsequencingfornoninvasiveprenatal,cancer,andtransplantationassessments.procnatlacadsciusa112(40):e5503-5512.103.sunk,jiangp,wongaic,chengyky,chengsh,zhangh,chankca,leungty,chiurwk,loymd.2018.size-taggedpreferredendsinmaternalplasmadnashedlightontheproductionmechanismandshowutilityinnoninvasiveprenataltesting.procnatlacadsciusa115(22):e5106-e5114.104.theencodeprojectconsortium.2012.anintegratedencyclopediaofdnaelementsinthehumangenome.nature489(7414):57-74.105.ulzp,heitzere,geigljb,speichermr.2017.patientmonitoringthroughliquidbiopsiesusingcirculatingtumordna.intjcancer141(5):887-896.106.ulzp,thallingergg,auerm,grafr,kashoferk,jahnsw,abetel,pristauzg,petrue,geigljbetal.2016.inferringexpressedgenesbywhole-genomesequencingofplasmadna.natgenet48(10):1273-1278.107.valoueva,johnsonsm,boydsd,smithcl,fireaz,sidowa.2011.determinantsofnucleosomeorganizationinprimaryhumancells.nature474(7352):516-520.108.vanopstald,vanmaarlemc,lichtenbeltk,weissmm,schuring-blomh,bholasl,hoffermjv,huijsdens-vanamsterdamk,macvillemv,kooperajaetal.2017.originandclinicalrelevanceofchromosomalaberrationsotherthanthecommontrisomiesdetectedbygenome-widenips:resultsofthetridentstudy.genetmed20(5):480-485.109.zemmourh,planerd,magenheimj,mossj,neimand,gilond,koracha,glaserb,shemerr,landesberggetal.2018.non-invasivedetectionofhumancardiomyocytedeathusingmethylationpatternsofcirculatingdna.natcommun9(1):1443.110.zhangy,liut,meyerca,eeckhoutej,johnsonds,bernsteinbe,nusbaumc,myersrm,brownm,liwetal.2008.model-basedanalysisofchip-seq(macs).genomebiol9(9):r137.当前第1页1 2 3 当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
相关标签:
热门咨询
tips