用于借助于循环肿瘤DNA的个人化检测的癌症检测和监测的方法与流程

2021-02-02 17:02:58|

249|

起点商标网

相关申请的引证

本申请案要求以下的优先权：2018年4月14日提交的美国临时申请案第62/657,727号；2018年5月9日提交的美国临时申请案第62/669,330号；2018年7月3日提交的美国临时申请案第62/693,843号；2018年8月6日提交的美国临时申请案第62/715,143号；2018年10月16日提交的美国临时申请案第62/746,210号；2018年12月11日提交的美国临时申请案第62/777,973号；和2019年2月12日提交的美国临时申请案第62/804,566号。以上列举的这些申请案各自以全文引用的方式并入本文中。

背景技术：

癌症的早期复发或转移的检测传统上依赖于成像和组织活检。肿瘤组织的活检是侵袭性的并且具有可能有助于转移或手术并发症的风险，而基于成像的检测对检测早期阶段的复发或转移的敏感性不足。需要更好的且侵袭性更低的用于检测癌症的复发或转移的方法。

技术实现要素：

本文中所描述的本发明的一个方面涉及用于监测和检测癌症(例如乳癌、膀胱癌或结肠直肠癌)的早期复发或转移的方法，其包含通过对核酸进行多重扩增反应来产生扩增子集合，所述核酸是从来自已接受癌症(例如乳癌、膀胱癌或结肠直肠癌)治疗的患者的血液或尿液样品或其一部分分离，其中扩增子集合中的每个扩增子跨越与癌症(例如乳癌、膀胱癌或结肠直肠癌)相关联的患者特异性单核苷酸变异体基因座集合中的至少一个单核苷酸变异体基因座；和确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性单核苷酸变异体基因座，其中一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性单核苷酸变异体的检测指示癌症(例如乳癌、膀胱癌或结肠直肠癌)的早期复发或转移。

除乳癌、膀胱癌和结肠直肠癌以外，本文中所描述的方法还可以用于监测和检测其它类型的癌症的早期复发或转移，如：急性淋巴母细胞性白血病；急性骨髓性白血病；肾上腺皮质癌；aids相关癌症；aids相关淋巴瘤；肛门癌；阑尾癌；星形细胞瘤；非典型畸胎样/横纹肌样肿瘤；基底细胞癌；脑干神经胶质瘤；脑肿瘤(包括脑干神经胶质瘤、中枢神经系统非典型畸胎样/横纹肌样肿瘤、中枢神经系统胚胎肿瘤、星形细胞瘤、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、神经管胚细胞瘤、髓上皮瘤、中度分化型松果体实质性肿瘤、幕上原始神经外胚层肿瘤和成松果体细胞瘤)；支气管肿瘤；伯基特淋巴瘤(burkittlymphoma)；原发位点未知的癌症；类癌肿瘤；原发位点未知的癌瘤；中枢神经系统非典型畸胎样/横纹肌样肿瘤；中枢神经系统胚胎肿瘤；子宫颈癌；儿童癌症；脊索瘤；慢性淋巴细胞性白血病；慢性骨髓性白血病；慢性骨髓增生性病症；结肠癌；颅咽管瘤；皮肤t细胞淋巴瘤；内分泌胰岛细胞瘤；子宫内膜癌；室管膜母细胞瘤；室管膜瘤；食道癌；鼻腔神经胶质瘤；尤文氏肉瘤(ewingsarcoma)；颅外生殖细胞肿瘤；性腺外生殖细胞肿瘤；肝外胆管癌；胆囊癌；胃部(胃)癌症；胃肠道类癌肿瘤；胃肠道基质细胞肿瘤；胃肠道基质瘤(gist)；妊娠期滋养细胞肿瘤；神经胶质瘤；毛状细胞白血病；头颈癌；心脏癌症；霍奇金氏淋巴瘤(hodgkinlymphoma)；下咽癌症；眼内黑素瘤；胰岛细胞瘤；卡波西肉瘤(kaposisarcoma)；肾脏癌；兰格汉氏细胞组织细胞增多病(langerhanscellhistiocytosis)；喉癌；唇癌；肝癌；恶性纤维组织细胞瘤骨癌；神经管胚细胞瘤；髓上皮瘤；黑素瘤；梅克尔细胞癌(merkelcellcarcinoma)；梅克尔细胞皮肤癌瘤(merkelcellskincarcinoma)；间皮瘤；隐性原发性转移性鳞状颈部癌症；口腔癌；多发性内分泌瘤形成综合症；多发性骨髓瘤；多发性骨髓瘤/血浆细胞赘瘤；蕈样真菌病；骨髓发育不良综合症；骨髓增生赘瘤；鼻腔癌；鼻咽癌；神经母细胞瘤；非霍奇金氏淋巴瘤；非黑素瘤型皮肤癌；非小细胞肺癌；口部癌症；口腔癌症；口咽癌；骨肉瘤；其它脑部和脊髓肿瘤；卵巢癌；卵巢上皮癌症；卵巢生殖细胞肿瘤；卵巢低恶性潜能肿瘤；胰脏癌；乳头瘤病；副鼻窦癌；副甲状腺癌；骨盆癌；阴茎癌；咽癌；中度分化型松果体实质性肿瘤；成松果体细胞瘤；垂体肿瘤；血浆细胞赘瘤/多发性骨髓瘤；胸膜肺母细胞瘤；原发性中枢神经系统(cns)淋巴瘤；原发性肝细胞肝癌；前列腺癌；直肠癌；肾癌；肾细胞(肾脏)癌；肾细胞癌；呼吸道癌症；成视网膜细胞瘤；横纹肌肉瘤；唾液腺癌症；塞氏综合症(sezarysyndrome)；小细胞肺癌；小肠癌；软组织肉瘤；鳞状细胞癌；鳞状颈部癌症；胃(胃部)癌症；幕上原始神经外胚层肿瘤；t细胞淋巴瘤；睾丸癌；喉癌；胸腺癌；胸腺瘤；甲状腺癌；移行细胞癌症；肾盂和输尿管的移行细胞癌症；滋养细胞肿瘤；输尿管癌症；尿道癌；子宫癌；子宫瘤；阴道癌；外阴癌；瓦尔登斯特伦巨球蛋白血症(waldenstrommacroglobulinemia)；或威尔姆氏肿瘤(wilm'stumor)。

在一些实施例中，从患者的肿瘤分离核酸且在确定血液或尿液样品或其一部分的扩增子集合中的每个扩增子的至少一个区段的序列之前，针对患者特异性单核苷酸变异体基因座集合鉴别肿瘤中的体细胞突变，且其中单核苷酸变异体。

在一些实施例中，所述方法包含纵向地从患者收集血液或尿液样品并且进行测序。

在一些实施例中，检测到至少2种或至少5种snv且存在至少2种或至少5种snv指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移。

在一些实施例中，乳癌、膀胱癌或结肠直肠癌是1期或2期乳癌、膀胱癌或结肠直肠癌。在一些实施例中，乳癌、膀胱癌或结肠直肠癌是3期或4期乳癌、膀胱癌或结肠直肠癌。

在一些实施例中，在分离血液或尿液样品之前，个体已用手术治疗。

在一些实施例中，在分离血液或尿液样品之前，个体已用化学疗法治疗。

在一些实施例中，在分离血液或尿液样品之前，个体已用辅助疗法或新辅助疗法治疗。

在一些实施例中，在分离血液或尿液样品之前，个体已用放射线疗法治疗。

在一些实施例中，所述方法进一步包含向个体给予化合物，其中已知所述化合物能够尤其有效治疗具有一种或多种所确定的单核苷酸变异体的乳癌、膀胱癌或结肠直肠癌。

在一些实施例中，所述方法进一步包含由序列确定来确定每种单核苷酸变异体的变异体等位基因出现率。

在一些实施例中，乳癌、膀胱癌或结肠直肠癌治疗计划是基于变异体等位基因出现率确定来确认。

在一些实施例中，所述方法进一步包含向个体给予化合物，其中已知所述化合物能够尤其有效治疗具有满足以下条件的单核苷酸变异体中的一种的乳癌、膀胱癌或结肠直肠癌：其可变等位基因出现率大于至少一半的其它所确定的单核苷酸变异体。

在一些实施例中，通过多个单核苷酸变异基因座的高通量dna测序来确测序列。

在一些实施例中，所述方法进一步包含通过基于一系列扩增子的多个拷贝的序列确定每种snv基因座的变异体等位基因出现率，检测乳癌、膀胱癌或结肠直肠癌中的克隆单核苷酸变异体，其中与多个单核苷酸变异体基因座的其它单核苷酸变异体相比较高的相对等位基因出现率指示乳癌、膀胱癌或结肠直肠癌中的克隆单核苷酸变异体。

在一些实施例中，所述方法进一步包含向个体给予化合物，所述化合物靶向一种或多种克隆单核苷酸变异体，但不靶向其它单核苷酸变异体。

在一些实施例中，变异体等位基因出现率大于1.0％指示存在克隆单核苷酸变异体。

在一些实施例中，所述方法进一步包含通过以下方式来形成扩增反应混合物：组合聚合酶、核苷酸三磷酸酯、来自由样品产生的核酸库的核酸片段和各自在单核苷酸变异体基因座的150个碱基对内结合的引物的集合或各自跨越包含单核苷酸变异体基因座的具有160个或更少的碱基对的区域的引物的集合，和使扩增反应混合物经历扩增条件以产生扩增子集合。

在一些实施例中，确定样品中是否存在单核苷酸变异体包含至少部分地基于基因座的读段深度来鉴别每个单核苷酸变异基因座集合处的每次等位基因确定的置信度值。

在一些实施例中，如果关于存在单核苷酸变异体的置信度值大于90％，那么作出单核苷酸变异体识别。

在一些实施例中，如果关于存在单核苷酸变异体的置信度值大于95％，那么作出单核苷酸变异体识别。

在一些实施例中，单核苷酸变异基因座集合包含在乳癌、膀胱癌或结肠直肠癌的tcga和cosmic数据集中鉴别的所有单核苷酸变异基因座。

在一些实施例中，单核苷酸变异位点集合包含在乳癌、膀胱癌或结肠直肠癌的tcga和cosmic数据集中鉴别的所有单核苷酸变异位点。

在一些实施例中，在单核苷酸变异基因座集合的读段深度是至少1,000的情况下进行所述方法。

在一些实施例中，单核苷酸变异体基因座集合包含25到1000个已知与乳癌、膀胱癌或结肠直肠癌相关联的单核苷酸变异基因座。

在一些实施例中，确定单核苷酸变异基因座的多重扩增反应中的每次扩增反应的每个循环的效率和误差率，并且使用所述效率和误差率确定样品中是否存在单一变异体基因座的集合中的单核苷酸变异体。

在一些实施例中，扩增反应是pcr反应且粘接温度比引物集合中至少50％的引物的熔融温度高1到15℃。

在一些实施例中，扩增反应是pcr反应且pcr反应中的粘接步骤的长度是15到120分钟。

在一些实施例中，扩增反应中的引物浓度是1到10nm。

在一些实施例中，引物集合中的引物被设计成最大限度地减少引物二聚体形成。

在一些实施例中，扩增反应是pcr反应，粘接温度比引物集合中至少50％的引物的熔融温度高1到15℃，pcr反应中的粘接步骤的长度在15与120分钟之间，扩增反应中的引物浓度在1与10nm之间，并且引物集合中的引物被设计成最大限度地减少引物二聚体形成。

在一些实施例中，在限制性引物条件下进行多重扩增反应。

本文中所描述的本发明的另一个方面涉及一种组合物，其包含循环肿瘤核酸片段，所述循环肿瘤核酸片段包含通用衔接子，其中所述循环肿瘤核酸是来源于乳癌、膀胱癌或结肠直肠癌。

在一些实施例中，循环肿瘤核酸是来源于患有乳癌、膀胱癌或结肠直肠癌的个体的血液或尿液样品或其一部分。

本文中所描述的本发明的另一个方面涉及一种组合物，其包含固体负载物，所述固体负载物包含核酸的多个克隆群体，其中所述克隆群体包含由循环游离核酸的样品产生的扩增子，其中所述循环肿瘤核酸是来源于乳癌、膀胱癌或结肠直肠癌。

在一些实施例中，循环游离核酸是来源于患有乳癌、膀胱癌或结肠直肠癌的个体的血液或尿液样品或其一部分。

在一些实施例中，不同克隆群体中的核酸片段包含相同通用衔接子。

在一些实施例中，核酸的克隆群体是来源于来自两名或更多名个体的样品集合的核酸片段。

在一些实施例中，核酸片段包含对应于样品集合中的样品的一系列分子条形码中的一个。

本文中所描述的本发明的另一个方面涉及用于监测和检测乳癌、膀胱癌或结肠直肠癌的早期复发或转移的方法，其包含基于在已诊断患有乳癌、膀胱癌或结肠直肠癌的患者的肿瘤样品中鉴别的体细胞突变，选择具有至少8个或16个患者特异性单核苷酸变异体基因座的集合；在患者已用手术、一线化学疗法及/或辅助疗法治疗之后，从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性单核苷酸变异体基因座集合中的至少一个单核苷酸变异体基因座；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性单核苷酸变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性单核苷酸变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移。

本文中所描述的本发明的另一个方面涉及用于治疗乳癌、膀胱癌或结肠直肠癌的方法，其包含用手术、一线化学疗法及/或辅助疗法治疗已诊断患有乳癌、膀胱癌或结肠直肠癌的患者；从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性单核苷酸变异体基因座的集合中的至少一个单核苷酸变异体基因座，所述患者特异性单核苷酸变异体基因座是基于在患者的肿瘤样品中鉴别的体细胞突变而选择；确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性单核苷酸变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性单核苷酸变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移；以及向个体给予化合物，其中已知所述化合物可以有效治疗具有一种或多种在血液或尿液样品中检测到的单核苷酸变异体的乳癌、膀胱癌或结肠直肠癌。

本文中所描述的本发明的另一个方面涉及用于监测或预测对乳癌、膀胱癌或结肠直肠癌治疗的反应的方法，其包含从正在经历乳癌、膀胱癌或结肠直肠癌治疗的患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性单核苷酸变异体基因座的集合中的至少一个单核苷酸变异体基因座，所述患者特异性单核苷酸变异体基因座是基于在患者的肿瘤样品中鉴别的体细胞突变而选择；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性单核苷酸变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性单核苷酸变异体的检测指示对乳癌、膀胱癌或结肠直肠癌治疗的不良反应。

在一些实施例中，本文中所描述的方法包含在疗法之前和/或在新辅助疗法期间(例如在第1循环、第2循环、第3循环、第4循环等之后)检测乳癌患者的血浆中的ctdna。在一些实施例中，治疗计划是基于ctdna浓度确定(例如存在/不存在)和在新辅助疗法期间的降低率来定义的。

在一些实施例中，本文中所描述的方法包含评估每位癌症患者的ctdna存在情况和含量(即，以肿瘤中实际存在的突变为目标)。在一些实施例中，本文中所描述的方法包含检测患者肿瘤中实际存在的突变中的2种或更多种、4种或更多种、10种或更多种、16种或更多种、32种或更多种、50种或更多种、64种或更多种或100种或更多种。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的将具有转移性复发(例如在新辅助疗法和手术之后)的患者在基线处具有可检测的ctdna。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的将具有转移性复发(例如在新辅助疗法和手术之后)的患者在新辅助疗法的第1循环之后具有可检测的ctdna。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的将具有转移性复发(例如在新辅助疗法和手术之后)的患者在新辅助疗法的第2循环之后具有可检测的ctdna。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的将具有转移性复发(例如在新辅助疗法和手术之后)的患者在新辅助疗法之后且在手术之前具有可检测的ctdna。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的将具有转移性复发(例如在新辅助疗法和手术之后)的患者在手术之后具有可检测的ctdna。

根据本发明的一些实施例，至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的具有可检测的ctdna(例如在手术之后)的患者在不进行进一步治疗的情况下将具有转移性复发(例如在新辅助疗法和手术之后)。

根据本发明的一些实施例，如果不给予其它治疗，那么至少50％，或至少60％，或至少70％，或至少80％，或至少90％，或约100％的在基线与第1循环或第2循环等之间具有增加的ctdna含量的患者将在手术之后具有转移性复发。

在一些实施例中，本文中所描述的方法包含检测癌症的某些亚型，包括乳癌的某些亚型的发生、复发或转移。在一些实施例中，本文中所描述的方法包含检测hr+/her2-肿瘤，包括hr+/her2-乳癌(例如激素受体阳性-erα+和/或pr+)的发生、复发或转移。hr+肿瘤通常具有较低侵润性且具有良好的预后，其中5年存活率超过90％。

在一些实施例中，本文中所描述的方法包含检测her2+肿瘤，包括her2+乳癌(人类表皮生长因子受体2阳性)的发生、复发或转移。her2+肿瘤与hr+/her2-乳癌相比通常具有更高的侵袭性、更坏的预后且更可能复发和转移。

在一些实施例中，本文中所描述的方法包含检测hr-/her2-肿瘤，包括hr-/her2-乳癌(tnbc或三阴性bc)的发生、复发或转移。三阴性乳癌(tnbc)不表达erα、pr或her2。这些肿瘤在所有乳癌亚型中倾向于具有最高的侵润性和最差的预后。

在一些实施例中，本文中所描述的方法能够在至少75％、至少80％、至少85％、至少90％或至少95％的具有癌症的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在至少80％、至少85％、至少90％、至少95％或至少98％的具有her2+乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在至少80％、至少85％、至少90％、至少95％或至少98％的具有三阴性乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在至少75％、至少80％、至少85％、至少90％或至少95％的具有hr+/her2-乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在可以通过成像来检测到癌症的临床复发或转移之前至少100天、至少150天、至少200天、至少250天或至少300天和/或在ca15-3含量上升之前至少100天、至少150天、至少200天、至少250天或至少300天，在具有癌症的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在可以通过成像来检测到her2+乳癌的临床复发或转移之前至少100天、至少150天、至少200天、至少250天或至少300天和/或在ca15-3含量上升之前至少100天、至少150天、至少200天、至少250天或至少300天，在具有her2+乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在可以通过成像来检测到三阴性乳癌的临床复发或转移之前至少100天、至少150天、至少200天、至少250天或至少300天和/或在ca15-3含量上升之前至少100天、至少150天、至少200天、至少250天或至少300天，在具有三阴性乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法能够在可以通过成像来检测到hr+/her2-乳癌的临床复发或转移之前至少100天、至少150天、至少200天、至少250天或至少300天和/或在ca15-3含量上升之前至少100天、至少150天、至少200天、至少250天或至少300天，在具有hr+/her2-乳癌的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％的不具有癌症的早期复发或转移的患者中未检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％的不具有her2+乳癌的早期复发或转移的患者中未检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％的不具有三阴性乳癌的早期复发或转移的患者中未检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％的不具有hr+/her2-乳癌的早期复发或转移的患者中未检测到患者特异性单核苷酸变异体。

在一些实施例中，当在高于预定置信度阈值(例如0.95、0.96、0.97、0.98或0.99)的情况下检测到两种或更多种患者特异性单核苷酸变异体时，本文中所描述的方法在检测癌症的早期复发或转移方面的特异性是至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％。

在一些实施例中，当在高于预定置信度阈值(例如0.95、0.96、0.97、0.98或0.99)的情况下检测到两种或更多种患者特异性单核苷酸变异体时，本文中所描述的方法在检测her2+乳癌的早期复发或转移方面的特异性是至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％。

在一些实施例中，当在高于预定置信度阈值(例如0.95、0.96、0.97、0.98或0.99)的情况下检测到两种或更多种患者特异性单核苷酸变异体时，本文中所描述的方法在检测三阴性乳癌的早期复发或转移方面的特异性是至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％。

在一些实施例中，当在高于预定置信度阈值(例如0.95、0.96、0.97、0.98或0.99)的情况下检测到两种或更多种患者特异性单核苷酸变异体时，本文中所描述的方法在检测hr+/her2-乳癌的早期复发或转移方面的特异性是至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％。

在一些实施例中，本文中所描述的方法在至少75％、至少80％、至少85％、至少90％或至少95％的具有肌肉侵袭性膀胱癌(mibc)的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在可以通过成像来检测到mibc的临床复发或转移之前至少100天、至少150天、至少200天或至少250天，在具有癌症的早期复发或转移的患者中检测到患者特异性单核苷酸变异体。

在一些实施例中，本文中所描述的方法在至少95％、至少98％、至少99％、至少99.5％、至少99.8％或至少99.9％的不具有mibc的早期复发或转移的患者中未检测到患者特异性单核苷酸变异体。

在一些实施例中，当在高于预定置信度阈值(例如0.95、0.96、0.97、0.98或0.99)的情况下检测到两种或更多种患者特异性单核苷酸变异体时，本文中所描述的方法在检测mibc的早期复发或转移方面的特异性是至少95％、至少98％、至少99％、至少99％、至少99.5％、至少99.8％或至少99.9％。

除单核苷酸变异体以外或代替单核苷酸变异体，本文中所描述的方法也可以基于检测其它基因组变异体，如插入缺失、多核苷酸变异体和/或基因融合体。

因此，本文中所描述的本发明的另一方面涉及用于监测和检测乳癌、膀胱癌或结肠直肠癌的早期复发或转移的方法，其包含基于在已诊断患有乳癌、膀胱癌或结肠直肠癌的患者的肿瘤样品中鉴别的体细胞突变，选择多个基因组变异体基因座(例如snv、插入缺失、多核苷酸变异体和基因融合体)；在患者已用手术、一线化学疗法及/或辅助疗法治疗之后，从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座集合中的至少一个基因组变异体基因座；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移。

本文中所描述的本发明的另一个方面涉及用于治疗乳癌、膀胱癌或结肠直肠癌的方法，其包含用手术、一线化学疗法和/或辅助疗法治疗已诊断患有乳癌、膀胱癌或结肠直肠癌的患者；从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座的集合中的至少一个基因组变异体基因座(例如snv、indel、多核苷酸变异体和基因融合体)，所述患者特异性基因组变异体基因座是基于在患者的肿瘤样品中鉴别的体细胞突变而选择；确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移；以及向个体给予化合物，其中已知所述化合物可以有效治疗具有一种或多种在血液或尿液样品中检测到的基因组变异体的乳癌、膀胱癌或结肠直肠癌。

本文中所描述的本发明的另一个方面涉及用于监测或预测对乳癌、膀胱癌或结肠直肠癌治疗的反应的方法，其包含从正在经历乳癌、膀胱癌或结肠直肠癌治疗的患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座的集合中的至少一个基因组变异体基因座(例如snv、插入缺失、多核苷酸变异体和基因融合体)，所述患者特异性基因组变异体基因座是基于在患者的肿瘤样品中鉴别的体细胞突变而选择；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示对乳癌、膀胱癌或结肠直肠癌治疗的不良反应。

除患者特异性基因组变异体以外或代替患者特异性基因组变异体，本文中所描述的方法也可以基于检测在许多癌症患者中复发的复发性癌症相关突变(例如热点癌症突变、耐药性标记物、癌症基因突变(cancerpanelmutation))。

因此，本文中所描述的本发明的另一个方面涉及用于监测和检测乳癌、膀胱癌或结肠直肠癌的早期复发或转移的方法，其包含选择多个复发性癌症相关突变；在患者已用手术、一线化学疗法和/或辅助疗法治疗之后，从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越与乳癌、膀胱癌或结肠直肠癌相关联的复发性突变的集合中的至少一种；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含复发性癌症相关突变，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)复发性癌症相关突变的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移。

本文中所描述的本发明的另一个方面涉及用于治疗乳癌、膀胱癌或结肠直肠癌的方法，其包含用手术、一线化学疗法和/或辅助疗法治疗已诊断患有乳癌、膀胱癌或结肠直肠癌的患者；从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8种或16种与乳癌、膀胱癌或结肠直肠癌相关联的复发性突变的集合中的至少一种复发性癌症相关突变(例如热点癌症突变、耐药性标记物、癌症基因突变)；确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含复发性癌症相关突变，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)复发性癌症相关突变的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移；以及向个体给予化合物，其中已知所述化合物可以有效治疗具有一种或多种在血液或尿液样品中检测到的复发性癌症相关突变的乳癌、膀胱癌或结肠直肠癌。

本文中所描述的本发明的另一个方面涉及用于监测或预测对乳癌、膀胱癌或结肠直肠癌治疗的反应的方法，其包含从正在经历乳癌、膀胱癌或结肠直肠癌治疗的患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8种或16种与乳癌、膀胱癌或结肠直肠癌相关联的复发性突变的集合中的至少一种复发性癌症相关突变(例如热点癌症突变、耐药性标记物、癌症基因突变)；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含复发性癌症相关突变，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)复发性癌症相关突变的检测指示对乳癌、膀胱癌或结肠直肠癌治疗的不良反应。

除初始鉴别已诊断患有乳癌、膀胱癌或结肠直肠癌的患者的肿瘤样品中的体细胞突变以外或代替初始鉴别已诊断患有乳癌、膀胱癌或结肠直肠癌的患者的肿瘤样品中的体细胞突变，本文中所描述的方法也可以基于鉴别患者的其它生物样品中的体细胞突变，所述其它生物样品如血液、血清、血浆、尿液、毛发、泪液、唾液、皮肤、指甲、粪便、胆汁、淋巴、子宫颈粘液或精液。

因此，本文中所描述的本发明的另一个方面涉及用于监测和检测乳癌、膀胱癌或结肠直肠癌的早期复发或转移的方法，其包含基于在已诊断患有乳癌、膀胱癌或结肠直肠癌的患者的包含癌症相关突变的生物样品(例如血液、血清、血浆、尿液、毛发、泪液、唾液、皮肤、指甲、粪便、胆汁、淋巴、子宫颈粘液或精液)中鉴别的体细胞突变，选择多个基因组变异体基因座(例如snv、插入缺失、多核苷酸变异体和基因融合体)；在患者已用手术、一线化学疗法和/或辅助疗法治疗之后，从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座的集合中的至少一个基因组变异体基因座；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移。

本文中所描述的本发明的另一个方面涉及用于治疗乳癌、膀胱癌或结肠直肠癌的方法，其包含用手术、一线化学疗法和/或辅助疗法治疗已诊断患有乳癌、膀胱癌或结肠直肠癌的患者；从患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座的集合中的至少一个基因组变异体基因座(例如snv、插入缺失、多核苷酸变异体和基因融合体)，所述患者特异性基因组变异体基因座是基于在包含癌症相关突变的患者的生物样品(例如血液、血清、血浆、尿液、毛发、泪液、唾液、皮肤、指甲、粪便、胆汁、淋巴、子宫颈粘液或精液)中鉴别的体细胞突变而选择；确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示乳癌、膀胱癌或结肠直肠癌的早期复发或转移；以及向个体给予化合物，其中已知所述化合物可以有效治疗具有一种或多种在血液或尿液样品中检测到的基因组变异体的乳癌、膀胱癌或结肠直肠癌。

本文中所描述的本发明的另一个方面涉及用于监测或预测对乳癌、膀胱癌或结肠直肠癌治疗的反应的方法，其包含从正在经历乳癌、膀胱癌或结肠直肠癌治疗的患者纵向收集一个或多个血液或尿液样品；通过对从每个血液或尿液样品或其一部分分离的核酸进行多重扩增反应来产生扩增子集合，其中扩增子集合中的每个扩增子跨越具有至少8个或16个与乳癌、膀胱癌或结肠直肠癌相关联的患者特异性基因组变异体基因座的集合中的至少一个基因组变异体基因座(例如snv、插入缺失、多核苷酸变异体和基因融合体)，所述患者特异性基因组变异体基因座是基于在包含癌症相关突变的患者的生物样品(例如血液、血清、血浆、尿液、毛发、泪液、唾液、皮肤、指甲、粪便、胆汁、淋巴、子宫颈粘液或精液)中鉴别的体细胞突变而选择；以及确定扩增子集合中的每个扩增子的至少一个区段的序列，所述至少一个区段包含患者特异性基因组变异体基因座，其中来自血液或尿液样品的一种或多种(或两种或更多种，或三种或更多种，或四种或更多种，或五种或更多种，或六种或更多种，或七种或更多种，或八种或更多种，或九种或更多种，或十种或更多种)患者特异性基因组变异体的检测指示对乳癌、膀胱癌或结肠直肠癌治疗的不良反应。

所公开的本发明的其它实施例以及特征和优点将由以下详细描述和权利要求书显而易见。

附图说明

本专利案或申请案文件含有至少一幅彩色图。具有彩色图式的本专利案或专利申请公开案的拷贝将在请求和支付必需费用之后由专利局提供。

将参考附图进一步说明本发明所公开的实施例，其中在若干视图中由类似的数字指代类似的结构。所展示的图式未必按比例绘制，重点实际上主要放在说明本发明所公开的实施例的原理上。

图1是工作流程图。

图2.上部图：每个样品中的snv数目；下部图：工作分析法，由驱动物类别分类。

图3.所测量的cfdna浓度。每个数据点指代一个血浆样品。

图4.在预先确定(x轴)的组织vaf测量结果与本文中使用mpcr-ngs(y轴)确定的组织vaf测量结果之间展示良好相关性的样品。每个样品在单独的方框中展示，并且由组织子部分对vaf数据点进行染色。

图5.在预先确定(x轴)的组织vaf测量结果与本文中使用mpcr-ngs(y轴)确定的组织vaf测量结果之间展示不良相关性的样品。每个样品在单独的方框中展示，并且由组织子部分对vaf数据点进行染色。

图6a-b.随所作出的识别而变的读段深度直方图。上部：分析法未检测到预期血浆snv。下部：分析法检测到预期血浆snv。

图7.由组织学类型在血浆中检测到的snv数目。

图8.由肿瘤阶段进行的血浆中的snv检测(左侧)和样品检测(右侧)。

图9.随肿瘤阶段和snv克隆性而变的血浆vaf。

图10.在来自每个样品的血浆中检测到的随cfdna输入量而变的snv数目。

图11.随平均肿瘤vaf而变的血浆vaf。计算来自每个肿瘤的所分析的所有肿瘤子部分的平均肿瘤vaf。

图12展示每个所检测的snv的克隆率(红色对比蓝色)和突变型变异体等位基因出现率(mutvaf)。将由每个样品检测到的全部snv放置于单一栏中且由肿瘤阶段(ptnm阶段)对样品进行分类。包括未检测到snv的样品。克隆率定义为其中观察到snv的肿瘤子部分的数目与来自所述肿瘤的所分析的子部分的总数之间的比率。

图13展示每个所检测的snv的克隆状态(蓝色表示克隆且红色表示亚克隆)和突变型变异体等位基因出现率(mutvaf)。将由每个样品检测到的全部snv放置于单一栏中且由肿瘤阶段(ptnm阶段)对样品进行分类。包括未检测到snv的样品。使用来自肿瘤组织的完全外显子组测序数据，通过pyclonecluster确定克隆状态。

图14展示每个所检测的snv的克隆状态(蓝色表示克隆且红色表示亚克隆)和突变型变异体等位基因出现率(mutvaf)，其中上部图仅展示克隆snv且下部图仅展示亚克隆snv。将由每个样品检测到的全部snv放置于单一栏中且由肿瘤阶段(ptnm阶段)对样品进行分类。包括未检测到snv的样品。使用来自肿瘤组织的完全外显子组测序数据，通过pyclonecluster确定克隆状态。

图15展示在血浆中检测到的随组织学类型和肿瘤尺寸而变的snv数目。通过病理报告来确定组织学类型和肿瘤阶段。根据尺寸来对每个数据点进行染色，其中红色表示最大肿瘤尺寸且蓝色表示最小肿瘤尺寸。

图16是cfdna分析的表格，其展示所有样品中的dna浓度、用于库制备的基因组拷贝当量、血浆溶血等级和cdna分布。

图17是每个样品的在血浆中检测到的snv的表格。

图18是在血浆中检测到的其它snv的表格。

图19是所检测的分析法和其在复发时间的血浆样品的背景等位基因部分(ltx103)的实例。

图20a-b：临床和分子方案的示意图。

图21：研究概述。

图22：36个月的监测和血浆收集的患者概述。

图23a-b：由手术后ctdna状态进行分级的复发风险。

图24a-b：由手术后ctdna状态进行分级的疗法后复发风险。

图25：辅助疗法在预防复发中的有效性。

图26a-b：基于放射学和ctdna的释放时间。

图27a-d：复发的早期检测和治疗反应的预测。

图28：临床样品收集的示意图。

图29：血浆测序qc。

图30a-f：早期复发检测。

图31：在诊断时和进行切除术以后的无复发存活率和ctdna状态。

图32a-b：新辅助治疗反应。

图33：实体瘤患者定制化监测技术(signatera；ruo)方法。

图34：血浆测序qc。

图35：单一snv检测的敏感性。

图36：预期输入对比用实体瘤患者定制化监测技术(ruo)观察的vaf。

图37：实例6中的乳癌研究的患者概述。

图38a-h：关于实例6的研究中分析的样品的信息的表格。图38a是表格的第1部分。图38b是表格的延续部分。图38c是表格的延续部分。图38d是表格的延续部分。图38e是表格的延续部分。图38f是表格的延续部分。图38g是表格的延续部分。图38h是表格的延续部分。

图39：实例6的乳癌研究中患者的人口统计学。接收50名患者的wes原始数据(具有35名患者的驱动物变异体)。接受不同数目的时间点(1至8)时的218个血浆样品。接收108个额外提取的dna样品。还收集复发状态。以6个月时间间隔在辅助疗法后收集血液样品。

图40：实例6中的乳癌研究的wes分析和池设计的概述。池a是基于实体瘤患者定制化监测技术方法。池b含有25名患者且在箱须图中用星号指示。池b中的19名患者具有低肿瘤纯度。6名患者具有额外的早期her2-肿瘤。池b含有驱动物变异体。

图41：实例6中的乳癌研究的血浆样品。中值血浆体积为4ml。中值dna输入量为26ng。中值dna输入量低于crc和mibc样品(分别是45ng和66ng)。

图42：测序质量控制，其描绘实例6中的乳癌研究的每种类型的中值方法误差率和中值分析法读段深度。总共处理326个血浆测序样品。估计突变识别fp率为0.28％。

图43：实例6中的乳癌研究的血浆样品。呈现49名患者的319个被测序的样品和214个独特的血浆样品。

图44：来自实例6中的乳癌研究的池a的结果。在49名患者中，11名为基线阳性。3名仅具有一个时间点。其余8名患者始终保持阳性。池b和驱动物产生类似结果。驱动物信息：16个具有驱动物突变的复发样品。11个具有至少一种用驱动物进行的分析法的复发样品。

图45：16名具有所检测的ctdna的患者的概述。

图46：对应于图38中的患者cd047(tnbc)的数据的图形描述。

图47：对应于图38中的患者cd033(tnbc)的数据的图形描述。

图48：对应于图38中的患者cd037(her2+)的数据的图形描述。

图49：对应于图38中的患者cd040(her2+)的数据的图形描述。

图50：对应于图38中的患者cd048(her2-)的数据的图形描述。

图51：对应于图38中的患者cd005(her2-)的数据的图形描述。

图52：对应于图38中的患者cd036(her2-)的数据的图形描述。

图53：对应于图38中的患者cd044(her2-)的数据的图形描述。

图54：对应于图38中的患者cd049的数据的图形描述。

图55：对应于图38中的患者cd029的数据的图形描述。

图56：对应于图38中的患者cd026的数据的图形描述。

图57：对应于图38中的患者cd017的数据的图形描述。

图58：对应于图38中的患者cd031的数据的图形描述。hw：shc2、pkd1、colec12。

图59：对应于图38中的患者cd025的数据的图形描述。在这名患者中，在2个连续时间点时针对fgf9中的突变观察ctdna。这名患者近期可能经历复发。

图60：患者募集和临床样品的收集。对于在本研究中监测的49名bc女性，使用signatera^tmruo工作流程以盲式分析所收集的肿瘤组织和连续血浆样品。通过ffpe肿瘤组织样本的双端测序和所匹配的正常dna来确定外显子组变化。设计患者特异性图，其包括由wes鉴别的16种体细胞突变。使用血浆样品的相应定制图处理血浆样品。分析208个样品以用于ctdna检测。

图61a-c：ctdna分析的概述和结果。(a)每位患者的(n＝49)治疗方案和所分析的连续血浆样品(n＝208)的结果的概述。(b)概述表格，其展示每种乳癌亚型之全部患者、复发数目、由ctdna分析检测的百分比和中值前置时间(天)。(c)使用配对威尔科克森符号秩检验(wilcoxonsignedranktest)(p值<0.001)的通过乳癌亚型hr+、her2+、tnbc进行染色的分子和临床复发的比较。

图62a-b：连续血浆样品的ctdna检测预测无复发存活率(a)根据手术后任何随访血浆样品中的ctdna检测的无复发存活率[hr：35.84(7.9626-161.32]，p值<0.001。(b)根据第一手术后血浆样品中的ctdna检测的无复发存活率[hr：11.784(4.2784-32.457]。数据是来自n＝49名患者，其中p值<0.001。

图63：(a-e)五名乳癌患者(每张图一名患者)的多个血浆时间点时的ctdna的血浆含量。原发性肿瘤和相匹配的正常完全外显子组测序鉴别患者特异性体细胞突变。使用以分析方式验证的signatera^tmruo工作流程，使用大规模平行测序，将每种患者特异性分析法设计成靶向16种体细胞snv和indel变异体(每个目标的中值深度>100,000x)。深蓝色圆表示平均vaf且实线表示随时间推移的平均vaf分布。由临床复发与分子复发的差来计算前置时间。以图形方式展示随时间推移的ca15-3含量且用浅蓝色阴影标记基线含量。(f)所有ctdna阳性样品在分子和临床复发时检测的vaf和目标数的概述，不包括仅具有一个时间点的患者。

图64a-c：用于49个患者特异性图的实体瘤患者定制化监测技术变异体选择策略。(上部图)患者的定制图中的肿瘤组织vaf分布。不同色彩表示不同亚型：her2-(深蓝色)、三阴性(橙色)和her2+(绿色)。(中部图)患者定制图中的所推断的克隆和亚克隆变异体的数目。49个定制图中的克隆变异体的中值数目是13/16。(下部图)患者的wes数据中的所推断的克隆和亚克隆变异体的数目。

图65：(a-l)12名(11名复发性和1名非复发性)乳癌患者的多个血浆时间点时的ctdna的血浆含量。原发性肿瘤和相匹配的正常完全外显子组测序鉴别患者特异性体细胞突变。使用以分析方式验证的signatera^tm工作流程，使用大规模平行测序，将每种患者特异性分析法设计成靶向16种体细胞snv和indel变异体(每个目标的中值深度>100,000x)。深蓝色圆表示平均vaf且实线表示随时间推移的平均vaf分布。由临床复发与分子复发的差来计算前置时间。以图形方式展示随时间推移的ca15-3含量且用浅蓝色阴影标记基线含量。

图66：vaf和突变体计数的分布。在ctdna阳性血浆样品中检测总共251个目标。所检测的目标的vaf在0.01％到64％范围内，其中中值是0.82％。我们使用在每个样品中观察到的突变型vaf和dna分子的总数来计算患者的血浆样品中的肿瘤分子数目。在251个阳性目标中检测的突变型分子的数目在1到6500个突变型分子范围内，其中中值是39个分子。

图67a-d：实体瘤患者定制化监测技术质量控制方法：在工作流程中的每个步骤中进行质量控制。在总共215个血浆样品中，208个在我们的样品qc过程中合格，且在此处设计的784种独特分析法中，767种在我们的分析法qc中合格(对应于在所有样品中，3328种分析法中的总共3237种合格)。a)每毫升提取的cfdna。通过quant-it高敏感性dsdna分析法试剂盒对从每个血浆样品提取的cfdna进行定量。将所定量的cfdna量<5ng的样品标记为warning。每毫升提取的cfdna在1到21.4ng范围内，其中中值是4.7ng。b)库制备dna输入量。使用来自每个血浆样品的最多66ngcfdna作为库制备方案的输入。库dna输入量在1到66ng范围内，其中中值是25.02。在继续进行下一步骤之前，对被纯化的库进行qc。c)测序覆盖率。分析中排除覆盖率小于5000x的分析法。接着，具有小于8种合格分析法的样品在测序覆盖率qc中不合格。在覆盖率qc中合格的分析法的中值读段深度是110,000x。d)样品和谐性。为了追踪样品完整性，使用snp追踪器测量患者的样品之间的和谐性。对于每个血浆样品，基因分型和谐性评分是相比于其对应的匹配正常基因分型数据来计算。当至少85％的样品的snp具有一致基因型时，认为样品是来自相同患者。从ctdna分析排除六个鉴别为待调换的血浆样品。

图68a-b：分析验证结果。(a)单一目标检测敏感性。使用实体瘤患者定制化监测技术，在约0.03％的加标(spiked-in)肿瘤dna情况下，获得突变检测的分析敏感性是约60％。(b)当由16种目标变异体的集合检测到至少两种突变时，实体瘤患者定制化监测技术的所估计的样品-含量敏感性。

图69：在筛选和募集之后，通过6个每个月的血液样品对患者进行随访。通过免疫组织化学和荧光原位杂交分析法来确定her2状态。如果任一种分析法呈阳性，那么认为患者具有her2阳性癌症。nact：新辅助化学疗法；act：辅助化学疗法。

图70：实例9中的肌肉侵袭性膀胱癌研究的工作流程图。

图71a-g：实例9中的肌肉侵袭性膀胱癌研究的患者概述。图71a展示由wes识别的同义与非同义突变的比率。一名患者的肿瘤发生超突变，其中突变负荷是126个突变/mb且显示先前已证实与超突变子相关联的pold1突变(campbell,b.b.等人,《人类癌症中超突变的综合分析(comprehensiveanalysisofhypermutationinhumancancer)》,《细胞(cell)》171,1042-1056.e10(2017))。图71b展示膀胱癌相关突变标签的相对贡献。图71c展示膀胱癌中频繁突变的基因中的突变(tcga)(robertson,a.g.等人,《肌肉侵袭性膀胱癌的综合分子表征(comprehensivemolecularcharacterizationofmuscle-invasivebladdercancer)》,《细胞》171,540-556.e25(2017))。图71d展示在68个样品中的超过5％的样品中突变的dna损伤反应(ddr)相关基因中的有害突变。图71e展示有害ddr突变的总数。图71f展示临床和组织病理学特征。图71g展示概述的ctdna状态。

图72：概述用于实例9中的肌肉侵袭性膀胱癌研究的临床方案和取样时间表的图。

图73：概述signatera^tm工作流程的图。

图74：对应于实例9中的肌肉侵袭性膀胱癌研究的所有分析样品的ctdna结果的纵向表示。基于ctdna状态将患者分成三个组：上部图展示在切除术(cx)之前及之后呈ctdna阳性的患者；中间图展示仅在cx之前呈ctdna阳性的患者；下部图展示呈ctdna阴性的患者。水平线表示每个患者疾病病程且圆形表示ctdna状态，红色圆形指示具有至少2种阳性分析法的样品。指示每位患者的治疗和成像信息。

图75a-e：实例9中的肌肉侵袭性膀胱癌研究的ctdna检测的预后值的图形描述。卡普兰-迈耶(kaplan-meier)存活率分析展示在化学疗法之前(图75a)、在切除术(cx)之前(图75b)和在切除术(cx)之后(图75c)，由ctdna状态进行分级的无复发存活率(rfs)和总存活率(os)的概率。图75d展示在化学疗法之前、在切除术之前和在切除术之后，疾病复发与ctdna状态之间的关联性，以及在切除术之前，疾病复发与淋巴结状态之间的关联性。图75e展示切除术(cx)之前的ctdna状态与进行切除术(cx)时的病理状态之间的关联性。使用用于连续变量的威尔科克森秩和检验(wilcoxonrank-sumtest)和用于类别变量的费舍尔精确检验(fisher'sexacttest)进行统计显著性的评估。

图76：展示实例9中的肌肉侵袭性膀胱癌研究的单独疾病病程中的ctdna变化的图。图76展示来自所选择的患者的详细描述的疾病病程、所应用的治疗和相关纵向ctdna分析的表示。根据图例呈现ctdna状态、所应用的治疗和成像结果。指示基于ctdna的复发检测的阳性前置时间。

图77：展示实例9中的肌肉侵袭性膀胱癌研究的分子复发(ctdna阳性)与临床复发(放射性成像阳性)之间的时间差的图。使用配对威尔科克森秩和检验计算p值。

图78a-h：展示实例9中的肌肉侵袭性膀胱癌研究的化学疗法反应的预测性标记物的图。图78a展示疾病复发与对化学疗法的反应之间的关联性。图78b展示分别通过对化学疗法的反应和ercc2突变状态进行分级的所有患者的相关标签5贡献。图78c展示对与ercc2突变状态有关的疗法起反应的一部分患者。图78d是rna亚型figures_new图。图78e展示在整个疾病病程期间呈ctdna阴性的患者、ctdna含量降到零的患者和ctdna含量保持阳性的患者中，ctdna与对化学疗法的反应之间的关联性。图78f展示在化学疗法之前、期间和之后，所有具有可检测的ctdna的患者的ctdna含量。由对化学疗法的反应将患者分组且指示复发状态。

图79a-d：展示在实例9中的肌肉侵袭性膀胱癌研究中，与ercc2状态相关的每位患者中所鉴别的突变的总数或损伤dna损伤反应(ddr)突变的数目的图。

图80：描绘在实例9中的肌肉侵袭性膀胱癌研究中，原发性肿瘤与转移性复发之间的基因组异质性的图。比较原发性肿瘤的完全外显子组测序(wes)数据与ctdna。来自在转移性复发时检测到高ctdna变异体等位基因出现率(vaf)的血浆样品的数据。研究在血浆或肿瘤外显子组数据中鉴别到突变的基因组位置以用于基础计数。展示在血浆和肿瘤外显子组数据中鉴别的所得等位基因出现率。根据突变识别的统计概率(强度)将各个突变标记颜色。文氏图表示仅在肿瘤、血浆或这两者中鉴别的突变数目。

图81：描绘在来自实例9中的肌肉侵袭性膀胱癌研究的8名患者中，与切除术(cx)相关的不同天数时的变异等位基因出现率(vaf％)的图。

图82：展示在实例9中的肌肉侵袭性膀胱癌研究中，与超深测序相比，来自先前由ddpcr进行分析的10名患者的血浆中的ctdna含量的图。

图83a-e：展示全部125名患者的临床、组织病理学和分子参数的图。图83a展示与突变标签相关的五种最流行的结肠直肠癌的相对贡献。图83b展示由wes识别的同义与非同义突变的比率。图83c描绘展示结肠直肠癌中频繁突变的基因中的突变(tcga)的图{《癌症基因组图谱(cancergenomeatlas)》,2012第52号}。图83d展示临床和组织病理学特征。图83e展示概述手术前和手术后的ctdna状态的图。

图84：展示用于解决既定临床问题的患者入选、样品收集和患者子组的定义的图。缩写：ctdna，循环肿瘤dna；ct-扫描，计算机断层摄影扫描；手术后，手术后；ttr，复发时间。

图85a-c：展示患者样品的完全外显子组测序的工作流程的质量控制(qc)检验的图。795个血浆样品中的793个(99％)在样品qc过程中合格。用snp追踪器操作194个样品(来自70名患者)以检验血浆样品与其对应的组织活检之间的和谐性。全部194个血浆样品都在和谐性qc中合格。图85a展示库制备dna输入量。使用来自每个血浆样品的最多66ng游离dna(cfdna)作为库制备方案的输入物。库dna输入量在1到66ng范围内，其中中值是45.66。在继续进行下一步骤之前，对被纯化的库进行质量控制。一个样品在库制备qc中不合格。图85b展示测序覆盖率。分析中排除覆盖率小于5000x的分析法。接着，具有小于8种合格分析法的样品在测序覆盖率qc中不合格。一个样品在测序覆盖率要求方面不合格。在覆盖率qc中合格的分析法的中值读段深度是105,000x。图85c展示在所有血浆样品中测量的测序误差率。平均转换误差率是5e-5且平均颠换误差率是8e-6。

图86展示每个单独患者的循环肿瘤dna(ctdna)结果和动力学。

图87a-f展示手术前(op前)、手术后第30天和在辅助化学疗法(act)期间的ctdna状态。图87a展示ctdna的手术前检测。图87b展示复发率。图87c展示由手术后第30天的ctdna状态进行分级的94名i-iii期患者的ttr的卡普兰-迈耶估计。图87d展示对ctdna阳性患者的act作用，由复发率和纵向ctdna状态评估。图87e展示在act后第一次访视时，由ctdna状态进行分级的复发率。图87f展示58名用act治疗的患者的ttr的卡普兰-迈耶估计，由act后第一次访视时的ctdna状态进行分级。

图88展示125名i-iii期crc患者中的癌胚抗原(cea)的手术前检测。

图89展示第30天ctdna分析中所包括的血浆样品的ctdna分布结果的示意性概述，由复发状态和疾病阶段进行排序。用(s)标记的患者具有同步crc。用**标记的血浆仅在第二个池中是阳性(n＝1)。

图90a-b展示第30天ctdna分析中所包括的且接受act的血浆样品的子集的ctdna分布结果的示意性概述，由复发状态和疾病阶段进行排序。用(s)标记的患者具有同步crc。

图91展示纵向act后ctdna分析中所包括的血浆样品的ctdna分布结果的示意性概述，由复发状态、手术后ctdna状态和随访长度进行排序。用(s)标记的患者具有同步crc(n＝2)。用**标记的血浆样品仅在第二个池中是阳性(n＝1)。

图92展示纵向act后ctdna分析中所包括的血浆样品的cea分布结果的示意性概述，由复发状态、手术后ctdna状态和随访长度进行排序。用(s)标记的患者具有同步crc(n＝2)。用**标记的血浆仅在第二个池中是阳性(n＝1)。

图93a-d：展示在确定性治疗之后，ctdna状态与复发之间的关联性的图。图93a展示由纵向ctdna状态进行分级的复发率。图93b展示用纵向样品进行的75名患者的ttr的卡普兰-迈耶估计，由纵向ctdna状态进行分级。图93c展示比较时间与放射性和ctdna复发的图。图93d展示针对放射性复发，血浆中的ctdna变异等位基因出现率(vaf)增加。省略在act之前和在act期间的早期时间点。

图94：来自复发性和非复发性患者的纵向血浆样品的ctdna分布结果的示意性概述。在监测期间仅具有一个阳性血浆样品的患者视为阳性。

图95：来自复发性和非复发性患者的纵向血清样品的cea分布结果的示意性概述。在监测期间仅具有一个阳性血浆样品的患者视为阳性。

图96：比较时间与放射性和cea复发的图。

图97a-c：复发患者中的可操作突变的检测。图97a展示在监测期间检测到可操作突变的ctdna+复发患者的百分比。第一个ctdna+样品(左侧柱)和所有ctdna+血浆样品(右侧柱)。图97b展示血液中识别的可操作变异体。使用实体瘤患者定制化监测技术ctdna+分析法计算的平均血液vaf与可操作突变的变异等位基因出现率(vaf)之间的相关性，在横轴和纵轴上都使用对数尺度标绘。图97c展示具有可操作突变的两名代表性复发患者的连续ctdna分布。

图98：当前护理标准与可能的ctdna指导的手术后患者管理的示意性比较。

图99：展示由辅助化学疗法(act)降低的ctdna的图。

图100a-b：展示在确定性治疗之后，ctdna状态与复发之间的关联性的图。图100a展示由纵向ctdna状态进行分级的复发率，和使用纵向样品进行的58名患者的ttr的卡普兰-迈耶估计，由纵向ctdna分析进行分级。图100b展示由cea分析进行分级的复发率，和使用纵向样品进行的58名患者的ttr的卡普兰-迈耶估计，由cea分析进行分级。

以上所标识的图是以代表性且非限制性方式提供。

具体实施方式

本文中所提供的方法和组合物改善癌症(例如乳癌、膀胱癌或结肠直肠癌)的检测、诊断、分期、筛选、治疗和管理。在说明性实施例中，本文中所提供的方法分析循环流体，尤其循环肿瘤dna中的单核苷酸变异体突变(snv)。所述方法提供以下优点：在利用肿瘤样品的单一检验中，而非需要多个检验，即可鉴别更多的在肿瘤中发现的突变以及克隆和亚克隆突变(如果完全有效)。方法和组合物本身可以是有帮助的，或其可以在与其它用于癌症(例如乳癌、膀胱癌或结肠直肠癌)的检测、诊断、分期、筛选、治疗和管理的方法一起使用时是有帮助的，例如帮助支持这些其它方法的结果以提供置信度更高和/或决定性的结果。

因此，在一个实施例中，本文中提供一种方法，其使用本文中所提供的ctdnasnv扩增/测序工作流程，通过确定来自个体，如患有或怀疑患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体的ctdna样品中是否存在单核苷酸变异体来确定癌症(例如乳癌、膀胱癌或结肠直肠癌)中是否存在单核苷酸变异体。

术语“癌症”和“癌性”是指或描述特征通常在于不受调控的细胞生长的动物中的生理学病状。“肿瘤”包含一种或多种癌性细胞。存在若干种主要癌症类型。癌瘤是在皮肤中或在沿内脏排列或覆盖内脏的组织中开始的癌症。肉瘤是在骨骼、软骨、脂肪、肌肉、血管或其它连接性或支持性组织中开始的癌症。白血病是在血液形成组织(如骨髓)中开始的癌症，且引起大量异常的血细胞产生和进入血液。淋巴瘤和多发性骨髓瘤是在免疫系统的细胞中开始的癌症。中枢神经系统癌症是在脑部和脊髓的组织中开始的癌症。

在一些实施例中，癌症包含急性淋巴母细胞性白血病；急性骨髓性白血病；肾上腺皮质癌；aids相关癌症；aids相关淋巴瘤；肛门癌；阑尾癌；星形细胞瘤；非典型畸胎样/横纹肌样肿瘤；基底细胞癌；膀胱癌；脑干神经胶质瘤；脑肿瘤(包括脑干神经胶质瘤、中枢神经系统非典型畸胎样/横纹肌样肿瘤、中枢神经系统胚胎肿瘤、星形细胞瘤、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、神经管胚细胞瘤、髓上皮瘤、中度分化型松果体实质性肿瘤、幕上原始神经外胚层肿瘤和成松果体细胞瘤)；乳癌；支气管肿瘤；伯基特淋巴瘤；原发位点未知的癌症；类癌肿瘤；原发位点未知的癌瘤；中枢神经系统非典型畸胎样/横纹肌样肿瘤；中枢神经系统胚胎肿瘤；子宫颈癌；儿童癌症；脊索瘤；慢性淋巴细胞性白血病；慢性骨髓性白血病；慢性骨髓增生性病症；结肠癌；结肠直肠癌；颅咽管瘤；皮肤t细胞淋巴瘤；内分泌胰岛细胞瘤；子宫内膜癌；室管膜母细胞瘤；室管膜瘤；食道癌；鼻腔神经胶质瘤；尤文氏肉瘤；颅外生殖细胞肿瘤；性腺外生殖细胞肿瘤；肝外胆管癌；胆囊癌；胃部(胃)癌症；胃肠道类癌肿瘤；胃肠道基质细胞肿瘤；胃肠道基质瘤(gist)；妊娠期滋养细胞肿瘤；神经胶质瘤；毛状细胞白血病；头颈癌；心脏癌症；霍奇金氏淋巴瘤；下咽癌症；眼内黑素瘤；胰岛细胞瘤；卡波西肉瘤；肾脏癌；兰格汉氏细胞组织细胞增多病；喉癌；唇癌；肝癌；恶性纤维组织细胞瘤骨癌；神经管胚细胞瘤；髓上皮瘤；黑素瘤；梅克尔细胞癌；梅克尔细胞皮肤癌瘤；间皮瘤；隐性原发性转移性鳞状颈部癌症；口腔癌；多发性内分泌瘤形成综合症；多发性骨髓瘤；多发性骨髓瘤/血浆细胞赘瘤；蕈样真菌病；骨髓发育不良综合症；骨髓增生赘瘤；鼻腔癌；鼻咽癌；神经母细胞瘤；非霍奇金氏淋巴瘤；非黑素瘤型皮肤癌；非小细胞肺癌；口部癌症；口腔癌症；口咽癌；骨肉瘤；其它脑部和脊髓肿瘤；卵巢癌；卵巢上皮癌症；卵巢生殖细胞肿瘤；卵巢低恶性潜能肿瘤；胰脏癌；乳头瘤病；副鼻窦癌；副甲状腺癌；骨盆癌；阴茎癌；咽癌；中度分化型松果体实质性肿瘤；成松果体细胞瘤；垂体肿瘤；血浆细胞赘瘤/多发性骨髓瘤；胸膜肺母细胞瘤；原发性中枢神经系统(cns)淋巴瘤；原发性肝细胞肝癌；前列腺癌；直肠癌；肾癌；肾细胞(肾脏)癌；肾细胞癌；呼吸道癌症；成视网膜细胞瘤；横纹肌肉瘤；唾液腺癌症；塞氏综合症；小细胞肺癌；小肠癌；软组织肉瘤；鳞状细胞癌；鳞状颈部癌症；胃(胃部)癌症；幕上原始神经外胚层肿瘤；t细胞淋巴瘤；睾丸癌；喉癌；胸腺癌；胸腺瘤；甲状腺癌；移行细胞癌症；肾盂和输尿管的移行细胞癌症；滋养细胞肿瘤；输尿管癌症；尿道癌；子宫癌；子宫瘤；阴道癌；外阴癌；瓦尔登斯特伦巨球蛋白血症；或威尔姆氏肿瘤。

在另一实施例中，本文中提供用于在来自个体，如怀疑患有癌症的个体的血液样品或其一部分中检测癌症(例如乳癌、膀胱癌或结肠直肠癌)的方法，其包括使用本文中所提供的ctdnasnv扩增/测序工作流程，通过确定ctdna样品中是否存在单核苷酸变异体来确定样品中是否存在单核苷酸变异体。在样品中，在多个单核苷酸基因座处存在作为范围的下端的1、2、3、4、5、6、7、8、9、10、11、12、13、14或15种snv和作为范围的上端的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40或50种snv指示存在癌症(例如乳癌、膀胱癌或结肠直肠癌)。

在另一实施例中，本文中提供用于检测个体的肿瘤(例如乳癌、膀胱癌或结肠直肠癌)中的克隆单核苷酸变异体的方法。所述方法包括进行如本文中所提供的ctdnasnv扩增/测序工作流程，并且基于所述系列的扩增子的多个拷贝的序列来确定每个snv基因座的变异体等位基因出现率。与多个单核苷酸变异体基因座的其它单核苷酸变异体相比较高的相对等位基因出现率指示肿瘤中的克隆单核苷酸变异体。变异体等位基因出现率是测序技术中众所周知的。对这一实施例的支持提供于例如图12-14中。

在某些实施例中，所述方法进一步包括确定治疗计划、疗法和/或向个体给予靶向一种或多种克隆单核苷酸变异体的化合物。在某些实例中，亚克隆和/或其它克隆snv不是疗法的目标。特定疗法和相关突变提供于本说明书的其它章节中且是所属领域中已知的。因此，在某些实例中，所述方法进一步包括向个体给予化合物，其中已知所述化合物可以特定地有效治疗具有一种或多种所确定的单核苷酸变异体的癌症(例如乳癌、膀胱癌或结肠直肠癌)。

在这一实施例的某些方面中，变异体等位基因出现率大于0.25％、0.5％、0.75％、1.0％、5％或10％指示存在克隆单核苷酸变异体。这些截止值由表格形式图20a-b中的数据支持。

在这一实施例的某些实例中，癌症是1a、1b或2a期乳癌、膀胱癌或结肠直肠癌。在这一实施例的某些实例中，癌症是1a或1b期乳癌、膀胱癌或结肠直肠癌。在实施例的某些实例中，个体未经历手术。在实施例的某些实例中，个体未经历活检。

在这一实施例的一些实例中，如果其它检验(如直接肿瘤检验)表明检验中的snv是克隆snv(即可变等位基因出现率大于至少四分之一、三分之一、二分之一或四分之三的其它所确定的单核苷酸变异体的任何检验中的snv)，那么鉴别或进一步鉴别克隆snv。

在一些实施例中，可以使用本文中的用于检测ctdna中的snv的方法代替来自肿瘤的dna的直接分析。本文中所提供的结果表明，具有显著更高的成为克隆snv的可能性的snv具有较高的vaf(参见例如图12-14)。

在本文中所提供的任何方法实施例的某些实例中，在对来自个体的ctdna进行靶向扩增之前，提供关于在来自个体的肿瘤中发现的snv的数据。因此，在这些实施例中，对来自个体的一个或多个肿瘤样品进行snv扩增/测序反应。在这类方法中，本文中所提供的ctdnasnv扩增/测序反应仍是有利的，因为其提供克隆和亚克隆突变的液体活检。此外，如本文中所提供，如果在来自个体的ctdna样品中针对snv确定高vaf百分比，例如超过1、2、3、4、5、6、7、8、9、10％vaf，那么可以在患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体中更明确地鉴别克隆突变。

在某一实施例中，本文中所提供的方法可以用于确定是否从来自患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体的循环游离核酸分离和分析ctdna。首先，确定癌症是否是乳癌、膀胱癌或结肠直肠癌。如果癌症是乳癌、膀胱癌或结肠直肠癌，那么从个体分离循环游离核酸。在一些实例中，所述方法进一步包括确定癌症的阶段。

在一些方法中，本文中提供本发明的组合物和/或固体负载物。一种包含循环肿瘤核酸片段的组合物，所述循环肿瘤核酸片段包含通用衔接子，其中循环肿瘤核酸是来源于乳癌、膀胱癌或结肠直肠癌。

在一些实施例中，本文中提供本发明的组合物，其包括包含通用衔接子的循环肿瘤核酸片段，其中循环肿瘤核酸是来源于患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体的血液样品或其一部分。这些方法通常包括形成包括通用衔接子的ctdna片段。此外，这类方法通常包括形成固体负载物，尤其用于高通量测序的固体负载物，其包括核酸的多个克隆群体，其中所述克隆群体包含由循环游离核酸的样品产生的扩增子，其中ctdna。在基于本文中所提供的出人意料的结果的说明性实施例中，ctdna是来源于癌症(例如乳癌、膀胱癌或结肠直肠癌)。

类似地，作为本发明的实施例，本文中提供包含核酸的多个克隆群体的固体负载物，其中克隆群体包含由循环游离核酸的样品产生的核酸片段，所述循环游离核酸是来自患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体的血液样品或其一部分。

在某些实施例中，不同克隆群体中的核酸片段包含相同通用衔接子。这类组合物通常在本发明的方法中的高通量测序反应期间形成。

核酸的克隆群体可以来源于来自两名或更多名个体的样品集合的核酸片段。在这些实施例中，核酸片段包含对应于样品集合中的样品的一系列分子条形码中的一个。

详细分析方法在本文中以本文中的分析章节中的snv方法1和snv方法2形式提供。本文中所提供的任何方法可以进一步包括本文中所提供的分析步骤。因此，在某些实例中，用于确定样品中是否存在单核苷酸变异体的方法包括鉴别在单核苷酸变异基因座集合中的每一个处进行的每一次等位基因确定的置信度值，其可以至少部分地基于基因座的读段深度。置信界限可以设置成至少75％、80％、85％、90％、95％、96％、96％、98％或99％。置信界限可以针对不同类型的突变而设置成不同水平。

所述方法可以在单核苷酸变异基因座集合的读段深度是至少5、10、15、20、25、50、100、150、200、250、500、1,000、10,000、25,000、50,000、100,000、250,000、500,000或1百万的情况下进行。

在某些实施例中，本文中的任何实施例的方法包括确定效率和/或确定单核苷酸变异基因座的多重扩增反应中的每个扩增反应的每个循环的误差率。接着，效率和误差率可以用于确定样品是否中存在单一变异体基因座集合处的单核苷酸变异体。在某些实施例中，还可以包括分析方法中所提供的snv方法2中所提供的更详细的分析步骤。

在本文中的任何方法的说明性实施例中，单核苷酸变异基因座集合包括在癌症(例如乳癌、膀胱癌或结肠直肠癌)的tcga和cosmic数据集中鉴别的所有单核苷酸变异基因座。

在本文中的任何方法的某些实施例中，单核苷酸变异体基因座集合包括作为范围的下端的2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500、1000、2500、5000或10,000种和作为范围的下端的5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500、1000、2500、5000、10,000、20,000和25,000种已知与癌症(例如乳癌、膀胱癌或结肠直肠癌)相关联的单核苷酸变异基因座。

在本文中的任何包括ctdnasnv扩增/测序工作流程的用于检测snv的方法中，可以使用改善的多重pcr的扩增参数。举例来说，对于引物集合中的至少10、20、25、30、40、50、06、70、75、80、90、95或100％的引物，其中扩增反应是pcr反应且粘接温度比熔融温度高作为范围的下端的1、2、3、4、5、6、7、8、9或10℃到作为范围的上端的2、3、4、5、6、7、8、9、10、11、12、13、14或15℃。

在某些实施例中，其中扩增反应是pcr反应，pcr反应中的粘接步骤的长度是作为范围的下端的10、15、20、30、45和60分钟到作为范围的上端的15、20、30、45、60、120、180或240分钟。在某些实施例中，扩增(如pcr反应)中的引物浓度在1与10nm之间。此外，在例示性实施例中，引物集合中的引物被设计成最大限度地减少引物二聚体形成。

因此，在本文中任何包括扩增步骤的方法的实例中，扩增反应是pcr反应，粘接温度比引物集合中至少90％的引物的熔融温度高1到10℃，pcr反应中的粘接步骤的长度是15到60分钟，扩增反应中的引物浓度是1到10nm，并且引物集合中的引物被设计成最大限度地减少引物二聚体形成。在本实例的另一个方面中，在限制性引物条件下进行多重扩增反应。

在另一实施例中，本文中提供用于支持个体(如怀疑患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体)中的由来自个体的血液样品或其一部分进行的癌症(例如乳癌、膀胱癌或结肠直肠癌)诊断的方法，其包括进行如本文中所提供的ctdnasnv扩增/测序工作流程，以确定多个单核苷酸变异体基因座中是否存在一种或多种单核苷酸变异体。在这一实施例中，以下元素、陈述、指南或规则适用：如果不存在单核苷酸变异体，那么支持1a、1b或2a期腺癌的诊断；如果存在单核苷酸变异体，那么支持鳞状细胞癌或2b或3a期腺癌的诊断；和/或如果存在十种或更多种单核苷酸变异体，那么支持鳞状细胞癌或2b或3期腺癌的诊断。

这些结果将使用来自个体的肺adc和scc样品的ctdnasnv扩增/测序工作流程的分析确定为用于鉴别在adc肿瘤，尤其2b和3a期adc肿瘤且尤其任何阶段的scc肿瘤中发现的snv的有价值的方法(参见例如图15和图20a-b)。

在某些实施例中，本文中的用于检测snv的方法可以用于指导治疗方案。以与adc和scc相关联的特异性突变为目标的疗法是可用的且正在研发中(《自然癌症综述(naturereviewcancer)》,14:535-551(2014))。举例来说，在l858r或t790m处检测到egfr突变可以为选择疗法提供信息。埃罗替尼(erlotinib)、吉非替尼(gefitinib)、阿法替尼(afatinib)、azk9291、co-1686和hm61713是当前在美国或在临床试验中被批准的疗法，其靶向特异性egfr突变。在另一实例中，kras中的g12d、g12c或g12v突变可以用于指导个体使用司美替尼(selumetinib)加多烯紫杉醇(docetaxel)的组合的疗法。作为另一实例，braf中v600e的突变可以用于指导个体使用维罗非尼(vemurafenib)、达拉非尼(dabrafenib)和曲美替尼(trametinib)的治疗。

在某些说明性实施例中，本发明的方法中分析的样品是血液样品或其一部分。在某些实施例中，本文中所提供的方法被专门调适成用于扩增dna片段，尤其在循环肿瘤dna(ctdna)中发现的肿瘤dna片段。这类片段的长度通常是约160个核苷酸。

在所属领域中已知，游离核酸(cell-freenucleicacid；cfna)，例如cfdna，可以通过多种形式的细胞死亡(如细胞凋亡、坏死、自噬和坏死性凋亡)而释放至循环中。cfdna被片段化且片段的尺寸分布在150-350bp到>10000bp范围内(参见kalnina等人,《世界胃肠病学杂志(worldjgastroenterol.)》,2015年11月7日；21(41):11636-11653)。举例来说，肝细胞癌(hcc)患者中的血浆dna片段的尺寸分布在长度是100-220bp的范围内，其中在约166bp处具有计数频率的峰值且在长度是150-180bp的片段中具有最高肿瘤dna浓度(参见：jiang等人,《美国国家科学院院刊(procnatlacadsciusa)》,112:e1317-e1325)。

在说明性实施例中，在通过离心来去除细胞碎片和血小板之后，使用edta-2na试管从血液分离循环肿瘤dna(ctdna)。血浆样品可以在-80℃下储存直到使用例如qiaampdna小型试剂盒(qiagen,hilden,germany)提取dna(例如hamakawa等人,《英国癌症杂志(brjcancer.)》2015；112:352-356)。hamakava等人报道所有样品的所提取的游离dna的中值浓度是每毫升血浆43.1ng(在9.5-1338ng/ml范围内)且突变体分数范围是0.001-77.8％，其中中值是0.90％。

在某些说明性实施例中，样品是肿瘤。鉴于本文中的教示内容，所属领域中已知用于从肿瘤分离核酸和由这类dna样品创建核酸库的方法。此外，鉴于本文中的教示内容，所属领域的技术人员将认识到如何由除ctdna样品以外的其它样品(如其中dna是自由浮动的其它液体样品)创建适用于本文中的方法的核酸库。

在某些实施例中，本发明的方法通常包括由样品产生和扩增核酸库(即，库制备)的步骤。在库制备步骤期间，来自样品的核酸可以具有附接的接合衔接子，通常称为库标签或接合衔接子标签(lt)，其中接合衔接子含有通用引发序列，接着是通用扩增。在一个实施例中，这可以使用被设计成在片段化之后创建测序库的标准方案来进行。在一个实施例中，可以对dna样品进行钝端化，并且接着可以在3'端添加a。可以添加和接合具有t突出端的y衔接子。在一些实施例中，可以使用除a或t突出端以外的其它粘性末端。在一些实施例中，可以添加其它衔接子，例如环形接合衔接子。在一些实施例中，衔接子可以具有被设计成用于pcr扩增的标签。

本文中所提供的许多实施例包括检测ctdna样品中的snv。在说明性实施例中，这类方法包括扩增步骤和测序步骤(在本文中有时称为“ctdnasnv扩增/测序工作流程”)。在说明性实例中，ctdna扩增/测序工作流程可以包括通过对核酸进行多重扩增反应来产生扩增子集合，所述核酸是从来自个体(如怀疑患有癌症(例如乳癌、膀胱癌或结肠直肠癌)的个体)的血液样品或其一部分分离，其中扩增子集合中的每个扩增子跨越单核苷酸变异体基因座集合中的至少一个单核苷酸变异体基因座，如已知与癌症(例如乳癌、膀胱癌或结肠直肠癌)相关联的snv基因座；和确定扩增子集合中的每个扩增子的至少一个区段的序列，其中所述区段包含单核苷酸变异体基因座。以此方式，这种例示性方法确定样品中是否存在单核苷酸变异体。

更详细地，例示性ctdnasnv扩增/测序工作流程可以包括通过组合以下来形成扩增反应混合物：聚合酶、核苷酸三磷酸酯、来自由样品产生的核酸库的核酸片段以及引物集合(所述引物各自在单核苷酸变异体基因座的有效距离内结合)或引物对集合(所述引物对各自跨越包括单核苷酸变异体基因座的有效区域)。在例示性实施例中，单核苷酸变异体基因座是一个已知与癌症(例如乳癌、膀胱癌或结肠直肠癌)相关联的基因座。接着，使扩增反应混合物经历扩增条件以产生扩增子集合，所述扩增子集合包含优选已知与癌症(例如乳癌、膀胱癌或结肠直肠癌)相关联的单核苷酸变异体基因座集合中的至少一个单核苷酸变异体基因座；和确定扩增子集合中的每个扩增子的至少一个区段的序列，其中所述区段包含单核苷酸变异体基因座。

引物的有效结合距离可以在snv基因座的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100、125或150个碱基对内。一对引物跨越的有效范围通常包括snv且通常是160个或更少的碱基对，并且可以是150、140、130、125、100、75、50或25个或更少的碱基对。在其它实施例中，一对引物跨越的有效范围是来自snv基因座的作为范围的下端的20、25、30、40、50、60、70、75、100、110、120、125、130、140或150个和作为范围的上端的25、30、40、50、60、70、75、100、110、120、125、130、140或150、160、170、175或200个核苷酸。

关于可以用于ctdnasnv扩增/测序工作流程中以检测snv，从而用于本发明的方法中的扩增方法的其它细节提供于本说明书的其它章节中。

snv识别分析

在进行本文中所提供的方法期间，产生由并排多重pcr产生的扩增子的核酸测序数据。可以使用算法设计工具，其可以用于和/或被调适成用于分析这类数据以确定在某些置信度限制内，目标基因中是否存在突变，如snv。

测序读段可以使用内部工具进行解复用且使用成对末端合并读段，使用巴罗斯-惠勒比对软件(burrows-wheeleralignmentsoftware)，bwamem功能(bwa,巴罗斯-惠勒比对软件(参见lih.和durbinr.(2010)《用巴罗斯-惠勒转换进行的快速和精确长读段比对(fastandaccuratelong-readalignmentwithburrows-wheelertransform)》,《bioinformatics(生物信息学)》,电子版[pmid:20080505])以单端模式映射到hg19基因组。可通过分析全部读段、映射的读段数目、中靶的映射的读段数目和进行计数的读段数目来进行扩增统计qc。

在某些实施例中，任何用于由核酸测序数据检测来检测snv的分析方法都可以与本发明的包括检测snv或确定是否存在snv的步骤的方法一起使用。在某些说明性实施例中，使用利用以下snv方法1的本发明的方法。在其它的说明性甚至更高的实施例中，本发明的包括检测snv或确定snv基因座中是否存在snv的步骤的方法利用以下snv方法2。

snv方法1：在本实施例中，使用正常血浆样品构筑背景误差模型，所述正常血浆样品在同一测序操作中测序以解决操作特异性假象。在某些实施例中，在同一测序操作中分析5、10、15、20、25、30、40、50、100、150、200、250或超过250个正常血浆样品。在某些说明性实施例中，在同一测序操作中分析20、25、40或50个正常血浆样品。去除具有大于截止值的正常中值变异体等位基因出现率的噪声位置。举例来说，在某些实施例中，这一截止值是>0.1％、0.2％、0.25％、0.5％、1％、2％、5％或10％。在某些说明性实施例中，去除具有大于0.5％的正常中值变异体等位基因出现率的噪声位置。从模型迭代地去除异常样品以解决噪声和污染。在某些实施例中，从数据分析去除z评分大于5、6、7、8、9或10的样品。对于每个基因座的每个碱基取代，计算误差的读段深度加权平均值和标准差。举例来说，可以将针对背景误差模型具有至少5个变异体读段且z评分是10的肿瘤或无细胞血浆样品的位置识别为候选突变。

snv方法2：在本实施例中，使用血浆ctdna数据确定单核苷酸变异体(snv)。pcr方法模型化为随机方法，使用训练集估计参数且产生用于单独检验集合的最终snv识别。确定跨越多个pcr循环的误差的传播，并且计算背景误差的平均值和方差且在说明性实施例中，区分背景误差与真实突变。

估计每个碱基的以下参数：

p＝效率(在每个循环中复制每个读段的概率)

pe＝突变类型e的每个循环的误差率(e型误差出现的概率)

x0＝初始分子数目

因为在pcr方法的过程中复制读段，所以存在更多的误差。因此，由与原始读段的分离程度来确定读段的误差分布。如果一个读段在其被产生之前已经历k次复制，那么我们将其称为第k代。

让我们定义每个碱基的以下变量：

xij＝在pcr循环j中产生的第i代读段的数目

yij＝在循环j结束时第i代读段的总数

xij^e＝在pcr循环j中产生的具有突变e的第i代读段的数目

此外，除正常分子x0以外，如果在pcr方法开始时存在其它具有突变e的fex0分子(因此，fe/(1+fe)将是初始混合物中的突变分子的分数)。

鉴于在循环j-1中的第i-1代读段的总数，在样品尺寸是yi-1,j-1且概率参数是p的情况下，循环j中产生的第i代读段的数目具有二项分布。因此，e(xij,|yi-1,j-1,p)＝pyi-1,j-1且var(xij,|yi-1,j-1,p)＝p(1-p)yi-1,j-1。

我们还具有因此，通过递归、模拟或类似方法，我们可以确定e(xij,)。类似地，我们可以使用p的分布确定var(xij)＝e(var(xij,|p))+var(e(xij,|p))。

最终，e(xij^e|yi-1,j-1,pe)＝peyi-1,j-1且var(xij^e|yi-1,j-1,p)＝pe(1-pe)yi-1,j-1，且我们可以使用这些计算e(xij^e)和var(xij^e)。

在某些实施例中，如下进行snv方法2：

a)使用训练数据集估计pcr效率和每个循环误差率；

b)使用在步骤(a)中估计的效率分布，估计每个碱基处的检验数据集的起始分子的数目；

c)如果需要，那么使用在步骤(b)中估计的分子的起始数目更新检验数据集的效率的估计；

d)使用检验集合数据以及在步骤(a)、(b)和(c)中估计的参数，估计分子总数、背景误差分子和真实突变分子的平均值和方差(对于由初始百分比的真实突变分子组成的搜索空间)；

e)针对全部分子中的全部误差分子(背景误差和真实突变)的数目拟合分布，且计算搜索空间中的每个真实突变百分比的似然性；和

f)确定最有可能的真实突变百分比且使用来自步骤(e)的数据计算置信度。

可以使用置信度截止值鉴别snv基因座处的snv。举例来说，可以使用90％、95％、96％、97％、98％或99％置信度截止值识别snv。

例示性snv方法2算法

通过使用训练集估计每个循环的效率和误差率来开始算法。假设n表示pcr循环的总数。

可以由(1+pb)ⁿx0估算每个碱基b处的读段rb的数目，其中pb是碱基b处的效率。接着，可以使用(rb/x0)^1/n估算1+pb。接着，可以确定所有训练样品的pb的平均值和标准方差，以估计每个碱基的概率分布(如正交、β或类似分布)的参数。

类似地，可以使用每个碱基b处的误差e读段rb^e的数目估计pe。在确定所有训练样品的误差率的平均值和标准差之后，估算其概率分布(如正交、β或类似分布)，使用这类平均值和标准差值估计所述概率分布的参数。

接着，对于检验数据，将每个碱基处的初始起始拷贝估计为其中f(.)是来自训练集的所估计的分布。

其中f(.)是来自训练集的所估计的分布。

因此，我们估计了将用于随机方法中的参数。接着，通过使用这些估计值，可以估计在每个循环中创建的分子的平均值和方差(应注意，对于正常分子、误差分子和突变分子，独立地进行所述估计)。

最终，通过使用概率方法(如最大似然性或类似方法)，可以确定最佳地拟合误差、突变和正常分子的分布的最佳fe值。更具体地说，估计在最终读段中，各种fe值的所预期的误差分子与全部分子的比率且确定我们的数据针对这些值中的每一个的似然性，且接着选择具有最高似然性的值。

引物尾部可以改善来自通用标记库的片段化dna的检测。如果库标签和引物尾部含有同源序列，那么杂交可以得到改善(例如，熔融温度(tm)降低)并且如果仅一部分引物目标序列在样品dna片段中，那么可以延长引物。在一些实施例中，可以使用13个或更多的目标特异性碱基对。在一些实施例中，可以使用10到12个目标特异性碱基对。在一些实施例中，可以使用8到9个目标特异性碱基对。在一些实施例中，可以使用6到7个目标特异性碱基对。

在一个实施例中，通过使衔接子接合到样品中的dna片段的末端或由从样品分离的dna产生的dna片段的末端来由以上样品产生库。接着，可以使用pcr来扩增片段，例如根据以下例示性方案：

95℃，2分钟；15×[95℃，20秒，55℃，20秒，68℃，20秒]，68℃，2分钟，保持在4℃下。

所属领域中已知许多用于产生核酸库的试剂盒和方法，所述核酸库包括用于后续扩增(例如克隆扩增)和子序列测序的通用引物结合位点。为了有助于衔接子的接合，库制备和扩增可以包括末端修复和腺苷酸化(即，a-加尾)。尤其适用于由小型核酸片段(尤其循环游离dna)制备库的试剂盒可以适用于实践本文中所提供的方法。举例来说，可以从biooscientific()获得的nextflexcellfree试剂盒或nateralibraryprep试剂盒(可以从natera,inc.sancarlos,ca获得)。然而，这类试剂盒通常将被修改以包括被定制成用于本文中所提供的方法的扩增和测序步骤的衔接子。可以使用可商购的试剂盒，如agilentsureselect试剂盒(agilent,ca)中的接合试剂盒来进行衔接子接合。

接着，扩增由从样品(尤其用于本发明的方法的循环游离dna样品)分离的dna产生的核酸库的目标区域。使用一系列引物或引物对进行这种扩增，所述一系列引物或引物对可以包括作为范围的下端的5、10、15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000或50,000个到作为范围的上端的15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000、50,000、60,000、75,000或100,000个引物，其各自结合于一系列引物结合位点中的一个。

可以使用primer3产生引物设计(untergrassera,cutcutachei,koressaart,yej,fairclothbc,remmm,rozensg(2012)《primer3-新功能和界面(primer3-newcapabilitiesandinterfaces)》,《核酸研究(nucleicacidsresearch)》40(15):e115和koressaart,remmm(2007)《引物设计程序primer3的增强和修改(enhancementsandmodificationsofprimerdesignprogramprimer3)》,《生物信息学(bioinformatics)》23(10):1289-91，可以从primer3.sourceforge.net获得源代码)。可以由blast评估引物特异性且添加到现有引物设计流水线准则中：

可以使用来自ncbi-blast-2.2.29+程序包的blastn程序确定引物特异性。任务选项“blastn-short”可以用于映射针对hg19人类基因组的引物。如果引物对基因组具有小于100个命中且顶部命中是基因组的目标互补引物结合区且比其它命中高至少两分(评分是由blastn程序定义)，那么引物设计可以确定为“特异性”。可以进行这一过程以具有针对基因组的独特命中且在整个基因组中不具有许多其它命中。

可以使用bed文件和用于验证的覆盖图，在igv(jamest.robinson,helgathorvaldsdóttir,wendywinckler,mitchellguttman,erics.lander,gadgetz,jillp.mesirov.,《整合基因组学查看器(integrativegenomicsviewer)》,《自然生物技术(naturebiotechnology)》29,24-26(2011))和ucsc浏览器(kentwj,sugnetcw,fureyts,roskinkm,pringleth,zahleram,hausslerd.,《ucsc的人类基因组浏览器(thehumangenomebrowseratucsc)》,《基因组研究(genomeres.)》2002年6月12(6):996-1006)中显示最终所选择的引物。

在某些实施例中，本发明的方法包括形成扩增反应混合物。通常通过组合以下来形成反应混合物：聚合酶、核苷酸三磷酸酯、来自由样品产生的核酸库的核酸片段、对含有snv的目标区域具有特异性的正向和反向引物的集合。在说明性实施例中，本文中所提供的反应混合物本身形成本发明的独立方面。

适用于本发明的扩增反应混合物包括所属领域中已知用于核酸扩增，尤其用于pcr扩增的组分。举例来说，反应混合物通常包括核苷酸三磷酸酯、聚合酶和镁。适用于本发明的聚合酶可以包括任何可以用于扩增反应中，尤其适用于pcr反应中的聚合酶。在某些实施例中，热起始taq聚合酶尤其适用。适用于实践本文中所提供的方法的扩增反应混合物，如amplitaqgold主混合物(lifetechnologies,carlsbad,ca)，是以可商购的。

用于pcr的扩增(例如温度循环)条件是所属领域中众所周知的。本文中所提供的方法可以包括任何引起目标核酸(如来自库的目标核酸)扩增的pcr循环条件。非限制性例示性循环条件提供于本文中的实例部分中。

在进行pcr时，存在许多有可能进行的工作流程；本文中提供本文中所公开的方法中的一些典型工作流程。本文中概述的步骤并不打算排除其它可能步骤，也不暗示本文中所描述的任何步骤是所述方法恰当地起作用所需的。大量参数变化或其它修改在文献中是已知的，并且可以在不影响本发明的本质的情况下进行。

在本文中所提供的方法的某些实施例中，确定扩增子(如外部引物目标扩增子)的至少一部分序列且在说明性实例中，确定扩增子的全部序列。用于确定扩增子的序列的方法是所属领域中已知的。所属领域中已知的任何测序方法(例如桑格测序(sangersequencing))都可以用于这类序列确定。在说明性实施例中，可以使用高通量下一代测序技术(在本文中也称为大规模平行测序技术)对由本文中所提供的方法产生的扩增子进行测序，如(但不限于)myseq(illumina)、hiseq(illumina)、iontorrent(lifetechnologies)、genomeanalyzerilx(illumina)、gsflex+(roche454)中使用的测序技术。

高通量基因测序器允许使用条形码(即，用独特核酸序列标记的样品)，以便鉴别来自个体的特异性样品，由此允许在dna测序器的单次运行中同时分析多个样品。对库制剂(或其它相关的核制剂)中的基因组的既定区域进行测序的次数(读段的数目)将与相关基因组中序列的拷贝数目(或在含有cdna的制剂的情况下，表达量)成比例。在这类定量确定中，可以考虑扩增效率的偏差。

目标基因

在例示性实施例中，本发明的目标基因是癌症相关基因且在许多说明性实施例中，是癌症相关基因。癌症相关基因(例如癌症相关基因或膀胱癌相关基因或结肠直肠癌相关基因)是指与癌症(例如乳癌、膀胱癌或结肠直肠癌)风险改变或癌症预后改变相关联的基因。促进癌症的例示性癌症相关基因包括致癌基因；增强细胞增殖、侵袭或转移的基因；抑制细胞凋亡的基因；和促血管生成基因。抑制癌症的癌症相关基因包括(但不限于)肿瘤抑制基因；抑制细胞增殖、侵袭或转移的基因；促进细胞凋亡的基因；和抗血管生成基因。

突变检测方法的实施例由选择成为目标的基因区域开始。使用具有已知突变的区域产生用于mpcr-ngs的引物，以扩增和检测突变。

本文中所提供的方法可以用于检测几乎任何类型的突变，尤其已知与癌症相关联的突变且最具体地说，本文中所提供的方法涉及与癌症，具体地说，乳癌、膀胱癌或结肠直肠癌相关联的突变，尤其snv。例示性snv可以在以下基因中的一种或多种中：egfr、fgfr1、fgfr2、alk、met、ros1、ntrk1、ret、her2、ddr2、pdgfra、kras、nf1、braf、pik3ca、mek1、notch1、mll2、ezh2、tet2、dnmt3a、sox2、myc、keap1、cdkn2a、nrg1、tp53、lkb1和pten，其已在多种肺癌样品中鉴别为发生突变、具有增加的拷贝数目或与其它基因融合和其组合(《非小细胞肺癌：一组异质性疾病(non-small-celllungcancers:aheterogeneoussetofdiseases)》,chen等人,《自然癌症综述(nat.rev.cancer)》,2014年8月,14(8):535-551)。在另一实例中，基因列表是上文所列的列表，其中已报道snv，如在所列举的chen等人的参考文献中。

扩增(例如pcr)反应混合物：

在某些实施例中，本发明的方法包括形成扩增反应混合物。通常通过组合以下来形成反应混合物：聚合酶、核苷酸三磷酸酯、来自由样品产生的核酸库的核酸片段、一系列正向目标特异性外部引物和第一链反向外部通用引物。另一说明性实施例是一种反应混合物，其包括代替正向目标特异性外部引物的正向目标特异性内部引物，和代替来自核酸库的核酸片段的来自使用外部引物的第一pcr反应的扩增子。在说明性实施例中，本文中所提供的反应混合物本身形成本发明的独立方面。在说明性实施例中，反应混合物是pcr反应混合物。pcr反应混合物通常包括镁。

在一些实施例中，反应混合物包括乙二胺四乙酸(edta)、镁、四甲基氯化铵(tmac)或其任何组合。在一些实施例中，tmac的浓度在20与70mm之间且包括端值。不希望受任何具体理论约束，相信tmac结合于dna、使双螺旋稳定、提高引物特异性和/或使不同引物的熔融温度一致。在一些实施例中，tmac提高不同目标的扩增产物的量的均匀性。在一些实施例中，镁(如来自氯化镁的镁)的浓度在1与8mm之间。

用于大量目标的多重pcr的大量引物可以螯合大量镁(引物中2份磷酸盐螯合1份镁)。举例来说，如果使用足够的引物使得来自引物的磷酸盐的浓度是约9mm，那么引物可以使有效镁浓度降低约4.5mm。在一些实施例中，使用edta降低可以用作聚合酶的辅因子的镁的量，因为高浓度的镁可以引起pcr误差，如非目标基因座的扩增。在一些实施例中，edta的浓度使可用的镁的量降低至1到5mm(如3到5mm)。

在一些实施例中，ph值在7.5与8.5之间，如在7.5与8之间、在8与8.3之间或在8.3与8.5之间，且包括端值。在一些实施例中，tris是以例如10与100mm之间，如10与25mm之间、25与50mm之间、50与75mm之间或25与75mm之间且包括端值的浓度使用。在一些实施例中，tris的这些浓度中的任一种是在7.5与8.5之间的ph值下使用。在一些实施例中，使用kcl与(nh4)2so4的组合，如50到150mmkcl和10到90mm(nh4)2so4且包括端值。在一些实施例中，kcl的浓度在0与30mm、50与100mm或100与150mm之间且包括端值。在一些实施例中，(nh4)2so4的浓度在10与50mm、50与90mm、10与20mm、20与40mm、40与60mm或60与80mm(nh4)2so4之间且包括端值。在一些实施例中，铵[nh4⁺]浓度在0与160mm之间，如在0到50、50到100或100到160mm之间且包括端值。在一些实施例中，钾和铵浓度的总和([k⁺]+[nh4⁺])在0与160mm之间，如在0到25、25到50、50到150、50到75、75到100、100到125或125到160mm之间且包括端值。具有[k⁺]+[nh4⁺]＝120mm的例示性缓冲液是20mmkcl和50mm(nh4)2so4。在一些实施例中，缓冲液包括25到75mmtris(ph7.2到8)、0到50mmkcl、10到80mm硫酸铵和3到6mm镁且包括端值。在一些实施例中，缓冲液包括25到75mmtris(ph7到8.5)、3到6mmmgcl2、10到50mmkcl和20到80mm(nh4)2so4且包括端值。在一些实施例中，使用100到200个单位/毫升的聚合酶。在一些实施例中，以20μl最终体积，在ph8.1下使用100mmkcl、50mm(nh4)2so4、3mmmgcl2、7.5nm库中的每种引物、50mmtmac和7μldna模板。

在一些实施例中，使用拥挤试剂，如聚乙二醇(peg，如peg8,000)或甘油。在一些实施例中，peg(如peg8,000)的量在0.1到20％之间，如在0.5到15％、1到10％、2到8％或4到8％之间且包括端值。在一些实施例中，甘油的量在0.1到20％之间，如在0.5到15％、1到10％、2到8％或4到8％之间且包括端值。在一些实施例中，拥挤试剂使得能够使用低聚合酶浓度和/或较短粘接时间。在一些实施例中，拥挤试剂改善dor的均匀性和/或减少脱扣(未检测到的等位基因)。聚合酶在一些实施例中，使用具有矫正活性(proof-readingactivity)的聚合酶、不具有(或具有可忽略的)矫正活性的聚合酶或具有矫正活性的聚合酶与不具有(或具有可忽略的)矫正活性的聚合酶的混合物。在一些实施例中，使用热起始聚合酶、非热起始聚合酶或热起始聚合酶与非热起始聚合酶的混合物。在一些实施例中，使用hotstartaqdna聚合酶(参见例如qiagen目录号203203)。在一些实施例中，使用amplitaqdna聚合酶。在一些实施例中，使用primestargxldna聚合酶(takaraclontech,mountainview,ca)，其是一种高保真度聚合酶，在反应混合物中存在过量模板时和在扩增长产物时提供有效pcr扩增。在一些实施例中，使用kapataqdna聚合酶或kapataqhotstartdna聚合酶；其是基于嗜热性细菌水生栖热菌(thermusaquaticus)的单子单元、野生型taqdna聚合酶。kapataq和kapataqhotstartdna聚合酶具有5'-3'聚合酶和5'-3'核酸外切酶活性，但不具有3'到5'核酸外切酶(矫正)活性(参见例如kapabiosystems目录号bk1000)。在一些实施例中，使用pfudna聚合酶；其是一种来自极端嗜热性古菌激烈火球菌(pyrococcusfuriosus)的高热稳定性dna聚合酶。酶催化核苷酸以5'→3'方向模板依赖性聚合成双螺旋dna。pfudna聚合酶还呈现3'→5'核酸外切酶(矫正)活性，其使得聚合酶能够校正核苷酸并入误差。其不具有5'→3'核酸外切酶活性(参见例如thermoscientific目录号ep0501)。在一些实施例中，使用klentaq1；其是taqdna聚合酶的克列诺(klenow)片段类似物，其不具有核酸外切酶或核酸内切酶活性(参见例如dnapolymerasetechnology,inc,st.louis,missouri，目录号100)。在一些实施例中，聚合酶是phusiondna聚合酶，如phusionhighfidelitydna聚合酶(m0530s，newenglandbiolabs,inc.)或phusionhotstartflexdna聚合酶(m0535s，newenglandbiolabs,inc.)。在一些实施例中，聚合酶是dna聚合酶，如high-fidelitydna聚合酶(m0491s，newenglandbiolabs,inc.)或hotstarthigh-fidelitydna聚合酶(m0493s，newenglandbiolabs,inc.)。在一些实施例中，聚合酶是t4dna聚合酶(m0203s，newenglandbiolabs,inc.)。

在一些实施例中，使用5到600个单位/毫升(每1ml反应体积的单位数)的聚合酶，如5到100、100到200、200到300、300到400、400到500或500到600个单位/毫升且包括端值。

pcr方法

在一些实施例中，使用热起始pcr以减少或防止pcr热循环之前的聚合。例示性热起始pcr方法包括初始抑制dna聚合酶，或物理分离反应组分反应直到反应混合物达到较高温度。在一些实施例中，使用缓慢释放的镁。dna聚合酶需要镁离子以具有活性，因此通过结合于化合物来从反应物以化学方式分离镁且仅在高温下释放到溶液中。在一些实施例中，使用抑制剂的非共价结合。在这种方法中，肽、抗体或适配体在低温下非共价结合于酶且抑制其活性。在高温下培育之后，释放抑制剂且开始反应。在一些实施例中，使用低温敏感性taq聚合酶，如在低温下几乎无活性的被修饰的dna聚合酶。在一些实施例中，使用化学修饰。在这种方法中，分子共价结合于dna聚合酶的活性位点中的胺基酸的侧链。通过在高温下培育反应混合物来从酶释放分子。在释放分子之后，酶被活化。

在一些实施例中，针对模板核酸(如rna或dna样品)的量在20与5,000ng之间，如在20到200、200到400、400到600、600到1,000、1,000到1,500或2,000到3,000ng之间且包括端值。

在一些实施例中，使用qiagenmultiplexpcr试剂盒(qiagen目录号206143)。对于100×50μl多重pcr反应，试剂盒包括2xqiagen多重pcr主混合物(提供3mmmgcl2的最终浓度，3×0.85ml)、5xq-solution(1×2.0ml)和不含rna酶的水(2×1.7ml)。qiagen多重pcr主混合物(mm)含有kcl和(nh4)2so4的组合以及pcr添加剂，因子mp，其提高模板处的引物的局部浓度。因子mp使特异性结合的引物稳定，实现由hotstartaqdna聚合酶进行的有效引物延伸。hotstartaqdna聚合酶是taqdna聚合酶的被修饰的形式且在环境温度下不具有聚合酶活性。在一些实施例中，通过在95℃下进行15分钟培育来活化hotstartaqdna聚合酶，所述培育可以并入任何现有的热循环器程序中。

在一些实施例中，以20μl最终体积使用1xqiagenmm最终浓度(建议浓度)、7.5nm库中的每种引物、50mmtmac和7μldna模板。在一些实施例中，pcr热循环条件包括在95℃下保持10分钟(热起始)；20个在96℃下保持30秒的循环；在65℃下保持15分钟；和在72℃下保持30秒；接着在72℃下保持2分钟(最终延伸)；和接着保持在4℃下。

在一些实施例中，以20μl总体积使用2xqiagenmm最终浓度(两倍建议浓度)、2nm库中的每种引物、70mmtmac和7μldna模板。在一些实施例中，还包括最多4mmedta。在一些实施例中，pcr热循环条件包括在95℃下保持10分钟(热起始)；25个在96℃下保持30秒的循环；在65℃下保持20、25、30、45、60、120或180分钟；和任选地在72℃下保持30秒；接着在72℃下保持2分钟(最终延伸)；和接着保持在4℃下。

另一例示性条件集合包括半嵌套式pcr方法。第一pcr反应使用20μl反应体积以及2xqiagenmm最终浓度、1.875nm库中的每种引物(外部正向和反向引物)和dna模板。热循环参数包括在95℃下保持10分钟；25个在96℃下保持30秒的循环、在65℃下保持1分钟、在58℃下保持6分钟、在60℃下保持8分钟、在65℃下保持4分钟和在72℃下保持30秒；和接着在72℃下保持2分钟，且接着保持在4℃下。接着，使用2μl所得产物(以1:200稀释)作为第二pcr反应的输入物。这一反应使用10μl反应体积以及1xqiagenmm最终浓度、20nm每种内部正向引物和1μm反向引物标签。热循环参数包括在95℃下保持10分钟；15个在95℃下保持30秒的循环、在65℃下保持1分钟、在60℃下保持5分钟、在65℃下保持5分钟和在72℃下保持30秒；和接着在72℃下保持2分钟，且接着保持在4℃下。如本文中所讨论，粘接温度可以任选地高于一些或全部引物的熔融温度(参见2015年10月20日提交的美国专利申请案第14/918,544号，其以全文引用的方式并入本文中)。

熔融温度(tm)是满足以下条件的温度：寡核苷酸(如引物)和其完美互补物的二分之一(50％)的dna双螺旋解离且变成单链dna。粘接温度(ta)是用于进行pcr方案的温度。对于先前方法，其通常比所使用的引物的最低tm低5℃，因此形成将近所有有可能的双螺旋(使得基本上所有引物分子结合模板核酸)。尽管这是高效的，但在较低温度下一定会发生更多的非特异性反应。具有过低的ta的一个结果是引物可能粘接到除真实目标以外的序列，因为可以容许内部单碱基失配或部分粘接。在本发明的一些实施例中，ta高于tm，其中在既定时刻，仅一小部分目标具有粘接的引物(如仅约1-5％)。如果这些引物得到延伸，那么将其从粘接和解离引物和目标的平衡去除(因为延伸使tm快速升高到超过70℃)，且新的约1-5％的目标具有引物。因此，通过使反应具有长粘接时间，可以实现每个循环复制约100％的目标。

在各种实施例中，粘接温度在1、2、3、4、5、6、7、8、9、10、11、12、13℃与作为范围的上端的2、3、4、5、6、7、8、9、10、11、12、13、或15℃之间，高于至少25、50、60、70、75、80、90、95或100％的非一致引物的熔融温度(如凭经验测量或计算的tm)。在各种实施例中，粘接温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的熔融温度(如凭经验测量或计算的tm)高1到15℃(如1到10℃、1到5℃、1到3℃、3到5℃、5到10℃、5到8℃、8到10℃、10到12℃或12到15℃且包括端值)。在各种实施例中，粘接温度比至少25％、50％、60％、70％、75％、80％、90％、95％或所有的非一致引物的熔融温度(如凭经验测量或计算的tm)高1到15℃(如1到10℃、1到5℃、1到3℃、3到5℃、3到8℃、5到10℃、5到8℃、8到10℃、10到12℃或12到15℃且包括端值)，且粘接步骤的长度(每个pcr循环)在5与180分钟之间，如在15与120分钟、15与60分钟、15与45分钟或20与60分钟之间且包括端值。

例示性多重pcr方法

在各种实施例中，使用长粘接时间(如本文中所讨论和实例10中所例示)和/或低引物浓度。实际上，在某些实施例中，使用限制性引物浓度和/或条件。在各种实施例中，粘接步骤的长度在作为范围的下端的15、20、25、30、35、40、45或60分钟与作为范围的上端的20、25、30、35、40、45、60、120或180分钟之间。在各种实施例中，粘接步骤的长度(每个pcr循环)在30与180分钟之间。举例来说，粘接步骤可以在30与60分钟之间且每种引物的浓度可以小于20、15、10或5nm。在其它实施例中，引物浓度是作为范围的下端的1、2、3、4、5、6、7、8、9、10、15、20或25nm到作为范围的上端的2、3、4、5、6、7、8、9、10、15、20、25和50。

在高度复用的情况下，溶液可能因为溶液中的大量引物而变得粘稠。如果溶液太粘稠，那么可以将引物浓度降低到仍足以使引物结合模板dna的量。在各种实施例中，使用1,000到100,000个不同的引物且每种引物的浓度小于20nm，如小于10nm或在1与10nm之间且包括端值。

检测拷贝数目变化(cnv)

除snv和插入缺失以外，本文中所描述的用于监测和检测早期复发和转移的方法也可以受益于cnv的检测。

在一个方面中，本发明通常至少部分涉及改善的用于确定存在或不存在拷贝数目变化(如染色体区段或整个染色体的缺失或复制)的方法。所述方法尤其适用于检测小型缺失或复制，所述小型缺失或复制由于可以从相关染色体区段获得的数据量较小而难以使用先前方法在高特异性和敏感性下检测。所述方法包括改善的分析方法、改善的生物分析方法以及改善的分析方法和生物分析方法的组合。本发明的方法还可以用于检测仅存在于较小百分比的所检验的细胞或核酸分子中的缺失或复制。这使得能够在疾病发生之前(如在癌变前阶段)或在疾病早期(如在具有缺失或复制的大量病变细胞(如癌细胞)积聚之前)检测到缺失或复制。与疾病或病症相关联的缺失或复制的更精确的检测实现改善的用于诊断、预测、预防、延缓、稳定或治疗疾病或病症的方法。已知若干种缺失或复制与癌症或严重的精神或生理障碍相关联。

在另一方面中，本发明通常至少部分涉及改善的用于检测单核苷酸变异(snv)的方法。这些改善的方法包括改善的分析方法、改善的生物分析方法以及改善的使用改善的分析方法和生物分析方法的组合的方法。在某些说明性实施例中，使用所述方法检测、诊断、监测癌症或对癌症进行分期，例如在snv以极低浓度(例如以snv基因座的正常拷贝总数计小于10％、5％、4％、3％、2.5％、2％、1％、0.5％、0.25％或0.1％)存在的样品中，如在循环游离dna样品中。也就是说，在某些说明性实施例中，这些方法尤其良好地适用于与所述基因座的正常多态等位基因相比，存在相对较低百分比的突变或变异体的样品。最终，本文中提供组合改善的用于检测拷贝数目变化的方法与改善的用于检测单核苷酸变异的方法的方法。

疾病(如癌症)的成功治疗通常依赖于早期诊断、对疾病的正确分期、选择有效治疗方案和密切监测以防止或检测复发。对于癌症诊断，从组织活检获得的肿瘤材料的组织学评估通常被视为最可靠的方法。然而，基于活检的取样的侵袭性使得其不可用于群体筛选和常规随访。因此，本发明的方法具有以下优点：其能够视需要以非侵袭方式进行，从而具有相对较低成本和快速周转时间。可以由本发明的方法使用的靶向测序与鸟枪法测序相比需要更少的读段，如数百万读段而非4千万读段，从而降低成本。可以使用的多重pcr和下一代测序可以增加输送量和降低成本。

在一些例示性实施例中，ctdna中aai模式的分析提供对肿瘤的克隆体系的更详细的洞察，以帮助预测其治疗反应和优化治疗策略。因此，在某些实施例中，选择靶向临床上可操作的cnv和snv的mmpcr-ngs盘。在某些说明性实施例中，这类盘尤其适用于患有其中cnv占显著比例的突变负荷(如通常在乳癌、卵巢癌和肺癌中)的癌症的患者。

在一些实施例中，使用所述方法检测个体中的缺失、复制或单核苷酸变异体。可以分析来自个体的样品，所述样品含有怀疑具有缺失、复制或单核苷酸变异体的细胞或核酸。在一些实施例中，样品是来自怀疑具有缺失、复制或单核苷酸变异体的组织或器官，如怀疑具有癌性的细胞或块状物。本发明的方法可以用于检测仅存在于混合物中的一个细胞或少量细胞中的缺失、复制或单核苷酸变异体，所述混合物含有具有缺失、复制或单核苷酸变异体的细胞和不具有缺失、复制或单核苷酸变异体的细胞。在一些实施例中，分析来自个体的血液样品中的cfdna或cfrna。在一些实施例中，cfdna或cfrna是由细胞，如癌细胞分泌。在一些实施例中，cfdna或cfrna是由经历坏死或细胞凋亡的细胞，如癌细胞释放。本发明的方法可以用于检测仅存在于较小百分比的cfdna或cfrna中的缺失、复制或单核苷酸变异体。在一些实施例中，检验来自胚胎的一种或多种细胞。

除确定存在或不存在拷贝数目变化以外，可以视需要分析一种或多种其它因素。这些因素可以用于提高诊断(如确定存在或不存在癌症或增加的癌症风险、对癌症进行分类或对癌症进行分期)或预后的准确性。这些因素还可以用于选择可能在个体中有效的具体疗法或治疗方案。例示性因素包括存在或不存在多态现象或突变；全部或具体cfdna、cfrna、微rna(mirna)的含量改变(增加或降低)；肿瘤分数改变(增加或降低)；甲基化水平改变(增加或降低)、dna完整性改变(增加或降低)、改变(增加或降低)的或替代性mrna剪接。

以下章节描述用于使用定相数据(如推断或测量的定相数据)或非定相数据检测缺失或复制的方法；可以检验的样品；用于样品制备、扩增和定量的方法；用于定相基因数据的方法；可以检测的多态现象、突变、核酸变化、mrna剪接变化和核酸含量变化；具有来自所述方法、其它风险因素和筛选方法的结果的数据库；可以诊断或治疗的癌症；癌症治疗；用于检验治疗的癌症模型；和用于制定和给予治疗的方法。

用于使用定相数据确定倍性的例示性方法

本发明的一些方法是部分地基于发现与使用非定相数据相比，使用定相数据检测cnv可以降低假阴性和假阳性比率。这种改良对于具有少量cnv的样品来说是最大的。因此，与使用非定相数据相比，定相数据增加cnv检测的准确性(如以下方法：计算一个或多个基因座处的等位基因比率或聚集等位基因比率，以得到染色体或染色体区段上的聚集值(如平均值)，而不考虑不同基因座处的等位基因比率是否指示相同或不同单倍型似乎以异常量存在)。使用定相数据能够作出所测量的与预期的等位基因比率之间的差异是否是由噪声或存在cnv而引起的更精确的确定。举例来说，如果一个区域中的大部分或所有基因座处的所测量的与预期的等位基因比率之间的差异指示相同单倍型被过度呈现，那么更可能存在cnv。使用单倍型中等位基因之间的关联，使得能够确定所测量的基因数据是否与被过度呈现的相同单倍型(而非随机噪声)一致。相比之下，如果所测量的与预期的等位基因比率之间的差异是仅由于噪声(如实验误差)而引起，那么在一些实施例中，在约一半的时间内，第一单倍型似乎被过度呈现且在约另一半的时间内，第二单倍型似乎被过度呈现。

在一些实施例中，使用定相基因数据确定在个体的基因组中(如在一种或多种细胞的基因组中或在cfdna或cfrna中)，与第二同源染色体区段相比，是否存在第一同源染色体区段的拷贝数目的过度呈现。例示性过度呈现包括第一同源染色体区段的复制或第二同源染色体区段的缺失。在一些实施例中，不存在过度呈现，因为第一和同源染色体区段是以相等比例存在(如二倍体样品中每个区段的一个拷贝)。在一些实施例中，比较核酸样品中的所计算的等位基因比率与预期的等位基因比率，以确定是否存在过度呈现，如下文中进一步描述。在本说明书中，短语“与第二同源染色体区段相比的第一同源染色体区段”意指染色体区段的第一同系物和染色体区段的第二同系物。

在一些实施例中，所述方法包括获得第一同源染色体区段的定相基因数据，其包含第一同源染色体区段上的多态基因座集合中的每个基因座的第一同源染色体区段上的所述基因座处的等位基因的一致性；获得第二同源染色体区段的定相基因数据，其包含第二同源染色体区段上的多态基因座集合中的每个基因座的第二同源染色体区段上的所述基因座处的等位基因的一致性；和获得所测量的遗传等位基因数据，对于多态基因座集合中的每个基因座处的每个等位基因，所述遗传等位基因数据包含来自个体的一种或多种目标细胞和一种或多种非目标细胞的dna或rna的样品中的每种等位基因的量。在一些实施例中，所述方法包括列举指定第一同源染色体区段的过度呈现程度的一种或多种假设的集合；对于每种假设，针对来自一种或多种目标细胞的dna或rna与样品中的全部dna或rna的一种或多种可能的比率，由所获得的定相基因数据计算样品中的多个基因座的预期基因数据；针对dna或rna的每种可能的比率和每种假设，计算(如用计算机计算)所述dna或rna的可能的比率和所述假设的样品的所获得的基因数据与样品的所预期的基因数据之间的数据拟合；根据数据拟合将一种或多种假设进行分级；和选择等级最高的假设，由此确定来自个体的一种或多种细胞的基因组中的第一同源染色体区段的拷贝数目的过度呈现程度。

在一些实施例中，所述方法涉及使用本文中所描述的任一种方法或任何已知的方法获得定相基因数据。在一些实施例中，所述方法涉及同时或以任何顺序依序进行(i)获得第一同源染色体区段的定相基因数据，其包含第一同源染色体区段上的多态基因座集合中的每个基因座的第一同源染色体区段上的所述基因座处的等位基因的一致性；(ii)获得第二同源染色体区段的定相基因数据，其包含第二同源染色体区段上的多态基因座集合中的每个基因座的第二同源染色体区段上的所述基因座处的等位基因的一致性；和(iii)获得所测量的遗传等位基因数据，其包含来自个体的一种或多种细胞的dna样品中的多态基因座集合中的每个基因座处的每种等位基因的量。

在一些实施例中，所述方法涉及计算多态基因座集合中的一种或多种基因座的等位基因比率，所述多态基因座集合在至少一种衍生样品的细胞中是杂合的。在一些实施例中，具体基因座的所计算的等位基因比率是所述基因座的一种等位基因的所测量的数量除以所有等位基因的全部所测量的数量。在一些实施例中，具体基因座的所计算的等位基因比率是所述基因座的一种等位基因(如第一同源染色体区段上的等位基因)的所测量的数量除以一种或多种其它等位基因(如第二同源染色体区段上的等位基因)的所测量的数量。所计算的等位基因比率可以使用本文中所描述的任一种方法或任何标准方法(如本文中所描述的所计算的等位基因比率的任何数学变换)来计算。

在一些实施例中，所述方法涉及如果第一和第二同源染色体区段是以相等比例存在，那么通过比较基因座的一种或多种所计算的等位基因比率与所述基因座的所预期的等位基因比率来确定是否存在第一同源染色体区段的拷贝数目的过度呈现。在一些实施例中，所预期的等位基因比率假设基因座的可能的等位基因在是否存在方面具有相等的似然性。在其中具体基因座的所计算的等位基因比率是所述基因座的一种等位基因的所测量的数量除以所有等位基因的全部所测量的数量的一些实施例中，相应的所预期的等位基因比率是0.5(对于双等位基因座)或1/3(对于三等位基因座)。在一些实施例中，所有基因座的所预期的等位基因比率是相同的，如所有基因座的所预期的等位基因比率都是0.5。在一些实施例中，所预期的等位基因比率假设基因座的可能的等位基因在是否存在方面可以具有不同的似然性，如基于个体所属具体群体(如基于个体的世系的群体)中的每种等位基因的出现率的似然性。这类等位基因出现率是可以公开获得的(参见例如《单倍型图计划(hapmapproject)》；《perlegen人类单倍型计划(perlegenhumanhaplotypeproject)》；网址：ncbi.nlm.nih.gov/projects/snp/；sherryst,wardmh,kholodovm等人,《dbsnp：基因变异的ncbi数据库(dbsnp:thencbidatabaseofgeneticvariation)》,《核酸研究(nucleicacidsres.)》,2001年1月1日；29(1):308-11，其各自以全文引用的方式并入本文中)。在一些实施例中，所预期的等位基因比率是具体个体的所预期的等位基因比率，所述具体个体正在检验指定第一同源染色体区段的过度呈现程度的具体假设。举例来说，可以基于来自个体(如来自不太可能具有缺失或复制的个体的样品，如非癌性样品)的定相或非定相基因数据或来自个体的一位或多位亲属的数据来确定具体个体的所预期的等位基因比率。

在一些实施例中，如果满足以下中的任一项，那么所计算的等位基因比率指示第一同源染色体区段的拷贝数目的过度呈现：(i)由第一同源染色体上的所述基因座处的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的等位基因比率大于所述基因座的所预期的等位基因比率，或(ii)由第二同源染色体上的所述基因座处的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的等位基因比率小于所述基因座的所预期的等位基因比率。在一些实施例中，仅在所计算的等位基因比率显著大于或小于所述基因座的预期比率时才认为其指示过度呈现。在一些实施例中，如果满足以下中的任一项，那么所计算的等位基因比率指示第一同源染色体区段的拷贝数目的过度呈现：(i)由第一同源染色体上的所述基因座处的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的等位基因比率小于或等于所述基因座的所预期的等位基因比率，或(ii)由第二同源染色体上的所述基因座处的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的等位基因比率大于或等于所述基因座的所预期的等位基因比率。在一些实施例中，忽略等于相应的预期比率的所计算的比率(因为其指示不存在过度呈现)。

在各种实施例中，使用以下方法中的一种或多种来比较一个或多个所计算的等位基因比率与相应的所预期的等位基因比率。在一些实施例中，确定具体基因座的所计算的等位基因比率是否高于或低于所预期的等位基因比率，而与差的量值无关。在一些实施例中，确定具体基因座的所计算的等位基因比率与所预期的等位基因比率之间的差的量值，而与所计算的等位基因比率是否高于或低于所预期的等位基因比率无关。在一些实施例中，确定具体基因座的所计算的等位基因比率是否高于或低于所预期的等位基因比率和差的量值。在一些实施例中，确定所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值，而与差的量值无关。在一些实施例中，确定所计算的等位基因比率的平均值或加权平均值与所预期的等位基因比率的平均值或加权平均值之间的差的量值，而与所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值无关。在一些实施例中，确定所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值和差的量值。在一些实施例中，确定所计算的等位基因比率与所预期的等位基因比率之间的差的量值的平均值或加权平均值。

在一些实施例中，使用一种或多种基因座的所计算的等位基因比率和所预期的等位基因比率之间的差的量值，确定第一同源染色体区段的拷贝数目的过度呈现是否是由一种或多种细胞的基因组中的第一同源染色体区段的复制或第二同源染色体区段的缺失而引起。

在一些实施例中，如果满足以下条件中的一种或多种，那么确定存在第一同源染色体区段的拷贝数目的过度呈现。在一些实施例中，指示第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率的数值高于阈值。在一些实施例中，指示不存在第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率的数值低于阈值。在一些实施例中，指示第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值高于阈值。在一些实施例中，对于指示过度呈现的所有所计算的等位基因比率，所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值的总和高于阈值。在一些实施例中，指示不存在第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值低于阈值。在一些实施例中，由第一同源染色体上的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的所计算的等位基因比率的平均值或加权平均值比所预期的等位基因比率的平均值或加权平均值大至少一倍阈值。在一些实施例中，由第二同源染色体上的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的所计算的等位基因比率的平均值或加权平均值比所预期的等位基因比率的平均值或加权平均值小至少一倍阈值。在一些实施例中，所计算的等位基因比率与预测存在第一同源染色体区段的拷贝数目的过度呈现的等位基因比率之间的数据拟合低于阈值(指示良好数据拟合)。在一些实施例中，所计算的等位基因比率与预测不存在第一同源染色体区段的拷贝数目的过度呈现的等位基因比率之间的数据拟合高于阈值(指示不良数据拟合)。

在一些实施例中，如果满足以下条件中的一种或多种，那么确定不存在第一同源染色体区段的拷贝数目的过度呈现。在一些实施例中，指示第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率的数值低于阈值。在一些实施例中，指示不存在第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率的数值高于阈值。在一些实施例中，指示第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值低于阈值。在一些实施例中，指示不存在第一同源染色体区段的拷贝数目的过度呈现的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值高于阈值。在一些实施例中，由第一同源染色体上的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的所计算的等位基因比率的平均值或加权平均值减去所预期的等位基因比率的平均值或加权平均值的结果小于阈值。在一些实施例中，所预期的等位基因比率的平均值或加权平均值减去由第二同源染色体上的等位基因的所测量的数量除以所述基因座的所有等位基因的全部所测量的数量而获得的所计算的等位基因比率的平均值或加权平均值的结果小于阈值。在一些实施例中，所计算的等位基因比率与预测存在第一同源染色体区段的拷贝数目的过度呈现的等位基因比率之间的数据拟合高于阈值。在一些实施例中，所计算的等位基因比率与预测不存在第一同源染色体区段的拷贝数目的过度呈现的等位基因比率之间的数据拟合低于阈值。在一些实施例中，由已知具有相关cnv的样品和/或已知不具有cnv的样品的经验检验确定阈值。

在一些实施例中，确定是否存在第一同源染色体区段的拷贝数目的过度呈现包括列举指定第一同源染色体区段的过度呈现程度的一种或多种假设的集合。例示性假设是不存在过度呈现，因为第一和同源染色体区段是以相比比例存在(如二倍体样品中的每个区段的一个拷贝)。其它例示性假设包括第一同源染色体区段被复制一次或多次(如与第二同源染色体区段的拷贝数目相比，第一同源染色体具有1、2、3、4、5个或更多的额外拷贝)。另一种例示性假设包括第二同源染色体区段的缺失。另一种例示性假设是第一和第二同源染色体区段的缺失。在一些实施例中，针对每种假设，鉴于由所述假设指定的过度呈现程度，估计在至少一种细胞中是杂合的基因座的所预测的等位基因比率。在一些实施例中，通过比较所计算的等位基因比率与所预测的等位基因比率来计算表示假设正确的似然性，且选择具有最大似然性的假设。

在一些实施例中，针对每种假设，使用所预测的等位基因比率计算检验统计值的所预期的分布。在一些实施例中，通过比较使用所计算的等位基因比率计算的检验统计值与使用所预测的等位基因比率计算的检验统计值的所预期的分布来计算表示假设正确的似然性，且选择具有最大似然性的假设。

在一些实施例中，鉴于第一同源染色体区段的定相基因数据、第二同源染色体区段的定相基因数据和由假设指定的过度呈现程度，估计在至少一种细胞中是杂合的基因座的所预测的等位基因比率。在一些实施例中，通过比较所计算的等位基因比率与所预测的等位基因比率来计算表示假设正确的似然性；且选择具有最大似然性的假设。

使用混合样品

应理解，在许多实施例中，样品是混合样品，其具有来自一种或多种目标细胞和一种或多种非目标细胞的dna或rna。在一些实施例中，目标细胞是具有cnv(如相关缺失或复制)的细胞，且非目标细胞是不具有相关拷贝数目变化的细胞(如具有相关缺失或复制的细胞与不具有任何所检验的缺失或复制的细胞的混合物)。在一些实施例中，目标细胞是与疾病或病症或增加的疾病或病症风险相关联的细胞(如癌细胞)，且非目标细胞是不与疾病或病症或增加的疾病或病症风险相关联的细胞(如非癌性细胞)。在一些实施例中，目标细胞都具有相同的cnv。在一些实施例中，两种或更多种目标细胞具有不同的cnv。在一些实施例中，一种或多种目标细胞具有未在至少一种其它目标细胞中发现的与疾病或病症或增加的疾病或病症风险相关联的cnv、多态现象或突变。在一些这类实施例中，假设来自样品的全部细胞中的与疾病或病症或增加的疾病或病症风险相关联的细胞的分数大于或等于样品中这些cnv、多态现象或突变中的最频繁出现的cnv、多态现象或突变的分数。举例来说，如果6％的细胞具有k-ras突变且8％的细胞具有braf突变，那么假设至少8％的细胞是癌性的。

在一些实施例中，计算来自一种或多种目标细胞的dna(或rna)与样品中全部dna(或rna)的比率。在一些实施例中，列举指定第一同源染色体区段的过度呈现程度的一种或多种假设的集合。在一些实施例中，针对每种假设，鉴于dna或rna的所计算的比率和由所述假设指定的过度呈现程度，估计在至少一种细胞中是杂合的基因座的所预测的等位基因比率。在一些实施例中，通过比较所计算的等位基因比率与所预测的等位基因比率来计算表示假设正确的似然性，且选择具有最大似然性的假设。

在一些实施例中，针对每种假设，估计使用所预测的等位基因比率和dna或rna的所计算的比率计算的检验统计值的所预期的分布。在一些实施例中，通过比较使用所计算的等位基因比率和dna或rna的所计算的比率计算的检验统计值与使用所预测的等位基因比率和dna或rna的所计算的比率计算的检验统计值的所预期的分布来确定表示假设正确的似然性，且选择具有最大似然性的假设。

在一些实施例中，所述方法包括列举指定第一同源染色体区段的过度呈现程度的一种或多种假设的集合。在一些实施例中，所述方法包括针对每种假设，估计(i)鉴于由所述假设指定的过度呈现程度，在至少一种细胞中是杂合的基因座的所预测的等位基因比率，或(ii)对于dna或rna的一种或多种可能的比率，使用所预测的等位基因比率和来自一种或多种目标细胞的dna或rna与样品中全部dna或rna的可能的比率计算的检验统计值的所预期的分布。在一些实施例中，通过比较以下来计算数据拟合：(i)所计算的等位基因比率与所预测的等位基因比率，或(ii)使用所计算的等位基因比率和dna或rna的可能的比率计算的检验统计值与使用所预测的等位基因比率和dna或rna的可能的比率计算的检验统计值的所预期的分布。在一些实施例中，根据数据拟合对一种或多种假设进行分级，且选择等级最高的假设。在一些实施例中，使用技术或算法(如搜索算法)进行以下步骤中的一个或多个：计算数据拟合、对假设进行分级或选择等级最高的假设。在一些实施例中，数据拟合是针对β-二项分布的拟合或针对二项分布的拟合。在一些实施例中，技术或算法是选自由以下组成的群组：最大似然估计、最大后验估计、贝叶斯估计(bayesianestimation)、动态估计(如动态贝叶斯估计)和最大期望估计。在一些实施例中，所述方法包括对所获得的基因数据和所预期的基因数据应用技术或算法。

在一些实施例中，所述方法包括创建可能的比率的划分，其在来自一种或多种目标细胞的dna或rna与样品中全部dna或rna的比率的下限到上限的范围内。在一些实施例中，列举指定第一同源染色体区段的过度呈现程度的一种或多种假设的集合。在一些实施例中，所述方法包括针对划分中的dna或rna的每种可能的比率和每种假设，估计(i)鉴于dna或rna的可能的比率和由所述假设指定的过度呈现程度，在至少一种细胞中是杂合的基因座的所预测的等位基因比率，或(ii)使用所预测的等位基因比率和dna或rna的可能的比率计算的检验统计值的所预期的分布。在一些实施例中，所述方法包括针对划分中的dna或rna的每种可能的比率和每种假设，通过比较以下来计算表示假设正确的似然性：(i)所计算的等位基因比率与所预测的等位基因比率，或(ii)使用所计算的等位基因比率和dna或rna的可能的比率计算的检验统计值与使用所预测的等位基因比率和dna或rna的可能比率计算的检验统计值的所预期的分布。在一些实施例中，对于每种假设，通过组合划分中的每种可能的比率的假设的概率来确定组合概率；且选择具有最大组合概率的假设。在一些实施例中，基于可能的比率是正确比率的似然性，通过将具体可能的比率的假设的概率加权来确定每种假设的组合概率。

在一些实施例中，使用选自由以下组成的群组的技术来估计来自一种或多种目标细胞的dna或rna与样品中全部dna或rna的比率：最大似然估计、最大后验估计、贝叶斯估计、动态估计(如动态贝叶斯估计)和最大期望估计。在一些实施例中，假设两种或更多种(或所有)相关cnv的来自一种或多种目标细胞的dna或rna与样品中全部dna或rna的比率是相同的。在一些实施例中，计算每种相关cnv的来自一种或多种目标细胞的dna或rna与样品中全部dna或rna的比率。

使用不完美定相数据的例示性方法

应理解，在许多实施例中，使用不完美定相数据。举例来说，对于第一和/或第二同源染色体区段上的一个或多个基因座，可能不是在100％确定性的情况下已知存在哪些等位基因。在一些实施例中，使用个体的可能的单倍型(如以基于群体的单倍型出现率为基础的单倍型)的先验来计算每种假设的概率。在一些实施例中，通过使用另一种方法对基因数据进行定相或通过使用来自其它个体(如先验个体)的定相数据以优化用于个体的基于信息的定相的群体数据来调节可能的单倍型的先验。

在一些实施例中，定相基因数据包含定相基因数据的两个或更多个可能的集合的概率数据，其中定相数据的每个可能的集合包含第一同源染色体区段上的多态基因座集合中的每个基因座处的等位基因的可能的一致性和第二同源染色体区段上的多态基因座集合中的每个基因座处的等位基因的可能的一致性。在一些实施例中，针对定相基因数据的每个可能的集合，确定至少一种假设的概率。在一些实施例中，通过组合定相基因数据的每个可能的集合的假设的概率来确定假设的组合概率；且选择具有最大组合概率的假设。

本文中所公开的任何方法或任何已知的可以用于产生不完美定相数据的方法(如使用基于群体的单倍型出现率以推断最有可能的相)都可以用于所要求的方法中。在一些实施例中，通过概率性地组合较小区段的单倍型来获得定相数据。举例来说，可以基于来自第一区域的一个单倍型与来自相同染色体的另一区域的另一单倍型的可能的组合来确定可能的单倍型。可以使用例如基于群体的单倍型出现率和/或不同区域之间的已知的重组率来确定来自不同区域的具体单倍型是相同染色体上的相同、较大单倍型域(haplotypeblock)的一部分的概率。

在一些实施例中，单一假设拒绝检验用于二体性的零假设。在一些实施例中，计算二体性假设的概率，且如果概率低于既定阈值(如小于1/1,000)，那么拒绝二体性的假设。如果拒绝零假设，那么这可以归因于不完美定相数据中的误差或归因于存在cnv。在一些实施例中，获得更精确的定相数据(如来自本文中所公开的任何用于获得实际定相数据而非基于生物信息学推断的定相数据的分子定相方法的定相数据)。在一些实施例中，使用更精确的定相数据重新计算二体性假设的概率，以确定是否仍应拒绝二体性假设。拒绝此假设表示存在染色体区段的复制或缺失。视需要，可以通过调节阈值来改变假阳性率。

使用定相数据来确定倍性的其它例示性实施例

在说明性实施例中，本文中提供用于确定个体的样品中的染色体区段的倍性的方法。所述方法包括以下步骤：接收等位基因出现率数据，其包含染色体区段上的多态基因座集合中的每个基因座处的样品中的每种等位基因的量；通过估计等位基因出现率数据的相来产生多态基因座集合的定相等位基因信息；使用等位基因出现率数据，产生不同倍性状态的多态基因座的等位基因出现率的单独概率；使用单独概率和定相等位基因信息产生多态基因座集合的联合概率；和基于联合概率，选择指示染色体倍性的最佳拟合模型，由此确定染色体区段的倍性。

如本文中所公开，可以通过所属领域中已知的方法产生等位基因出现率数据(在本文中也称为所测量的遗传等位基因数据)。举例来说，可以使用qpcr或微阵列产生数据。在一个说明性实施例中，使用核酸序列数据，尤其高通量核酸序列数据产生数据。

在某些说明性实例中，在用于产生单独概率之前，针对误差校正等位基因出现率数据。在特定说明性实施例中，所校正的误差包括等位基因扩增效率偏差。在其它实施例中，所校正的误差包括环境污染和基因型污染。在一些实施例中，所校正的误差包括等位基因扩增偏差、测序误差、环境污染和基因型污染。

在某些实施例中，使用多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生单独概率。在这些实施例和其它实施例中，通过考虑染色体区段上的多态基因座之间的关联性来产生联合概率。

因此，在组合这些实施例中的一些实施例的一个说明性实施例中，本文中提供用于检测个体的样品中的染色体倍性的方法，其包括以下步骤：接收个体中的染色体区段上的多态基因座集合处的等位基因的核酸序列数据；使用核酸序列数据检测基因座集合处的等位基因出现率；校正所检测的等位基因出现率中的等位基因扩增效率偏差以产生多态基因座集合的经校正的等位基因出现率；通过估计核酸序列数据的相来产生多态基因座集合的定相等位基因信息；通过比较经校正的等位基因出现率与多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因出现率的单独概率；考虑染色体区段上的多态基因座之间的关联性，通过组合单独概率来产生多态基因座集合的联合概率；和基于联合概率，选择指示染色体非整倍性的最佳拟合模型。

如本文中所公开，可以使用多态基因座集合的不同倍性状态和平均等位基因失衡分数的模型或假设的集合来产生单独概率。举例来说，在具体说明性实例中，通过模型化染色体区段的第一同系物和染色体区段的第二同系物的倍性状态来产生单独概率。模型化的倍性状态包括以下：(1)所有细胞不具有染色体区段的第一同系物或第二同系物的缺失或扩增；(2)至少一些细胞具有染色体区段的第一同系物的缺失或第二同系物的扩增；和(3)至少一些细胞具有染色体区段的第二同系物的缺失或第一同系物的扩增。

应理解，以上模型也可以称为用于约束模型的假设。因此，以上说明3种可以使用的假设。

模型化的平均等位基因失衡分数可以包括平均等位基因失衡的任何包括染色体区段的实际平均等位基因失衡的范围。举例来说，在某些说明性实施例中，模型化的平均等位基因失衡的范围可以在作为下端的0、0.1、0.2、0.25、0.3、0.4、0.5、0.6、0.75、1、2、2.5、3、4和5％与作为上端的1、2、2.5、3、4、5、10、15、20、25、30、40、50、60、70、80、90、95和99％之间。用于在所述范围下的模型化的间隔可以是任何取决于所使用的计算能力和允许用于分析的时间的间隔。举例来说，可以模型化0.01、0.05、0.02或0.1间隔。

在某些说明性实施例中，样品的染色体区段的平均等位基因失衡在0.4％与5％之间。在某些实施例中，平均等位基因失衡较低。在这些实施例中，平均等位基因失衡通常小于10％。在某些说明性实施例中，等位基因失衡在作为下端的0.25、0.3、0.4、0.5、0.6、0.75、1、2、2.5、3、4和5％与作为上端的1、2、2.5、3、4和5％之间。在其它例示性实施例中，平均等位基因失衡在作为下端的0.4、0.45、0.5、0.6、0.7、0.8、0.9或1.0％与作为上端的0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、3.0、4.0或5.0％之间。举例来说，在说明性实例中，样品的平均等位基因失衡在0.45与2.5％之间。在另一实例中，在0.45、0.5、0.6、0.8、0.8、0.9或1.0％的敏感性下检测平均等位基因失衡。也就是说，检验方法能够在aai低到0.45、0.5、0.6、0.8、0.8、0.9或1.0％的情况下检测到染色体非整倍性。在本发明的方法中，具有低等位基因失衡的例示性样品包括来自患有具有循环肿瘤dna的癌症的个体的血浆样品或来自具有循环胚胎dna的怀孕女性的血浆样品。

应理解，对于snv，通常使用突变体等位基因出现率(基因座处的突变体等位基因的数目/所述基因座处的等位基因的总数)测量异常dna的比例。因为肿瘤中的两种同系物的量之间的差是类似的，我们通过平均等位基因失衡(aai)来测量cnv的异常dna的比例，定义为|(h1-h2)|/(h1+h2)，其中hi是样品中同系物i的拷贝的平均数且hi/(h1+h2)是同系物i的部分丰度或同系物比率。最大同系物比率是丰度较高的同系物的同系物比率。

分析法脱扣率是使用所有snp估计的不具有读段的snp的百分比。单一等位基因脱扣(ado)率是仅使用杂合snp估计的仅存在一个等位基因的snp的百分比。可以通过以下方式来确定基因型置信度：针对每个snp处的b至等位基因读段的读段数目拟合二项分布且使用snp的焦点区域的倍性状态估计每个基因型的概率。

对于肿瘤组织样品，可以由等位基因出现率分布之间的转换来描述染色体非整倍性(本段中由cnv例示)。在癌症患者、怀疑患有癌症的个体、先前诊断患有癌症的个体或作为用于具有风险的个体或一般群体的癌症筛检的血浆样品中，可以通过最大似然算法来鉴别cnv，所述最大似然算法搜索已知在癌症中呈现非整倍性的区域和/或来自相同个体的肿瘤样品也具有cnv的位置中的血浆cnv。在说明性实施例中，算法使用个体的单倍型相信息针对所预期的等位基因计数来拟合所测量的和经校正的检验样品等位基因计数，例如使用联合分布模式，其中正在分析所述个体的样品中是否存在循环肿瘤dna。这类单倍型相信息可以由来自个体的包括大部分或至少60、70、80、90、95、96、97、98、99％或所有正常细胞dna的任何样品(如(但不限于)白细胞层样品、唾液样品或皮肤样品)，由亲本基因型信息推导，或通过重新单倍型定相来推导，所述重新单倍型定相可以通过多种方法来实现(参见例如snyder,m.等人,《单倍型解析基因组测序：实验方法和应用(haplotype-resolvedgenomesequencing:experimentalmethodsandapplications)》,《遗传学自然综述(natrevgenet)》16,344-358(2015))，如通过稀释(kaper,f.等人,《通过稀释、扩增和测序进行的全基因组单倍型分析(whole-genomehaplotypingbydilution,amplification,andsequencing)》,《美国国家科学院院刊》110,5552-5557(2013))或长读段测序(kuleshov,v.等人,《使用长读段和统计方法进行的全基因组单倍型分析(whole-genomehaplotypingusinglongreadsandstatisticalmethods)》,《自然生物技术(natbiotech)》32,261-266(2014))进行的单倍型分析。这种算法可以模型化三个假设集合的在0.025％间隔下，在所有等位基因失衡比率下的所预期的等位基因出现率：(1)所有细胞都是正常的(不存在等位基因失衡)，(2)一些/所有细胞具有同系物1缺失或同系物2扩增，或(3)一些/所有细胞具有同系物2缺失或同系物1扩增。可以使用贝叶斯分类器(bayesianclassifier)，基于所有杂合snp处的所预期的和所观察的等位基因出现率的β二项模型来确定每种假设的似然性，且接着可以计算多个snp的联合似然性，在某些说明性实施例中，考虑snp基因座的关联性，如本文中所例示。实际上，在说明性实施例中，由算法使用如上文所公开获得的正常细胞单倍型相信息以使用联合分布模型，针对所预期的等位基因计数拟合所测量的和经典型校正的检验样品等位基因计数。接着，可以所选最大似然假设。

考虑肿瘤中具有平均n个拷贝的染色体区域且假设c表示来源于二体区域中的正常细胞和肿瘤细胞的混合物的血浆中的dna的分数。aai计算为：

在某些说明性实例中，在用于产生单独概率之前，针对误差校正等位基因出现率数据。本文中公开不同类型的误差和/或偏差校正。在特定说明性实施例中，所校正的误差是等位基因扩增效率偏差。在其它实施例中，所校正的误差包括测序误差、环境污染和基因型污染。在一些实施例中，所校正的误差包括等位基因扩增偏差、测序误差、环境污染和基因型污染。

应理解，可以确定等位基因的等位基因扩增效率偏差作为包括检验中样品的实验或实验室确定的一部分，或其可以在不同时间使用包括等位基因的样品集合确定，其中正在计算所述等位基因的效率。通常与检验中样品分析在同一次操作中确定环境污染和基因污染。

在某些实施例中，确定样品中的纯合等位基因的环境污染和基因污染。应理解，对于任何来自个体的既定样品，即使一个基因座由于其在群体中具有相对高杂合性而被选择用于分析，但样品中的一些基因座将是杂合的且其它基因座将是纯合的。在一些实施例中，宜使用个体的杂合基因座确定染色体区段的倍性，而可以使用纯合基因座计算环境和基因型污染。

在某些说明性实例中，通过分析模型的所产生的定相等位基因信息与所估计的等位基因出现率之间的差的量值来进行选择。

在说明性实例中，基于多态基因座集合的所预期的和所观察的等位基因出现率的β二项模型来产生等位基因出现率的单独概率。在说明性实例中，使用贝叶斯分类器产生单独概率。

在某些说明性实施例中，通过对使用多重扩增反应产生的一系列扩增子的多个拷贝进行高通量dna测序来产生核酸序列数据，其中所述扩增子系列中的每个扩增子跨越多态基因座集合中的至少一个多态基因座且其中所述集合中的每个聚合基因座被扩增。在某些实施例中，对于至少1/2的反应物，多重扩增反应是在限制性引物条件下进行。在一些实施例中，在多重反应的1/10、1/5、1/4、1/3、1/2或所有的反应物中使用限制性引物浓度。本文中提供用于考虑在扩增反应(如pcr)中实现限制性引物条件的因素。

在某些实施例中，本文中所提供的方法检测跨越多个染色体的多个染色体区段的倍性。因此，在这些实施例中，确定样品中染色体区段集合的染色体倍性。在这些实施例中，需要多重性更高的扩增反应。因此，在这些实施例中，多重扩增反应可以包括例如2,500到50,000个多重反应。在某些实施例中，进行以下范围内的多重反应：作为范围的下端的100、200、250、500、1000、2500、5000、10,000、20,000、25000、50000与作为范围的上端的200、250、500、1000、2500、5000、10,000、20,000、25000、50000和100,000之间。

在说明性实施例中，多态基因座集合是已知呈现高杂合性的基因座集合。然而，预期对于任何既定个体，这些基因座中的一些将是纯合的。在某些说明性实施例中，本发明的方法利用个体的纯合和杂合基因座的核酸序列信息。举例来说，个体的纯合基因座用于误差校正，而杂合基因座用于确定样品的等位基因失衡。在某些实施例中，个体的至少10％的多态基因座是杂合基因座。

如本文中所公开，偏好于分析已知在群体中是杂合的目标snp基因座。因此，在某些实施例中，选择已知其中至少10、20、25、50、75、80、90、95、99或100％的多态基因座在群体中是杂合的多态基因座。

如本文中所公开，在某些实施例中，样品是来自怀孕女性的血浆样品。

在一些实例中，所述方法进一步包含对具有已知的平均等位基因失衡比率的对照样品进行所述方法。对照物可以具有在0.4和10％之间的指示染色体区段的非整倍性的具体等位基因状态的平均等位基因失衡比率，以模拟以低浓度存在的样品中的等位基因的平均等位基因失衡，如关于来自肿瘤的循环游离dna所预期。

在一些实施例中，如本文中所公开，使用plasmart对照物作为对照物。因此，在某些方面中，存在通过包含以下的方法产生的样品：使已知呈现染色体非整倍性的核酸样品片段化成模拟在个体的血浆中循环的dna片段的尺寸的片段。在某些方面中，使用对于染色体区段不具有非整倍性的对照物。

在说明性实施例中，可以在方法中分析来自一种或多种对照物和检验样品的数据。举例来说，对照物可以包括来自个体的未怀疑含有染色体非整倍性的不同样品或怀疑含有cnv或染色体非整倍性的样品。举例来说，当检验样品是怀疑含有循环游离肿瘤dna的血浆样品时，也可以与血浆样品一起对来自个体的肿瘤的对照样品进行所述方法。如本文中所公开，可以通过将已知呈现染色体非整倍性的dna样品片段化来制备对照样品。这类片段化可以产生模拟凋亡细胞的dna组合物的dna样品，尤其当样品是来自罹患癌症的个体时。来自对照样品的数据将提高染色体非整倍性的检测的置信度。

在用于确定倍性的方法的某些实施例中，样品是来自怀疑患有癌症的个体的血浆样品。在这些实施例中，所述方法进一步包含基于所述选择来确定个体的肿瘤细胞中是否存在拷贝数目变化。在这些实施例中，样品可以是来自个体的血浆样品。在这些实施例中，方法可以进一步包括基于所述选择来确定个体中是否存在癌症。

这些用于确定染色体区段的倍性的实施例可以进一步包括检测单核苷酸变异位置集合中的单核苷酸变异位置处的单核苷酸变异体，其中检测到染色体非整倍性或单核苷酸变异体或这两者指示样品中存在循环肿瘤核酸。

这些实施例可以进一步包括接收个体的肿瘤的染色体区段的单倍型信息，和使用单倍型信息以产生多态基因座集合的不同倍性状态和等位基因失衡分数的模型集合。

如本文中所公开，用于确定倍性的方法的某些实施例可以进一步包括在比较初始或经校正的等位基因出现率与模型集合之前，从初始或经校正的等位基因出现率数据去除离群值。举例来说，在某些实施例中，在用于模型化之前，从数据去除比染色体区段上的其它基因座的平均值高或低至少2或3倍标准差的基因座等位基因出现率。

如本文中所提及应理解，在本文中所提供的许多实施例中，包括用于确定染色体区段的倍性的实施例，优选使用不完美或完美定相数据。还应理解，本文中提供多种特征，其与用于检测倍性的先前方法相比提供改善，且可以使用这些特征的多种不同组合。

在某些实施例中，本文中提供计算机系统和计算机可读介质以进行本发明的任何方法。这些计算机系统和计算机可读介质包括用于进行确定倍性的方法的系统和计算机可读介质。因此且作为用于说明本文中所提供的任何方法都可以使用利用本文中的公开内容的系统和计算机可读介质进行的系统实施例的非限制性实例，在另一方面中，本文中提供用于检测个体的样品中的染色体倍性的系统，所述系统包含：输入处理器，其被配置成接收等位基因出现率数据，所述等位基因出现率数据包含染色体区段上的多态基因座集合中的每个基因座处的样品中的每种等位基因的量；建模器，其被配置成：通过估计等位基因出现率数据的相来产生多态基因座集合的定相等位基因信息；和使用等位基因出现率数据产生不同倍性状态的多态基因座的等位基因出现率的单独概率；和使用单独概率和定相等位基因信息产生多态基因座集合的联合概率；以及假设管理器，其被配置成基于联合概率选择指示染色体倍性的最佳拟合模型，由此确定染色体区段的倍性。

在这一系统实施例的某些实施例中，等位基因出现率数据是由核酸测序系统产生的数据。在某些实施例中，所述系统进一步包含误差校正单元，其被配置成校正等位基因出现率数据中的误差，其中经校正的等位基因出现率数据由建模器用于产生单独概率。在某些实施例中，误差校正单元校正等位基因扩增效率偏差。.在某些实施例中，建模器使用多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生单独概率。在某些例示性实施例中，建模器通过考虑染色体区段上的多态基因座之间的关联性来产生联合概率。

在一个说明性实施例中，本文中提供用于检测个体的样品中的染色体倍性的系统，其包括以下：输入处理器，其被配置成接收个体中的染色体区段上的多态基因座集合处的等位基因的核酸序列数据，和使用核酸序列数据检测基因座集合处的等位基因出现率；误差校正单元，其被配置成校正所检测的等位基因出现率中的误差和产生多态基因座集合的经校正的等位基因出现率；建模器，其被配置成：通过估计核酸序列数据的相来产生多态基因座集合的定相等位基因信息；通过比较定相等位基因信息与多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因出现率的单独概率；和考虑染色体区段上的多态基因座之间的相对距离，通过组合单独概率来产生多态基因座集合的联合概率；以及假设管理器，其被配置成基于联合概率选择指示染色体非整倍性的最佳拟合模型。

在本文中所提供的某些例示性系统实施例中，多态基因座集合包含1000到50,000个多态基因座。在本文中所提供的某些例示性系统实施例中，多态基因座集合包含100个已知的杂合性热点基因座。在本文中所提供的某些例示性系统实施例中，多态基因座集合包含100个在重组热点的0.5kb处或以内的基因座。

在本文中所提供的某些例示性系统实施例中，最佳拟合模型分析染色体区段的第一同系物和染色体区段的第二同系物的以下倍性状态：(1)所有细胞都不具有染色体区段的第一同系物或第二同系物的缺失或扩增；(2)一些或所有细胞具有染色体区段的第一同系物的缺失或第二同系物的扩增；和(3)一些或所有细胞染色体区段的第二同系物的缺失或第一同系物的扩增。

在本文中所提供的某些例示性系统实施例中，所校正的误差包含等位基因扩增效率偏差、污染和/或测序误差。在本文中所提供的某些例示性系统实施例中，污染包含环境污染和基因型污染。在本文中所提供的某些例示性系统实施例中，确定纯合等位基因的环境污染和基因污染物。

在本文中所提供的某些例示性系统实施例中，假设管理器被配置成分析模型的所产生的定相等位基因信息与所估计的等位基因出现率之间的差的量值。在本文中所提供的某些例示性系统实施例中，建模器基于多态基因座集合处的所预期的和所观察的等位基因出现率的β二项模型来产生等位基因出现率的单独概率。在本文中所提供的某些例示性系统实施例中，建模器使用贝叶斯分类器产生单独概率。

在本文中所提供的某些例示性系统实施例中，通过对使用多重扩增反应产生的一系列扩增子的多个拷贝进行高通量dna测序来产生核酸序列数据，其中所述扩增子系列中的每个扩增子跨越多态基因座集合中的至少一个多态基因座且其中集合中的每个聚合基因座被扩增。在本文中所提供的某些例示性系统实施例中，其中对于至少1/2的反应物，多重扩增反应是在限制性引物条件下进行。在本文中所提供的某些例示性系统实施例中，其中样品的平均等位基因失衡在0.4％与5％之间。

在本文中所提供的某些例示性系统实施例中，样品是来自怀疑患有癌症的个体的血浆样品，且假设管理器进一步被配置成基于最佳拟合模型来确定个体的肿瘤细胞中是否存在拷贝数目变化。

在本文中所提供的某些例示性系统实施例中，样品是来自个体的血浆样品且假设管理器进一步被配置成基于最佳拟合模型来确定个体中是否存在癌症。在这些实施例中，假设管理器可以进一步被配置成检测单核苷酸变异位置集合中的单核苷酸变异位置处的单核苷酸变异体，其中检测到染色体非整倍性或单核苷酸变异体或这两者指示样品中存在循环肿瘤核酸。

在本文中所提供的某些例示性系统实施例中，输入处理器进一步被配置成接收个体的肿瘤的染色体区段的单倍型信息，且建模器被配置成使用单倍型信息以产生多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合。

在本文中所提供的某些例示性系统实施例中，建模器产生在0％到25％范围内的等位基因失衡分数的模型。

应理解，本文中所提供的任何方法都可以由储存在非暂时性计算机可读介质上的计算机可读编码来执行。因此，在一个实施例中，本文中提供用于检测个体的样品中的染色体倍性的非暂时性计算机可读介质，其包含计算机可读代码，所述计算机可读代码在由处理装置执行时引起处理装置：接收等位基因出现率数据，其包含染色体区段上的多态基因座集合中的每个基因座处的样品中的每种等位基因的量；通过估计等位基因出现率数据的相来产生多态基因座集合的定相等位基因信息；使用等位基因出现率数据产生不同倍性状态的多态基因座的等位基因出现率的单独概率；使用单独概率和定相等位基因信息产生多态基因座集合的联合概率；和基于联合概率选择指示染色体倍性的最佳拟合模型，由此确定染色体区段的倍性。

在某些计算机可读介质实施例中，等位基因出现率数据是由核酸序列数据产生。某些计算机可读介质实施例进一步包含校正等位基因出现率数据中的误差和使用经校正的等位基因出现率数据进行产生单独概率步骤。在某些计算机可读介质实施例中，所校正的误差是等位基因扩增效率偏差。在某些计算机可读介质实施例中，使用多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生单独概率。在某些计算机可读介质实施例中，通过考虑染色体区段上的多态基因座之间的关联性来产生联合概率。

在一个具体实施例中，本文中提供用于检测个体的样品中的染色体倍性的非暂时性计算机可读介质，其包含计算机可读代码，所述计算机可读代码在由处理装置执行时引起处理装置：接收个体中的染色体区段上的多态基因座集合处的等位基因的核酸序列数据；使用核酸序列数据检测基因座集合处的等位基因出现率；校正所检测的等位基因出现率中的等位基因扩增效率偏差以产生多态基因座集合的经校正的等位基因出现率；通过估计核酸序列数据的相来产生多态基因座集合的定相等位基因信息；通过比较经校正的等位基因出现率与多态基因座集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因出现率的单独概率；考虑染色体区段上的多态基因座之间的关联性，通过组合单独概率来产生多态基因座集合的联合概率；和基于联合概率，选择指示染色体非整倍体的最佳拟合模型。

在某些说明性计算机可读介质实施例中，通过分析模型的所产生的定相等位基因信息与所估计的等位基因出现率之间的差的量值来进行选择。

在某些说明性计算机可读介质实施例中，基于多态基因座集合的所预期的和所观察的等位基因出现率的β二项模型来产生等位基因出现率的单独概率。

应理解，本文中所提供的任何方法实施例都可以通过执行储存在非暂时性计算机可读介质上的代码来进行。

检测癌症的例示性实施例

在某些方面中，本发明提供用于检测癌症的方法。应理解，样品可以是来自怀疑患有癌症的个体的肿瘤样品或液体样品，如血浆。所述方法在以样品中的全部dna的分数形式检测基因突变(如单核苷酸变化，如snv，或拷贝数目变化，如具有少量的这些基因变化的样品中的cnv)方面尤其有效。因此，在检测样品中来自癌症的dna或rna的敏感性方面是优越的。所述方法可以组合本文中关于检测cnv和snv所提供的改善中的任一种或全部以实现这一优越的敏感性。

因此，在某些实施例中，本文中提供用于确定个体的样品中是否存在循环肿瘤核酸的方法，和包含计算机可读代码的非暂时性计算机可读介质，所述计算机可读代码在由处理装置执行时引起处理装置进行所述方法。所述方法包括以下步骤：分析样品以确定个体中的染色体区段上的多态基因座集合处的倍性；和基于倍性确定来确定多态基因座处的平均等位基因失衡水平，其中平均等位基因失衡等于或大于0.4％、0.45％、0.5％、0.6％、0.7％、0.75％、0.8％、0.9％或1％指示样品中存在循环肿瘤核酸，如ctdna。

在某些说明性实例中，平均等位基因失衡大于0.4、0.45或0.5％指示存在ctdna。在某些实施例中，用于确定是否存在循环肿瘤核酸的方法进一步包含检测单核苷酸变异位置集合中的单核苷酸变异位点处的单核苷酸变异体，其中检测到等位基因失衡等于或大于0.5％或检测到单核苷酸变异体或这两者指示样品中存在循环肿瘤核酸。应理解，所提供的任何用于检测染色体倍性或cnv的方法都可以用于确定等位基因失衡水平，通常表示为平均等位基因失衡。应理解，在本发明的这一方面中，本文中所提供的任何用于检测snv的方法都可以用于检测单核苷酸。

在某些实施例中，用于确定是否存在循环肿瘤核酸的方法进一步包含对具有已知平均等位基因失衡比率的对照样品进行所述方法。举例来说，对照物可以是来自个体的肿瘤的样品。在一些实施例中，对照物具有关于所分析的样品所预期的平均等位基因失衡。举例来说，aai在0.5％与5％之间或平均等位基因失衡比率是0.5％。

在某些实施例中，用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析已知呈现癌症中的非整倍性的染色体区段集合。在某些实施例中，用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析1,000到50,000个或100到1000个多态基因座的倍性。在某些实施例中，用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析100到1000个单核苷酸变异体位点。举例来说，在这些实施例中，分析步骤可以包括进行多重pcr以扩增跨越1000到50,000个聚合基因座和100到1000个单核苷酸变异体位点的扩增子。这一多重反应可以设置成单一反应或不同子集多重反应的集合。本文中所提供的多重反应方法，如本文中所公开的大规模多重pcr，提供用于进行扩增反应以帮助获得改善的复用且因此获得改善的敏感性水平的例示性方法。

在某些实施例中，对于至少10％、20％、25％、50％、75％、90％、95％、98％、99％或100％的反应物，多重pcr反应是在限制性引物条件下进行。可以使用本文中所提供的改善的用于进行大规模多重反应的条件。

在某些方面中，以上用于确定个体的样品中是否存在循环肿瘤核酸的方法和其所有实施例都可以用系统来进行。本公开提供关于用于进行所述方法的特定功能和结构特征的教示内容。作为非限制性实例，所述系统包括以下：

输入处理器，其被配置成分析来自样品的数据以确定个体中的染色体区段上的多态基因座集合处的倍性；和

建模器，其被配置成基于倍性确定来确定多态基因座处的等位基因失衡水平，其中等位基因失衡等于或大于0.5％指示存在循环。

检测单核苷酸变异体的例示性实施例

在某些方面中，本文中提供用于检测样品中的单核苷酸变异体的方法。本文中所提供的改善的方法可以实现样品中的0.015％、0.017％、0.02％、0.05％、0.1％、0.2％、0.3％、0.4％或0.5％snv的检测极限。检测snv的所有实施例都可以用系统来进行。本公开提供关于用于进行所述方法的特定功能和结构特征的教示内容。此外，本文中提供包含非暂时性计算机可读介质的实施例，所述非暂时性计算机可读介质包含计算机可读代码，所述计算机可读代码在由处理装置执行时引起处理装置进行本文中所提供的用于检测snv的方法。

因此，在一个实施例中，本文中提供用于确定来自个体的样品中的基因组位置集合处是否存在单核苷酸变异体的方法，所述方法包含：对于每个基因组位置，使用训练数据集产生跨越基因组位置的扩增子的效率和每个循环的误差率的估计值；接收样品中每个基因组位置的所观察的核苷酸一致性信息；通过比较每个基因组位置处的所观察的核苷酸一致性信息与不同变异体百分比的模型来确定由每个基因组位置处的一个或多个真实突变引起的单核苷酸变异体百分比的概率集合，所述模型独立地使用每个基因组位置的所估计的扩增效率和每个循环的误差率；和由每个基因组位置的概率集合确定最有可能的真实变异体百分比和置信度。

在用于确定是否存在单核苷酸变异体的方法的说明性实施例中，产生跨越基因组位置的扩增子集合的效率和每个循环的误差率的估计值。举例来说，可以包括2、3、4、5、10、15、20、25、50、100个或更多的跨越基因组位置的扩增子。

在用于确定是否存在单核苷酸变异体的方法的说明性实施例中，所观察的核苷酸一致性信息包含每个基因组位置的所观察的全部读段的数目和每个基因组位置的所观察的变异体等位基因读段的数目。

在用于确定是否存在单核苷酸变异体的方法的说明性实施例中，样品是血浆样品且样品的循环肿瘤dna中存在单核苷酸变异体。

在另一实施例中，本文中提供用于估计来自个体的样品中的单核苷酸变异体的百分比的方法。所述方法包括以下步骤：在基因组位置集合处，使用训练数据集产生跨越这些基因组位置的一个或多个扩增子的效率和每个循环的误差率的估计值；接收样品中的每个基因组位置的所观察的核苷酸一致性信息；使用扩增子的扩增效率和每个循环的误差率，产生包含初始百分比的真实突变分子的搜索空间的分子总数、背景误差分子和真实突变分子的所估计的平均值和方差；和通过使用所估计的平均值和方差针对样品中的所观察的核苷酸一致性信息拟合分布，通过确定最有可能的真实单核苷酸变异体百分比来确定样品中由真实突变引起的单核苷酸变异体的百分比。

在这一用于估计样品中的单核苷酸变异体的百分比的方法的说明性实例中，样品是血浆样品且样品的循环肿瘤dna中存在单核苷酸变异体。

本发明的这一实施例的训练数据集通常包括来自一名或优选一组健康个体的样品。在某些说明性实施例中，与一个或多个检验中样品在同一天或甚至在同一次操作中分析训练数据集。举例来说，来自2、3、4、5、10、15、20、25、30、36、48、96、100、192、200、250、500、1000名或更多的健康个体的组的样品可以用于产生训练数据集。当可以获得较大数目(例如96名或更多)的健康个体的数据时，即使在对检验中样品进行所述方法之前进行操作，扩增效率估计值的置信度也会提高。pcr误差率可以使用不是仅针对snv碱基位置，而是针对snv周围的整个扩增区域所产生的核酸序列信息，因为误差率是以每个扩增子计的。举例来说，使用来自50名个体的样品和对snv周围的20个碱基对扩增子进行测序，可以使用来自1000个碱基读段的误差出现率数据确定误差出现率。

通常，通过估计扩增区段的扩增效率的平均值和标准差且接着将其针对分布模型(如二项分布或β二项分布)进行拟合来估计扩增效率。确定具有已知的循环数目的pcr反应的误差率且接着估计每个循环的误差率。

在某些说明性实施例中，估计检验数据集的起始分子进一步包括如果所观察的读段数目与所估计的读段数目显著不同，那么使用步骤(b)中所估计的起始数目的分子更新检验数据集的效率的估计值。接着，可以针对新的效率和/或起始分子更新估计值。

用于估计分子总数、背景误差分子和真实突变分子的搜索空间可以包括其中snv位置处的碱基的作为下端的0.1％、0.2％、0.25％、0.5％、1％、2.5％、5％、10％、15％、20％或25％到作为上端的1％、2％、2.5％、5％、10％、12.5％、15％、20％、25％、50％、75％、90％或95％的拷贝是snv碱基的搜索空间。当所述方法是检测循环肿瘤dna时，较低范围(作为下端的0.1％、0.2％、0.25％、0.5％或1％到作为上端的1％、2％、2.5％、5％、10％、12.5％或15％)可以用于血浆样品的说明性实例中。将较高范围用于肿瘤样品。

针对全部分子中的全部误差分子(背景误差和真实突变)的数目拟合分布，以计算搜索空间中的每个可能的真实突变的似然性或概率。这一分布可以是二项分布或β二项分布。

通过确定最有可能的真实突变百分比和使用来自拟合分布的数据计算置信度来确定最有可能的真实突变。作为说明性实例且不意图限制本文中所提供的方法的临床解释，如果平均突变率较高，那么作出snv的阳性确定所需的置信度百分比较低。举例来说，如果使用最有可能的假设的样品中的snv的平均突变率是5％且置信度百分比是99％，那么将作出阳性snv识别。在这一说明性实例的另一方面，如果使用最有可能的假设的样品中的snv的平均突变率是1％且置信度百分比是50％，那么在某些情形下，将不作出阳性snv识别。应理解，数据的临床解释将是敏感性、特异性、发病率、流行率和替代性产品可用性的函数。

在一个说明性实施例中，样品是循环dna样品，如循环肿瘤dna样品。

在另一实施例中，本文中提供用于检测来自个体的检验样品中的一种或多种单核苷酸变异体的方法。根据这一实施例的方法包括以下步骤：

对于单核苷酸变异位置集合中的每个单核苷酸变异体位置，基于测序操作中产生的结果，确定来自多个正常个体中的每一个的多个对照样品的中值变异体等位基因出现率，以鉴别正常样品中具有低于阈值的中值变异体等位基因出现率的所选择的单核苷酸变异体位置和在从每个单核苷酸变异体位置去除离群样品之后，确定每个单核苷酸变异体位置的背景误差；基于在测序操作中产生的检验样品的数据，确定检验样品的所选择的单核苷酸变异体位置的所观察的读段深度加权平均值和方差；和使用计算机，鉴别一个或多个单核苷酸变异体位置，所述一个或多个单核苷酸变异体位置与所述位置的背景误差相比具有统计显著读段深度加权平均值，由此检测一种或多种单核苷酸变异体。

在这一用于检测一种或多种snv的方法的某些实施例中，样品是血浆样品，对照样品是血浆样品，且所检测的检测到的一种或多种单核苷酸变异体存在于样品的循环肿瘤dna中。在这一用于检测一种或多种snv的方法的某些实施例中，所述多个对照样品包含至少25个样品。在某些说明性实施例中，所述多个对照样品是作为下端的至少5、10、15、20、25、50、75、100、200或250个样品到作为上端的10、15、20、25、50、75、100、200、250、500和1000个样品。

在这一用于检测一种或多种snv的方法的某些实施例中，从高通量测序操作中产生的数据去除离群值以计算所观察的读段深度加权平均值且确定所观察的方差。在这一用于检测一种或多种snv的方法的某些实施例中，检验样品的每个单核苷酸变异体位置的读段深度是至少100个读段。

在这一用于检测一种或多种snv的方法的某些实施例中，测序操作包含在限制性引物反应条件下进行的多重扩增反应。使用本文中所提供的改善的用于进行多重扩增反应的方法进行说明性实例中的这些实施例。

不受理论约束，本发明的实施例的方法利用使用正常血浆样品的背景误差模型以解决操作特异性假象，所述正常血浆样品是与检验中样品在同一测序操作中测序。去除具有高于阈值的正常中值变异体等位基因出现率(例如＞0.1％、0.2％、0.25％、0.5％、0.75％和1.0％)的噪声位置。

从模型迭代地去除异常样品以解决噪声和污染。对于每个基因座的每个碱基取代，计算误差的读段深度加权平均值和标准差。在某些说明性实施例中，对具有至少具有阈值数目的读段(例如至少2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500或1000个变异体读段)的单核苷酸变异体位置和(在某些实施例中)针对背景误差模型的大于2.5、5、7.5或10的a1z评分的样品(如肿瘤或游离血浆样品)作为候选突变进行计数。

在某些实施例中，对于单核苷酸变异体位置集合中的每个单核苷酸变异体位置，在测序操作中达到作为范围的下端的大于100、250、500、1,000、2000、2500、5000、10,000、20,000、25,0000、50,000或100,000个到作为上端的2000、2500、5,000、7,500、10,000、25,000、50,000、100,000、250,000或500,000个读段的读段深度。通常，测序操作是高通量测序操作。在说明性实施例中，由读段深度对检验中样品的所产生的平均值或中值进行加权。因此，具有在1000个读段中检测到的1个变异体等位基因的样品中的变异体等位基因确定为真的似然性的权重高于具有在10,000个读段中检测到的1个变异体等位基因的样品。因为变异体等位基因(即，突变)的确定未在100％置信度下进行，所鉴别的单核苷酸变异体可视为候选变异体或候选突变。

用于定相数据的分析的例示性检验统计值

下文描述用于定相数据的分析的例示性检验统计值，所述定相数据是来自已知或怀疑是混合样品的样品，所述混合样品含有来源于两种或更多种在遗传学上不一致的细胞的dna或rna。假设f表示相关dna或rna的分数，例如具有相关cnv的dna或rna的分数，或来自相关细胞(如癌细胞)的dna或rna的分数。在癌症检验的一些实施例中，f表示来自癌细胞与正常细胞的混合物中的癌细胞的dna或rna的分数，或f表示癌细胞与正常细胞的混合物中的癌细胞的分数。应注意，这是指来自相关细胞的dna的分数，假设每个相关细胞提供dna的两个拷贝。这与缺失或复制的区段处的来自相关细胞的dna分数不同。

将每个snp的可能的等位基因值表示为a和b。使用aa、ab、ba和bb表示所有可能的有序等位基因对。在一些实施例中，分析具有有序等位基因ab或ba的snp。假设ni表示第i个snp的序列读段的数目，且ai和bi分别表示指示等位基因a和b的第i个snp的读段数目。假设：

ni＝ai+bi。

定义等位基因比率ri：

假设t表示目标snp的数目。

在不失一般性的情况下，一些实施例关注单一染色体区段。为了更清楚起见，在本说明书中，短语“与第二同源染色体区段相比的第一同源染色体区段”意指染色体区段的第一同系物和染色体区段的第二同系物。在一些这类实施例中，所有目标snp都包含于相关区段染色体中。在其它实施例中，分析多个染色体区段的可能的拷贝数目变化。

map估计

这一方法利用通过有序等位基因进行定相的知识以检测目标区段的缺失或复制。对于每个snpi，定义

接着定义

下文描述xi和s在各种拷贝数目假设(如二体性、第一或第二同系物的缺失或第一或第二同系物的复制的假设下)的分布。

二体性假设

在目标片段未缺失或复制的假设下，

其中