一种乳腺癌患者无病生存期预测模型及其构建方法与流程

2021-01-08 11:01:00|

323|

起点商标网

本发明属于生物医药领域，涉及一种乳腺癌患者无病生存期预测模型及其构建方法。

背景技术：

乳腺癌是严重危害女性健康的恶性肿瘤，占女性恶性肿瘤发病率第一位，死亡率第五位，发病率亦呈逐年上升趋势。大约30％-40％的乳腺癌患者在接受手术及术后辅助治疗后，出现复发转移，最终发展为晚期乳腺癌，并且5年生存率不足23％。早期乳腺癌的复发转移风险研究显示，除年龄、肿瘤大小之外，术前腋窝淋巴结(aln)状态、新辅助化疗后是否达病理完全缓解(pcr)、分子分型及相关基因表达情况等，也是评价预后的重要指标。

乳腺癌患者腋窝淋巴结状态影响手术方案及系统治疗决策，也作为肿瘤复发转移的独立危险因素。目前诊断方法主要为术前淋巴结穿刺术、术中前哨淋巴结活检(slnb)与腋窝淋巴结清扫术(alnd)。术前进行淋巴结穿刺，或术中slnb能使腋窝淋巴结阴性的乳腺癌患者可免行alnd，但两者方法均存在一定的假阴性率，且具有一定有创性。新辅助化疗现已成为局部晚期及部分早期乳癌的标准治疗方式之一。研究显示，20-30％新辅助化疗敏感者可达到pcr状态，且具有更好的无病生存期和总生存，pcr已成为远期生存获益的一个重要的预后因素。目前，只有手术病理检测是评估患者是否达到pcr的金标准。同时，基于分子分型、生物标志物、肿瘤分期等临床特征，相关的早期乳腺癌的复发风险预测模型发挥了一定作用但缺乏普适性。例如，通过21基因，70基因的检测进行肿瘤复发风险预测，使得70％临床低复发风险的早期乳腺癌患者免除辅助化疗。但是，这些手段大都限于特定人群的预测，更是缺乏有高证据级别的前瞻性研究支持。另外，一些重要的乳腺癌分子分型还尚无统一诊疗预测标准，比如预后较差的其他类型的三阴性乳腺癌人群。

技术实现要素：

针对上述问题，本发明的目的是提供一种精准、简便、非有创性的早期乳腺癌患者术后无病生存期(dfs)的预测模型及其构建方法。

为实现上述目的，本发明采取的技术方案为：一种乳腺癌患者无病生存期预测模型的构建方法，包括以下步骤：

(1)、数据收集：收集和处理患者的磁共振图像数据、临床特征数据和随访资料数据；

(2)、建立影像组学预测模型：通过随机森林筛选磁共振图像数据中影响无病生存期的关键特征，并根据cox比例风险模型建立相应的无病生存期预测模型；

(3)、建立临床病理特征预测模型：通过cox比例风险模型筛选临床病理特征，并通过cox比例风险模型建立基于临床特征的无病生存期预测模型；

(4)、建立综合预测模型：基于步骤(2)、(3)的模型，通过cox比例风险模型得到综合预测模型。

本发明方法通过人工智能机器学习算法，以乳腺癌患者的磁共振(mr)影像数据、临床特征数据和随访资料基础，建立乳腺癌患者无病生存期的人工智能预测模型，对指导临床治疗策略、加强临床治疗干预及后续的个体化随访具有重要的指导意义。

作为本发明的优选实施方式，所述方法还包括将所述综合预测模型可视化生成相应的生成相应的可视化的列线图和/或进行验证的步骤。

生成列线图(nomogram)的可视化形式，模型更直观、简单，便于对该模型进行推广、应用。通过对模型进行验证可有效评估模型的效能。

更优选地，所述验证的步骤为通过r语言“proc”数据包绘制诊断特异性曲线和/或临床决策分析曲线对所述综合预测模型进行分析。

通过计算诊断特异性曲线(即受试者工作特征曲线，receiveroperatingcharacteristiccurve，简称roc曲线)相应的曲线下面积(auc)，可用于判断模型的准确性。auc越接近于1，说明诊断效果越好。

临床决策分析曲线(decisioncurveanalysis，dca)可进一步分析模型的临床应用价值，并指导实际应用。

作为本发明的优选实施方式，步骤(1)中所述的磁共振图像数据为患者使用1.5t或3.0t场强磁体进行乳腺磁共振成像检查得到数据，所述数据包括t1平扫增强序列、t2加权序列和扩散加权成像序列表观扩散系数序列。

作为本发明的优选实施方式，步骤(1)中所述磁共振图像数据的处理方式为：结合乳腺钼靶报告、乳腺超声检查报告和临床触诊中给出关于病变定位的信息，在所述图像序列中，依次对包含原发肿瘤和腋窝淋巴结的每个层面进行靶区边缘的勾画，提取包括形状、强度、纹理和小波的影像学特征。

作为本发明的优选实施方式，步骤(1)中所述的临床特征数据包括：确诊年龄、肿瘤个数、肿瘤大小、病理类型、病理组织学分级、临床肿瘤分期、临床淋巴结分期、病理肿瘤分期、病理淋巴结分期、病理tnm分期、er状态、pr状态、her-2状态、分子分型和手术方式。

作为本发明的优选实施方式，所述步骤(2)为：在全队列中进行了无监督一致聚类，进一步通过随机森林算法筛选得到影响患者无病生存期的关键因素。

作为本发明的优选实施方式，所述步骤(2)中的影像组学预测模型为联合t1+c、t2wi、dwi-adc的多序列影像组学预测模型

本发明还要求保护所述方法构建的乳腺癌患者无病生存期预测模型。

作为本发明的优选实施方式，本发明提供了一种乳腺癌患者无病生存期的预测模型，所述预测模型包括风险预测公式＝β1x1+β2x2+β3x3+…+βkxk，其中，xk为各模型特征值，βk为各个模型中的特征的权重系数，具体如下表所示。

使用该模型时，影像预测模型中各特征值为由提取软件自动生成得到，临床特征根据患者的情况进行赋值。假设患者有2个肿瘤，病理组织学分级为i，临床肿瘤分期为pt1，临床淋巴结分期为pn1，pr状态为阴性，ki67表达为15～35，手术方式为保乳手术，则相应的临床特征模型分值为＝0.9420×2+0.3346×1-0.0160×1+0.8280×2-0.4022×1+0.3440×2-0.5657×2，其余同理进行计算。

作为本发明的优选实施方式，所述预测模型还包括列线图；所述列线图包括第一行分数，分值范围为0～100；第二行多序列影像预测模型，分值范围为-1～2，分别对应第一行分值范围0～100均匀分布；第三行临床特征模型，分值范围为-1～2，分别对应第一行分值范围0～4均匀分布；第四行总分，分值范围为0～200；第五行为1年无病生存期概率，分值范围为0.9～0.4，对应第四行总分分值范围135～184非均匀分布；第六行为2年无病生存期概率，分值范围为0.9～0.1，对应第四行总分分值范围114～185非均匀分布；第七行为3年无病生存期概率，分值范围为0.9～0.1，对应第四行总分分值范围108～180非均匀分布。

所述列线图为根据得到的综合预测模型通过软件处理得到，更简洁、直观。根据多序列影像预测模型或临床特征模型计算得到的值，分别投射到第一行得到相应的分值，所述第四行总分为根据第二行多序列影像预测模型的分值投射到第一行分数和第三行临床特征模型的分值投射到第一行分数计算得到的总和，所述第四行总分投射到第五行数值，即为相应的患者第一年无病生存期概率，所述第四行总分投射到第六行数值，即为相应的患者第二年无病生存期概率，所述第四行总分投射到第七行数值，即为相应的患者第三年无病生存期概率。

本发明利用人工智能机器学习算法，基于乳腺癌患者的mr影像及临床特征数据基础，建立乳腺癌患者无病生存期的人工智能预测模型，可以将早期乳腺癌患者有效分为高危风险组和低危风险组。所述预测模型具有精准、简便、无创等优点，能够有效对早期乳腺癌患者术后无病生存期进行有效评价，有助于协助临床医生优化治疗方案，及早地对高危患者加强治疗干预，减少患者的复发风险，对指导临床治疗策略、加强临床治疗干预及后续的个体化随访具有重要的指导意义。

附图说明

图1为本发明构建乳腺癌患者无病生存期预测模型的技术路线。

图2为本发明综合预测模型的nomogram用于区分的高、低危风险患者。

图3为通过roc曲线对本发明综合预测模型的效能评价结果。

图4为本发明综合预测模型、多序列影像预测模型、临床病理特征预测模型在训练组队列的临床决策性曲线分析结果。

图5为本发明综合预测模型多序列影像预测模型、临床病理特征预测模型在验证队列和全队列的临床决策性曲线分析结果。

图6为本发明乳腺癌患者无病生存期综合预测模型列线图。

具体实施方式

为更好的说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明作进一步说明。

本发明一种乳腺癌患者无病生存期预测模型的构建过程如下(技术路线如图1所示)：

1.患者筛选

入组标准：(1)女性患者，年龄大于18岁；(2)早期乳腺癌患者(tnm分期i-iii，根据8版ajcc分期)；(3)患者已行病理组织学确诊为单侧原发乳腺癌，无伴远处器官转移；(4)患者已行手术或者腋窝淋巴结清扫手术，并行病理活检确定腋窝淋巴结状态；(5)已行术前乳腺及腋窝区域磁共振检查，包括t1平扫增强序列(t1+c)、t2加权序列(t2wi)、扩散加权成像序列表观扩散系数序列(dwi-adc)。

排除标准：(1)患者在外部机构进行活检，且无法获得病理结果；(2)既往曾患除乳腺癌以外的肿瘤且未完全切除或完全切除该肿瘤少于3年；(3)mr造影质量不足以获得测量结果；(4)乳腺肿瘤与aln在mr及术后病理检查中的相关性不明确。

根据上述标准，我们共对4家临床机构入组1717例早期乳腺癌患者进行入排筛选，有1214例患者符合入组。对符合入组条件病例进行收集磁共振图像、临床特征、随访资料等数据收集。评估病例数据质量，建立人工智能平台电子数据知识库。

2.患者样本数据收集和处理

(1)、磁共振图像的采集与数据处理

i.磁共振图像采集

收集患者1.5t或3.0t场强磁体进行乳腺mr成像结果。本发明数据的磁共振图像采集如下表1所示：

表1本发明的磁共振图像数据来源

ii.图像切割

请具有多年经验的放射科医师在每例病例中标注磁共振影像疑似乳腺癌肿瘤部位，利用3dslicer4.10.2软件在t1+c序列、t2wi序列、dwi-adc序列中进行roi勾画。勾画原则：依次对包含原发肿瘤和腋窝淋巴结的每个层面进行靶区边缘的勾画。为保证肿瘤及淋巴结勾画的准确性，两位医师双盲、独立勾画靶区。进一步结合乳腺钼靶报告、乳腺超声检查报告和临床触诊中给出关于病变定位的信息。

iii.影像组学特征的提取

利用3dslicer4.10.2软件的n4itk模版对所有的磁共振图像转化为0-255(该模块的代码是n4算法)的强度，进行归一化处理，从而减少不同机器不同参数导致的磁共振图像的差异，使预测模型更具普适性。

在对应的肿瘤区域或腋窝淋巴结区域roi范围内进行特征提取，我们提取的特征主要包括形状、强度、纹理和小波在内的各种影像学特征。

形状特征主要包括对肿瘤形状特性的描述，比如肿瘤长度、体积、表面积、边缘是否光滑等；强度特征主要是基于灰度的统计量，包含不限于肿瘤灰度的均值、方差、偏度、峰度等。

纹理特征的提取主要是基于灰度共生矩阵(gray-levelco-occurrencematrix)，灰度游程矩阵(gray-levelrun-lengthmatrix)和灰度区域大小矩阵(gray-levelsizezonematrix)。

小波特征的提取基于对图像进行多尺度的小波滤波处理，然后对不同小波域的图像进行特征提取工作。

肿瘤或腋窝淋巴结的三维特征，具体包括8个形状特征，17个一阶统计特征，22个灰度共生矩阵(gray-levelco-occurrencematrix)特征，14个灰度级游程矩阵(gray-levelrun-lengthmatrix)特征，5个邻域灰度差矩阵(neigbouringgraytonedifferencematrix)特征，从原始图像中提取13个灰度级区域矩阵(gray-levelsizezonematrix)特征。然后应用3dcoiflet小波变换将原始图像分解为具有不同信号频率尺度的8个新图像。因此，每个序列(t1+c、t2wi、dwi-adc)mr图像共可提取863个特征。

(2)、临床特征数据采集

临床特征信息采集内容包括：确诊年龄、肿瘤个数、肿瘤大小、病理类型、病理组织学分级、临床肿瘤分期、临床淋巴结分期、病理肿瘤分期、病理淋巴结分期、病理tnm分期、er状态、pr状态、her-2状态、分子分型、手术方式。

(3)、随访资料数据采集

随访资料采集内容主要为患者dfs时间，即从手术切除到手术后疾病复发或死亡(以先到者为准)的时间。

3.模型构建

将入组的1214例患者(全队列)以7:3的比例随机分为训练组队列(849例)及验证组队列(365例)。

(1)、基于磁共振影像特征建立预测无病生存期的影像预测模型

使用随机森林算法筛选出各序列中关键的影像特征(t1+c、t2wi、dwi-adc序列均为30个)，并利用cox比例风险模型基于影像特征建立dfs预测模型：包括t1+c单序列影像预测模型、t2wi单序列影像预测模型和dwi-adc单序列影像预测模型；其公式＝β1x1+β2x2+β3x3+…+βkxk，其中，xk为各模型特征值，βk为各个模型中的特征的权重系数，具体如下表所示。

表2影像预测模型

进一步地，基于得到的单序列影像预测模型，通过cox比例风险模型建立多序列影像预测模型，所述多序列影像预测模型的公式＝β1x1+β2x2+β3x3+…+βkxk，其中，xk为各模型特征值，βk为各个模型中的特征的权重系数，具体如下表所示。

表3多序列影像预测模型

在训练组队列中绘制roc曲线，结果显示：t1+c序列的1年、2年、3年dfs的预测效能auc分别为0.81，0.78，0.73；t2wi序列的1年dfs、2年dfs和3年dfs的预测效能auc分别为0.79，0.79，0.76；dwi-adc序列的1年dfs、2年dfs和3年dfs的预测效能auc分别为0.75，0.78，0.77。

t1+c单序列影像预测模型、t2wi单序列影像预测模型、dwiadc单序列影像预测模型联合建立的多序列影像特征模型的预测效能较单序列预测模型高，auc分别为0.80，0.83，0.81。进一步在验证组队列和全队列中对模型进行验证，结果表明模型在验证组队列和全队列中也具有良好的预测效果。

进一步采用kaplan-meier法对多序列影像预测模型中训练队列中的患者进行生存分析，通过log-rank检验分析比较生存率的差别。结果显示，可将其分为高、低风险两组(hr＝0.09,95％ci：0.05-0.17；p<0.001)。这个分组方式在验证组队列患者(hr＝0.31，95％ci：0.10-1.00；p＝0.45)及全队列患者(hr＝0.12,95％ci：0.07-0.21；p<0.001)中具有良好的区分效能。

(2)、基于临床特征建立预测无病生存期的临床预测模型

采用cox比例风险模型分别对训练组队列中患者临床病理特征进行单因素分析，发现肿瘤数量多，病理组织学分级高，病理tnm分期高，pr阴性，ki67表达高、非保乳术患者与更差无病生存期相关，差异具有统计学意义(p<0.05)，并进一步通过cox比例风险模型构建得到相应的临床特征的无病生存期预测模型；模型公式＝＝β1x1+β2x2+β3x3+…+βkxk，其中，xk为各模型特征值，βk为各个模型中的特征的权重系数，具体如下表所示。

表4临床病理特征预测模型

临床特征模型显示：在训练组队列中1年、2年、3年dfs的预测效能auc分别为0.83、0.83、0.85；验证组队列中1年、2年、3年dfs的预测效能auc分别为0.76、0.78、0.80；全队列中1年、2年、3年dfs的预测效能auc分别为0.81、0.82、0.83。

根据临床特征可以将训练队列患者区分为高、低风险两组患者(hr＝0.10,95％ci：0.05-0.19；p<0.001)。这个分组方式在验证组队列患者(hr＝0.18,95％ci：0.07-0.45；p<0.001)及全队列患者(hr＝0.12，95％ci：0.07-0.20；p<0.001)中具有良好的区分效能。

(3)、综合预测模型

为了建立一种方便临床应用的预测dfs的模型，通过多因素分析。多因素分析结果显示，临床病理特征和多序列影像组学特征是无病生存期的独立预测因子。把临床病理特征结合多序列影像组学特征，通过logistic回归建立综合预测模型，模型公式＝β1x1+β2x2+β3x3+…+βkxk，其中，xk为各模型特征值，βk为各个模型中的特征的权重系数，具体如下表所示。

表5综合预测模型

dfs综合预测模型可以有效区分训练组队列(hr＝0.04，95％ci：0.01-0.11；p<0.001)、验证组队列(hr＝0.04，95％ci：0.004-0.32；p<0.001)和全队列(hr＝0.04，95％ci：0.01-0.09；p<0.001)中的高危和低危患者(见图2a、2b、2c)。dfs综合预测模型在训练组队列中1年、2年、3年dfs率的auc值分别为0.87、0.90和0.89；在验证组队列中分别为0.89、0.91、0.90，在全队列中分别为0.88、0.90、0.89(见图3a、3b、3c)。

联合临床病理特征和多序列影像组学特征建立的综合预测模型预测效能比临床病理特征预测模型或多序列影像预测模型高。在进一步的亚组分析中，综合预测模型在不同分子分型中均有良好的预测效能。在luminala型患者中预测1年、2年、3年dfs分别为0.98、0.97、0.94；在luminalb型中分别为0.86、0.88、0.88；在her-2阳性型中分别为0.87、0.92、0.92；在三阴型患者中分别为0.75、0.90、0.90。。

进一步对训练组基于多序列影像组学建立的预测模型、基于临床病理特征建立的预测模型和基于多序列影像组学结合临床病理特征建立的综合预测模型进行临床决策性曲线分析。分析发现(见图4)，如果当病人或医生预测aln转移的阈值概率>10％及预测dfs的阈值概率>5％时，那么使用基于多序列影像组学结合临床病理特征建立的综合预测模型比单独基于多序列影像组学建立的预测模型或基于临床病理特征建立的预测模型更有利。进一步在验证组及总队列中进行验证，基于多序列影像组学结合临床病理特征建立的综合预测模型的临床效益也显示了比单独基于多序列影像组学建立的预测模型或基于临床病理特征建立的预测模型有更好的临床预测效能(见图5)。

对模型进行可视化处理，得到如图6的列线图。

所述列线图包括第一行分数，分值范围为0～100；第二行多序列影像预测模型，分值范围为-1～2，分别对应第一行分值范围0～100均匀分布；第三行临床特征模型，分值范围为-1～2，分别对应第一行分值范围0～4均匀分布；第四行总分，分值范围为0～200；第五行为1年dfs概率，分值范围为0.9～0.4，对应第四行总分分值范围135～184非均匀分布；第六行为2年dfs概率，分值范围为0.9～0.1，对应第四行总分分值范围114～185非均匀分布；第七行为3年dfs概率，分值范围为0.9～0.1，对应第四行总分分值范围108～180非均匀分布。

所述列线图为根据得到的综合预测模型通过软件处理得到，更简洁、直观。根据多序列影像预测模型或临床特征模型计算得到的值，分别投射到第一行得到相应的分值，所述第四行总分为根据第二行多序列影像预测模型的分值投射到第一行分数和第三行临床特征模型的分值投射到第一行分数计算得到的总和，所述第四行总分投射到第五行数值，即为相应的患者第一年dfs概率，所述第四行总分投射到第六行数值，即为相应的患者第二年dfs概率，所述第四行总分投射到第七行数值，即为相应的患者第三年dfs概率。

综上所述，我们建立并验证了一个基于多序列影像组学结合临床病理特征的创新的乳腺癌dfs综合预测模型。该可以将早期乳腺癌患者有效分为高危风险组和低危风险组，两组患者的dfs有显著统计学差异，且dfs综合预测模型预测患者dfs的预测效能明显提高，这对指导临床治疗策略、加强临床治疗干预及后续的个体化随访具有重要的指导意义。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。