免疫治疗疗效预测模型训练方法、预测系统及方法和介质与流程

2021-01-08 13:01:52|

357|

起点商标网

本发明涉及一种智能信息预测技术，具体涉及一种免疫治疗疗效的预测模型的训练方法、使用该预测模型的预测系统和预测方法和介质，属于人工智能技术领域。

背景技术：

近年来，智能分析处理已经渗透到各个技术领域，并逐渐应用到临床医学中，被人们称之为智能疾病诊断分析，而在实际智能疾病诊断分析中经常会碰到需要处理多模态的情形，而临床医学诊断正是这样的多模态情形，目前已有的多源多模态智能分析方法和系统，但是时序通常都是同步的序列，例如有些多源多模态智能分析针对诸如心电图或脑电图等同步序列的进行处理分析，如公开号为cn107247881a的中国发明专利申请，其披露了一种多模态智能分析方法及系统，并具体公开了一种对文字数据，时间序列信号数据和视觉数据进行处理和诊断导航和诊断决策的系统及方法，通过模型训练，利用循环神经网络和卷积神经网络进行诊断导航和决策。但是上述专利虽然涉及多模态的时间序列，但是其主要是针对同步时序，比如脑电图和心电图这种同步时序的智能分析场景。

当前，在临床医学上面临着众多的异步时间序列，而分析处理异步时间序列的方法和系统相对较少，但是在实践中却存在着迫切的需求，这也是现代临床医学经常碰到的技术问题。

技术实现要素：

为了克服现有技术不能处理免疫治疗过程中的异步时间序列信息的不足，本发明提出了一种能够对免疫治疗过程中的异步时间序列信息进行处理/预测的系统，及使用该系统对多种临床信息的异步时间序列信息进行预后疗效智能预测的方法，以及所述系统和方法中使用的预测模型的训练方法，以更加准确地针对多源异步时间序列信息进行处理与预测。

为实现上述目的，一方面，本发明提供了一种免疫治疗疗效预测模型的训练方法，包括：

搜集基本临床信息、不同时间拍摄的ct影像以及专家标注的针对每一个影像中主病灶的分割结果即专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息，并将搜集到的信息划分为训练集、验证集与测试集；

对上述搜集到的数据集进行预处理，其中，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；对疗效评估信息进行编码处理；记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳；

将预处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合，将时间维度降至一维，与预处理后的基本临床信息结构化特征进行拼接，得到总特征，对总特征进行建模，进行某时间点特征预测，得到预测结果；

结合预测结果在该时间点疗效评估信息计算损失，在训练集上训练预测模型；在验证集上，将处理后的验证集输入训练后的预测模型，得到该时间点预测结果，并与该该时间点疗效评估信息对比计算并评估模型性能，使用在验证集上具有最低损失的模型作为预测模型；在测试集上，将处理后的测试集输入验证后的预测模型，得到模型的测试性能，采用与验证结果可比的模型作为训练好的预测模型。如果测试集上的结果与验证结果不可比，则需要重新对模型进行训练，直到测试集上的结果与验证结果可比，再将对应的训练好的模型用于真实世界数据预测。

本发明中，对预处理后的异步时间序列特征在时间维度进行融合降维处理，除可采用现有的在时间维度降维的机器学习模型外，如循环神经网络，本发明还提出了一种新的时序注意力模型在时间维度融合降维，该时序注意力模型针对异步时间序列进行处理，将预处理后的异步时间序列特征在时间维度进行融合降维，具体步骤为：在所述将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合降维的步骤中，(1)首先采用一个可利用反向传播算法优化的模型，如多层感知机、线性回归模型等，将一个预处理后的异步时间序列特征作为输入转换成其中t表示时间序列中时间点的数量，c0表示每一个时间点中特征的维度，c1是转换后时间序列中每一个时间点特征的维度，用表示x1中每一个时间点的特征，用表示t个时间点中相邻时间点的时间间隔；(2)对于转换后的异步时间序列特征x1，重复k次以下操作：

将转换成其中λ和β是可学习的参数，k为可调整的超参数，softmax的定义为：

其中，n＝t，x指任意的n维向量输入；本领域技术人员可以理解，k＝1时，x2⁽¹⁾…x2^(t-1)为无用项，无需计算，只需计算x2^(t)；(3)最后，取再将时间序列中最后一个时间戳与目标日期的时间差拼接至x3，得到完成x1的融合降维，若数据集中后一个时间戳与目标日期的时间差均一致，则不需要拼接此特征至x3，此情况下将其他预处理后的异步时间序列特征通过前述步骤(1)、(2)和(3)逐一进行处理；将降维后的异步时间序列特征与预处理后的基本临床信息结构化特征进行拼接，得到总特征其中cs表示预处理后的基本临床信息结构化特征维度，cts表示经降维处理后的异步时间序列特征维度；对总特征进行建模，得到预测结果。所述对总特征进行建模可采用卷积神经网络、循环神经网络、支持向量机、随机森林或多层感知机等机器学习模型，也可采用先验函数，如指数函数、对数函数等进行建模。

另一方面，本发明还提供一种免疫治疗疗效预测系统，包括以下模块：

模块1：用于收集待预测某时间点疗效的对象的基本临床信息、不同时间拍摄的ct影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息；

模块2：用于将上述收集到的数据集进行预处理，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳；

模块3：将模块2中预处理后的信息输入预行训练好的预测模型，对待预测对象进行某时间点特征预测，得到治疗效果的预测结果。

本发明还提供了一种免疫治疗疗效预测方法，包括以下步骤：

步骤1，收集待预测未来时间点疗效的对象的基本临床信息、不同时间拍摄的ct影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息；

步骤2，将上述收集到的数据集进行预处理，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；记录异步时间序列特征每个数据点间的时间间隔和每个时间点的时间戳；

步骤3：将步骤2中处理后的信息输输入预先训练好的预测模型，对待预测对象进行某时间点特征预测，得到治疗效果的预测结果。

本发明还提供了一种计算机程序，包括计算机可执行指令，所述计算机可执行指令在被执行时使处理器执行本发明所述的模型训练方法。

本发明还提供了一种计算机设备，包括处理器、与所述处理器耦合的存储器，所述存储器用于存储指令，当所述指令被所述处理器执行时，使得所述处理器执行本发明所述的模型训练方法。

本发明所提供的系统和方法可以在免疫治疗临床干预开始之前预测患者预后，为临床医生的干预方案选择给出参考。本发明相比较现有技术有着显著提升的技术效果，具体如下：

1.本发明融合多模态数据进行建模，模型表达能力相比于单模态模型大大增强；

2.模型预测除了基于当前数据，还会结合历史数据，得到更准确的结果；

3.由于医疗数据的时间序列绝大多数都是非同步的，本发明所提供的方法可以处理此类数据，而传统时间序列数据处理方法仅能处理同步时间序列；

4.本系统采用深度学习，模型高度的非线性得到更佳结果；

5.本发明在肺癌二线免疫治疗中的疗效预测结果与病人的总体生存明显相关，使临床医生可以直接以生存为病人获益指标进行干预方案选择。

附图说明

图1是本发明一个实施例的模型训练方法的流程图；

图2是本发明一个实施例的多源异步时间序列处理模型原理图；

图3是本发明一个实施例的预测系统的模块图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

1.训练免疫治疗疗效预测模型

图1为一个示例性的预测模型训练过程。

搜集使用pd-1抑制剂治疗的肺癌患者的基本临床信息、不同时间拍摄的ct影像以及对应的专家分割标注、实验室检验信息、临床干预状态信息以及治疗过程中专家进行的疗效评估信息，并将其划分为训练集、验证集与测试集；

本发明中，所述基本临床信息指仅采集过一次的信息，主要包括病人性别、年龄、吸烟史、肿瘤家族史等；对于有的病人，在基线点采集了的血生化指标，也属于采集了一次的基本临床信息。对于在不同时间点采集了多次的数据外加采集时间的时间戳信息为时间序列信息，ct影像以及对应的专家分割标注和实验室检验信息均为采集了多次的信息，比如在给药治疗前后不同时间拍摄ct影像和专家对其进行的分割标注，为时间序列信息。临床干预状态信息，包括干预的时间和干预的种类，干预的种类包括在临床上的治疗信息，比如给药数据，包括给药种类、给药时间点等；治疗过程中专家进行的疗效评估信息，即真实特征信息。异步时间序列指时间间隔不定长的时间序列。

在一个实施例中，搜集了99例肺癌二线病人使用pd-1抑制剂进行免疫治疗前及过程中的基本临床信息(包括病人性别、年龄、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期)、多次不同时间拍摄的ct影像及专家分割标注(由影像科医生根据病历标注ct上的主病灶精准分割，并由高年资肿瘤科医生确认标注)、实验室检验信息、免疫治疗给药时间以及治疗过程中专家进行的疗效评估信息和对于每一个病人的免疫治疗开始时间以及结束时间，如果治疗没有结束，则将结束时间设定为当日后一日，得到临床干预时间段[tstart，tend]。将病人按照3：1：1的比例划分为训练集、验证集和测试集3个数据集。

对搜集到的数据集进行预处理，其中，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；对疗效评估信息进行编码处理；记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳；

本发明中，对类别信息进行编码处理，对连续值进行归一化处理。基本临床信息中包括类别信息和/或连续值，本领域技术人员可以理解，所述类别信息即是指离散数据，所述连续值即是指非离散数据，比如病人性别、吸烟史、肿瘤家族史、放疗史、病理类型、癌症分期为类别信息，进行编码处理；年龄是连续值，进行归一化处理；将编码处理和归一化处理后的特征拼接；时间序列信息也包括类别信息和/或连续值，对于时间序列信息中的类别信息也进行编码处理，对于其中的连续值进行归一化，将编码处理和归一化处理后的特征拼接；除影像组学时间序列和实验室检验信息时间序列外，还有其他时间序列，如多次采集的血生化指标及对应时间戳为时间序列信息，这几个时间序列都是连续值，因此均进行归一化处理。

在一个实施例中，使用pyradiomics(python3.7.3,pyradiomics2.2.0)提取ct影像中专家分割标注区域的影像组学时间序列特征信息，针对每套ct得到107维的影像组学时间序列特征统计训练集中所有影像组学时间序列特征的均值和方差，对所有数据集中的所有影像组学时间序列特征进行归一化处理：

其中为训练集上所有时间序列特征均值，为训练集上所有时间序列特征标准差。然后对于每套ct是否在对应病人的治疗时间段即临床干预时间段内增加一维特征，如果在治疗过程中，在上新增一维数据1，如果不在治疗过程中，在上新增一维数据0，最终得到108维的处理后的影像组学时间序列特征。将每一个病人的108维的处理后的影像组学时间序列特征按时间从最近到最远排序，得到病人的处理后总影像组学时间序列特征并记录时间序列数据点中两两数据点间的时间间隔和时间序列数据中每个时间点的时间戳其中trad表示该病人影像组学时间序列中时间点的数量。

统计训练集中所有实验室检验信息的均值和方差，对所有实验室检验信息特征进行归一化，归一化方法与上述影像组学特征处理中的归一化方法相同，只是将所有影像组学时间序列特征替换为实验室检验信息时间序列特征进行归一化。然后对于每次实验室检验时间点是否在对应病人的治疗时间段内增加一维特征，如果在治疗过程中，在上新增一维数据1，如果不在治疗过程中，在上新增一维数据0，最终得到处理后的实验室检验信息时间序列特征将每一个病人的处理后的实验室检验信息时间序列特征按时间从最近到最远排序，得到病人的处理后的总实验室检验信息特征并记录时间序列数据点中两两数据点间的时间间隔和时间序列数据中每个时间点的时间戳其中tlab表示该病人实验室检验信息时间序列中时间点的数量。

对疗效评估信息进行one-hot编码，每一个病人得到疗效评估信息时间序列特征疗效评估点的时间戳以及疗效评估点间两两时间间隔

将基本临床信息中类别信息(男/女，是/否有吸烟史，是/否有肿瘤家族史，是/否进行过放疗，病理类型，癌症分期)进行one-hot编码处理；对于连续值信息(年龄)统计在训练集上的均值和方差，进行归一化，归一化方法与上述影像组学特征处理中的归一化方法相同，只是将所有影像组学时间序列特征替换为基本临床信息特征进行归一化，拼接类别信息和连续值信息得到病人的基本临床信息结构化特征

将处理后的影像组学时间序列特征、实验室检验信息时间序列特征在时间维度进行融合，将时间维度降至一维，与预处理后的基本临床信息结构化特征进行拼接，得到总特征，通过对总特征进行建模，进行未来某时间点特征预测，得到预测结果；结合预测结果在该未来时间点疗效评估信息计算损失，在训练集上训练预测模型；

在一个实施例中，利用循环神经网络训练得到预测模型，本领域技术人员可以理解利用循环神经网络训练得到预测模型的具体过程，在此不再赘述。在一个实施例中，针对本发明提出的多源异步时间序列处理模型的处理过程进行了详细说明，所述多源异步时间序列处理模型的原理如图2所示，利用异步时间序列处理模型对处理后的影像组学时间序列特征及时间信息(实验室检验信息时间序列特征及时间信息(基本临床信息结构化特征(进行处理并训练模型，处理和训练过程如下：

使用时序注意力模型simtarad处理影像组学时间序列特征：使用无隐藏层的mlp将输入的影像组学时间序列特征转换成对于转换后的异步时间序列特征x′rad，通过1次以下操作：

其中n＝t，x指任意的n维向量输入，t表示时间序列中时间点的数量；得到变换后的特征其中τ⁽¹⁾，...，τ^(t-1)为δtrad中的元素，即t个时间点中相邻时间点的时间间隔，其中λ和β是可学习的参数，计算时间差：

将时间差δtrad拼接至x″rad得到为trad中最近的时间点时间；

使用时序注意力模型simtalab处理实验室检验信息特征：使用无隐藏层的mlp将输入的实验室检验信息时间序列特征转换成对于转换后的异步时间序列x′lab，通过1次以下操作：

得到变换后的特征其中τ⁽¹⁾，...，τ^(t-1)为δtlab中的元素，计算时间差

将δtlab拼接至x″lab得到其中为tlab中最近的时间点时间；

然后，拼接x″′rad、x″′lab以及xbasic，得到使用无隐藏层的mlp处理xall得到输出结果本实施例中ccls＝2，代表预测治疗有效、无效2类分类。最后使用softmax激活函数，使sum(ocls)＝1。

在预处理过的训练集上，采样每一个疗效评估时间点疗效评估信息为一个训练数据真值点yt＝xeval^(t)，其中t是xeval上的索引，取此时间点往前推δt天的日期tsample＝teval-δt，在此实施例中，δt＝90。取tsample当天及以前所有的影像组学特征信息、实验室检验信息作为输入特征xrad、xlab，如果影像组学特征信息或实验室检验信息在tsample当天及以前无数据点，则取相应信息距离tsample最近的数据点作为输入特征，使用xrad、xlab以及xbasic作为输入进入多源异步时间序列处理模型，得到预测分类结果ocls。使用交叉熵作为分类损失函数计算ocls对于yt的损失lcls，训练多源异步时间序列处理模型。

用前述预处理过的验证集/测试集，输入上述训练集训练后的多源异步时间序列处理模型处理，得到分类结果，并针对该预测的分类结果，在验证集/测试集上进行roc(receiveroperatingcharacteristic，接收者操作特征曲线)分析来分析本系统性能。使用在验证集上最高的auc来确定最佳模型用来在测试集上做分类。在一个实施例中，验证集auc是0.809，测试集roc曲线下面积(auc)达到0.790；另外在测试集中，还根据预测结果，将病人分为两组：预测有效及预测无效，分别绘制病人的中位无进展时间(pfs)以及总体生存时间(os)的kaplan-meier(k-m)曲线，分别计算曲线的p值，确认模型预测能很好区分预测有效/预测无效两组病人的生存状态；在一个实施例中，测试集的pfsk-m曲线p值以及osk-m曲线p值均小于0.001，本领域中，p值小于0.05即可视为模型很好地区分了两组病人的生存状态，表明该训练过的模型可以用于预测，从而得到预测模型。

2.用训练好的预测模型对病人进行免疫治疗疗效预测的方法

步骤1，收集待预测未来时间点pd-1治疗疗效的肺癌患者病人的基本临床信息、不同时间拍摄的ct影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息；

步骤2，将上述收集到的数据集进行预处理，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳；

步骤3：将步骤2中处理后的信息输入本发明预先训练过的预测模型，对待预测病人进行未来时间点治疗疗效预测，得到疗效预测结果ocls。

本发明进一步采用三种现有模型与多源异步时间序列处理模型进行对比，分别为rnn(无时间间隔信息，auc0.70)、仅使用基线影像数据建模(auc0.60)、仅使用基线实验室检验信息建模(auc0.44)；在一个实施例中，多源异步时间序列处理模型测试集auc为0.79，对比方法auc分别为0.70、0.60和0.44，多源异步时间序列处理模型显著优于现有其他模型预测的结果。将该测试集auc为0.79的多源异步时间序列处理模型用于病人pd-1治疗疗效结果的预测。

上述对比结果可以看出：(1)对于单组学/单时间点来说，多组学多时间点更好。(2)同样对于多组学/多时间点建模，多源异步时间序列处理模型效果更好。

3.用训练好的预测模型对病人进行免疫治疗疗效预测的系统

图3为一个示例性的免疫治疗疗效预测系统示意图，该预测系统包括：

数据收集模块：用于收集待预测未来时间点pd-1免疫治疗疗效的肺癌病人的基本临床信息、不同时间拍摄的ct影像以及对应的专家分割标注、实验室检验信息和临床干预状态信息；其中，所述临床干预状态信息为免疫治疗给药数据。

预处理模块：用于将上述收集到的信息进行预处理，对基本临床信息中的类别信息进行编码处理，对连续值进行归一化处理，拼接得到基本临床信息结构化特征；对于ct影像，提取每一次ct影像中专家分割标注的影像组学时间序列特征，进行归一化处理，同时记录该影像组学时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的影像组学时间序列特征；对实验室检验信息的时间序列特征，进行归一化处理，同时记录该时间序列特征中每一个时间点的临床干预状态，得到增加了临床干预状态特征维度的处理后的实验室检验信息时间序列特征；记录影像组学时间序列和实验室检验信息时间序列每个数据点间的时间间隔和每个时间点的时间戳；

预测模块：将预处理模块处理后的信息输入预先训练过的预测模型，对待预测病人进行未来时间点疗效预测，得到疗效预测结果。

对应于图1中的预测模型训练方法，本发明实施例还提供了一种计算机设备，该设备包括处理器、与所述处理器耦合的存储器及存储在该存储器并可在该处理器上运行的指令，所述指令为计算机程序，其中，上述处理器执行上述计算机程序时实现上述预测模型训练方法的步骤。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员在不脱离本发明的精神和范围内，均可做出各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

以上本发明所提供的实施例仅为示例性的，而其仅仅是为了举例说明，而非限制性地，任何以本发明精神为核心的实施方式/变形/组合都是落入本发明的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。