HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

执行预后评价的制作方法

2021-01-08 11:01:55|305|起点商标网
执行预后评价的制作方法

本发明涉及一种用于执行对对象(特别患有前列腺癌的对象)的预后评价的装置和方法。



背景技术:

前列腺癌是男人的最常见癌症。前列腺癌的筛查已经导致晚期疾病和疾病特异性死亡率的降低,但是也已经导致如果留下未处置则将没有引起死亡的情况的过度诊断。

癌症依据“分期”描述,其是指癌症的程度,诸如癌症肿瘤的大小,以及癌症已经扩散的程度。前列腺癌的正确分期可以帮助防止过度诊断,因为当癌症被诊断时分配的分期可以使用在确定施行哪个处置中。为了表征前列腺癌,一组专家被提供有患者的细节和癌症的细节。专家被要求正确地解释癌症状态并且预测可能结果(例如,患者在他的寿命内死于疾病的可能性)。组合来自跨域设置中的不同源的大量的可用数据是困难并且主观的任务并且因此易于出错。例如,一个专家的分析可能与查看相同案例的另一专家的分析不同。这可能例如导致患者应当如何处置的冲突视图。

被称为前列腺成像报告和数据系统(pi-rads)的评分机制已经开发以减少前列腺癌的报告案例中的观察者变化性,并且改进癌症分期性能。pi-rads评分系统提供一种解释多参数磁共振成像(mri)数据的结构化方式。尽管pi-rads提供好的预后值,但是pi-rads评分可能不是完美的,因为观察者(例如,将pi-rads评分分配给特定病变的专家)之间的变化性可能由于实验中的差异而存在。单独基于pi-rads评分,阳性预测值(ppv)(即,被认为基于被发现为真实阳性的mri扫描的分析具有癌症的案例的比例)是相对低的。换句话说,仅使用pi-rads评分系统,许多患者可能错误地被诊断为具有威胁生命的前列腺癌。

因此,需要一种用于提供患有前列腺癌的对象的预后评价的经改进的机制。此外,需要一种避免或至少减少误诊断的发生次数的预后评价机制。



技术实现要素:

使用本发明,当考虑各种因素时,可以做出患有前列腺癌的对象的更准确的预后评价。已经识别当组合时可以被用于计算指示癌症的严重性和/或侵袭性的评分的各种因子或特征。所确定的评分可以被用于辅助关于哪个(如果有的话)处置应当关于所述癌症施行的决策。

根据第一方面,本发明提供一种用于执行对患有前列腺癌的对象的预后评价的装置,所述装置包括:存储器,其包括表示指令集的指令数据;以及处理器,其被配置为与所述存储器通信并且运行所述指令集,其中,所述指令集在由所述处理器运行时使所述处理器获得与所述对象相关联的对象简档;获得与所述对象相关联的临床数据;获得关于所述对象的前列腺采集的成像数据;获得与关于所述对象的前列腺采集的活检有关的病理信息;基于至少所述对象简档、所述临床数据、所述成像数据和所述病理信息来确定与所述癌症有关的预后评分。

通过以这种方式运行,所述处理器能够用作预后评价单元,其能够基于特定输入特征集来输出与所述癌症有关的准确评分。由这样的装置提供的输出可以由医学专家用于确定动作的适当的过程。所述装置向所述医学专家提供对所述癌症的有价值的洞察力,其可能例如当外科手术未证明合理时导致采取监督(即,非外科手术)动作而不是昂贵的外科手术动作。

在一些实施例中,所确定的预后评分可以包括与所述癌症临床显著的可能性有关的评分。在其他实施例中,所确定的预后评分可以包括与所述癌症为非定域的可能性的评分。在一些实施例中,所述预后评分可以包括与所述癌症临床显著的可能性的评分和与所述癌症为非定域的可能性有关的评分两者、或这两个评分的组合。

癌症可以被认为是如果跟随根治性前列腺域与任何剩余癌症有关的病理分期将大于pt2,则是非定域的。

在一些实施例中,所述对象简档可以包括以下各项中的一项或多项:所述对象的年龄;癌症的家族史;针对所述对象的人口统计数据;所述对象的种族背景;所述对象的合并症;以及所述对象的处置史。

在一些实施例中,所述临床数据可以包括以下各项中的一项或多项:前列腺特异性抗原(psa)密度数据;临床肿瘤分期信息;与直肠指检的结果有关的数据;以及与经直肠超声的结果有关的数据。

在一些实施例中,所述成像数据可以包括以下各项中的一项或多项:与所述前列腺癌有关的前列腺成像报告和数据系统(pi-rads)评分;关于与所述前列腺癌相关联的病变的空间信息;以及关于与前列腺癌相关联的病变的表观扩散系数(adc)。所述pi-rads评分和所述空间信息可以从多参数磁共振成像信息导出。

在一些实施例中,所述成像数据可以包括:关于与所述前列腺癌相关联的一个或多个病变中的每个的pi-rads评分,使用t2加权图像数据、扩散加权图像数据和动态对比增强图像数据中的一项或多项确定每个pi-rads评分。所述空间信息可以包括在以下各项中总计一个或多个病变的大小的指示:在所述对象的前列腺的前区域中、在所述对象的前列腺的后区域中;在所述前列腺的周围区中、在所述前列腺的中央区中、在所述前列腺的转变区中和/或在所述前列腺的前纤维肌性基质中。

在一些实施例中,所述指令集当由所述处理器运行时,可以使所述处理器通过使用预测模型来确定所述预后评分。例如,在一些实施例中,所述指令集当由所述处理器运行时,可以使所述处理器通过使用经训练的随机森林分类器或回归分析模型来确定所述预后评分。

所述指令集当由所述处理器运行时,可以使所述处理器通过使用经训练的随机森林分类器来确定所述预后评分。所述随机森林分类器可以被布置为基于多个特征的子集来分类输入数据。特征的子集可以包括在所述分类中具有最大影响的多个特征中的那些特征。

根据第二方面,本发明提供一种执行对潜在患有前列腺癌的对象的预后评价的计算机实施的方法,所述方法包括:获得与所述对象相关联的对象简档;获得与所述对象相关联的临床数据;获得关于所述前列腺采集的成像数据;获得与关于所述对象的前列腺采集的活检有关的病理信息;并且基于至少所述对象简档、所述临床数据、所述成像数据和所述病理信息来确定与所述癌症有关的预后评分。

在一些实施例中,确定预后评分可以包括:向预测模型提供所述对象简档、所述临床数据、所述成像数据和所述病理信息作为输入;并且获得以下各项中的至少一项作为输出:指示所述癌症临床显著的可能性的评分;以及指示所述癌症为非定域的可能性的评分。

根据第三方面,本发明提供一种计算机实施的方法,其训练分类器以基于与所述对象相关联的对象简档、与所述对象相关联的临床数据、关于所述前列腺采集的成像数据以及与关于所述对象的前列腺采集的活检有关的病理信息来确定与对象中的前列腺癌有关的预后评分,所述方法包括:使用训练数据集训练所述分类器;识别影响所述分类器的输出的多个特征;根据其对所述分类器的输出的影响对所述多个特征进行排序;忽略所述多个特征中的最低排序特征以获得较高影响特征的子集;并且根据特征的子集来重新训练所述分类器。

在一些实施例中,所述方法还可以包括:下采样用于训练所述分类器的训练数据的多数类,使得所述多数类与所述训练数据的少数类在统计上平衡。训练所述分类器可以包括自举采样所述训练数据中的少数类中的数据。

根据第四方面,本发明提供一种包括非瞬态计算机可读介质的计算机程序产品,所述计算机可读介质具有实现在其中的计算机可读代码,所述计算机可读代码被配置使得在由适合的计算机或处理器运行时,使所述计算机或处理器执行本文所公开的方法。

本发明的这些和其他方面将参考在下文中所描述的实施例而显而易见并且得到阐述。

附图说明

为了更好理解本发明并且更清楚地示出其可以如何实现,现在将仅通过范例对附图进行参考,其中:

图1是执行患有前列腺癌的对象的预后评价的机制的范例的示意性图示;

图2是根据各种实施例的用于执行患有前列腺癌的对象的预后评价的装置的范例的简化示意图;

图3是根据各种实施例的执行患有前列腺癌的对象的预后评价的方法的范例的流程图;

图4是根据各种实施例的训练分类器以确定预后评分的方法的范例的流程图;

图5是根据各种实施例的训练分类器以确定预后评分的方法的另外的范例的流程图;

图6是机器可读介质和处理器的范例的简化示意图;

图7示意性地图示了根据一个布置的与平衡训练数据的创建相关联的主要步骤;

图8图示了根据一个实施方式的经训练的分类器的内部特征排序;

图9图示了根据一个实施方式的被训练为评价非定域病理风险的分类器的内部特征排序;并且

图10图示了根据一个实施方式的被训练为评价显著癌症风险的分类器的内部特征排序。

具体实施方式

本文所公开的实施例涉及用于执行患有前列腺癌的对象的预后评价的装置和方法。预后评价涉及确定与癌症有关的预后评分,其可以例如由医学专家用于决定癌症是否应当处置,并且如果是的话,则要施行的处置的性质。根据本文所公开的一些实施例,预后评分可以使用利用机器学习技术训练的模型或算法确定。因此,本发明的一个方面涉及提供被训练为基于各种输入特征来输出预后评分的分类器的算法(例如预测模型,诸如分类器)的训练。

图1示意性地示出了根据本发明的各种实施例的信息的流动。图1示出了可以例如使用计算机软件或适合的处理装置实施的预后评价单元100。例如,预后评价单元100可以使用计算设备实施,诸如台式计算机、膝上型计算机、平板计算机、智能电话或例如云计算环境中的分布式计算系统。

预后评价单元100可以被配置为接收与患有前列腺癌的对象有关的数据,并且预后评价基于该数据。在图1所示的范例中,预后评价单元100被提供有:患者特性102,其可以例如采取对象简档或患者简档的形式;与对象相关联的临床数据104、与对象的前列腺有关的成像数据106以及与关于对象的前列腺采集的活检有关的病理信息108。

与患有前列腺癌的对象相关联的对象简档102可以包括例如从与对象相关联的电子健康记录采集的数据。在一些实施例中,对象简档102可以例如由医学专家手动生成。对象简档102可以包括患者或对象的特性,诸如对象的年龄。患有前列腺癌的对象的年龄能够影响前列腺癌是侵袭性的和/或扩散到对象的身体的其他部分的可能性。在一些范例中,对象简档102可以包括指示对象家族的癌症的历史的信息。具有先前已经患有前列腺癌的家庭成员的对象可能具有患有例如侵袭性前列腺癌形式的问题的更大的可能性。在一些实施例中,对象简档102可以包括以下各项中的一项或多项:针对对象的人口统计数据;对象的种族背景;与对象的合并症有关的信息;以及对象的处置历史。

与对象相关联的临床数据104可以包括对象的前列腺中、上或与其相关联的癌症病变或肿瘤。在一些范例中,临床数据104包括指示对象中的前列腺特异性抗原(psa)的水平或psa密度的量度的数据。psa密度可以被认为是血液中测量的psa的水平(以ng/ml为单位)相对于前列腺体积(以ml为单位)的比率。尽管psa少量存在于具有健康前列腺的男人中,但是psa水平当对象的前列腺患有疾病(诸如前列腺癌)时增加。因此,对象的psa的相对高水平可以指示对象患有前列腺癌,并且检测到的psa的水平可以指示癌症的严重性。临床数据104可以包括如由医学专家确定的癌症的分期的指示,例如当癌症被初始诊断时。例如,临床数据104可以包括临床肿瘤分期的指示,其有时被称为临床肿瘤类、或ct类。临床肿瘤分期基于在外科手术在癌症肿瘤上执行之前可用于医学专家的所有信息来确定。临床肿瘤分期是癌症已经形成的程度的指示,例如通过生长和扩散。临床肿瘤分期的评估在癌症的任何初级处置之前执行。ct(或ctnm)分期记法根据恶性肿瘤系统的tnm分类,如由美国癌症联合会(ajcc)使用的。在一些实施例中,临床数据可以包括以下各项中的一项或多项:与直肠指检(dre)的结果有关的数据;以及与经直肠超声(trus)的结果有关的数据。病理肿瘤分期pt(或tnm)等价于具有评估在癌症的初级处置之后完成的差异的临床肿瘤分期。pt(或ptnm)分期记法根据恶性肿瘤系统的tnm分类,如由美国癌症联合会(ajcc)使用的。肿瘤也可以使用格里森评分分级。格里森评分基于癌症当由病理学家在显微镜下查看时看起来多么像健康组织,其中,较少侵袭性肿瘤通常看起来更像健康组织并且更侵袭性的肿瘤可能生长并且扩散到身体的其他部分。

与对象的前列腺有关的成像数据106可以包括使用已知成像模态采集的成像数据。在一些范例中,成像数据106包括使用多参数mri模态采集的数据。如上所述,多参数mri数据可以被用于使用前列腺成像报告和数据系统(pi-rads)评分格式将评分指定给mri图像中识别的每个病变。pi-rads评分基于来自mr图像的病变为恶性的可能性而给出。每个所识别的病变可以被给定1与5之间的pi-rads评分,其中,1指示病变最可能是良性的,并且5指示恶性肿瘤的高度怀疑。

多参数mri技术可以通过使用不同成像技术提供各种类型的数据。t2加权(t2-w)图像突出显示被成像的组织的t2(即,横向)弛豫时间中的差异。扩散加权成像(dwi)允许被成像的组织内的细胞内空间中的水分子的移动(扩散)的可视化和分析。动态对比增强(dce)成像允许被成像的组织内的血管化(即,血管的增加)的可视化。成像数据(例如图像)可以使用这些成像技术(即,t2-w、dwi和dce)中的每个采集,并且pi-rads评分可以针对每幅图像中可见的病变给出。在一些实施例中,pi-rads评分可以针对每幅图像中可见的主要(例如最突出的)病变给出。针对t2-w图像和dwi图像,每个病变(或最突出的病变)被分配1至5的标度上的pi-rads评分,如上所述。针对pi-rads版本1(v1)中的dce图像,病变被分配1至5的标度上的评分。针对pi-rads版本2(v2)中的dce图像,病变以是(即,阳性)或否(即,阴性)评分。pi-radsv2系统中的“否”被转译为v1系统中的2,并且pi-radsv2系统中的“是”被转译为v1系统中的4。以这种方式,可以使用来自pi-radsv1或v2的评分。来自dce图像的评分可以被用于提供或修改基于t2-w或dwi图像提供的pi-rads评分。

基于t2-w、dwi和dce图像而分配给病变的pi-rads评分通常被组合以给定单个总体pi-rads评分。然而,根据本文所公开的实施例,个体pi-rads评分可以被使用以便执行预后评价。

在一些范例中,使用t2-w、dwi和dce技术获得的个体pi-rads评分可以与关于每个病变的空间(例如大小、体积和/或位置)信息组合。例如,给到图像中识别的病变的pi-rads评分可以与描述肿瘤的估计体积的信息和/或与描述肿瘤中的病变的位置的信息组合(例如被定位于肿瘤的前部分中和/或肿瘤的后部分中)。因此,“空间”信息可以被认为是包括形态学信息,诸如体积、尺寸和结构。在一个范例中,体积可以由描绘mr图像中的病变的放射科医师确定,使得可以计算病变的体积。pi-rads评分可以在逐区域基础上分配给图像中识别的病变。例如,前列腺的mr图像可以分成多个区域或区并且pi-rads评分可以针对每个区给定。在一些范例中,前列腺的区域可以被识别为前纤维肌性基质、转变或转变区(tz)、中央区(cz)和周围区(pz)。pi-rads评分可以与在其中pi-rads评分被分配以便执行预后评价的区组合。pi-rads评分可以与在其中pi-rads评分被分配以便执行预后评价的区域(例如,前或后区域)的细节组合。在一些实施例中,成像数据106可以包括与与前列腺癌相关联的病变有关的表观扩散系数(adc)值。

病理信息108可以包括从在对象的前列腺中的肿瘤上执行的活检获得或采集的数据。前列腺中的肿瘤的活检由一个或多个医学专家评估或分析,并且根据格里森分级系统被给定评分。格里森评分基于其显微镜外观给定到前列腺中的癌症肿瘤,并且指示癌症的侵袭性。格里森评分(还被称为格里森和)在从2到10的范围内,并且通过将初级和次级格里森等级相加在一起来计算,初级和次级格里森等级均在从1到5的范围内。评分的第一半(被称为初级格里森等级)基于肿瘤中的主导细胞去分化模式(即,超过总模式的50%的细胞去分化模式),并且评分的第二半(被称为次级格里森等级)基于肿瘤中的下一最频繁的细胞去分化模式(即,非主导细胞去分化模式)。初级格里森等级和次级格里森等级可以使用以便执行预后评价。

数据102、104、106、108可以例如存储在存储单元中,诸如可由预后评价单元100访问的存储器。在一些范例中,这样的存储器可以包括包含针对患有前列腺癌的多个对象的数据的数据库。预后评价单元100可以从存储器或数据库检索针对特定对象的数据,并且处理数据以便执行预后评价。

预后评价单元100被配置为评价数据102、104、106、108并且确定与数据涉及的特定对象的癌症有关的预后评分。如图1所示,在一些实施例中,预后评价单元100可以生成两个评分作为其输出。第一评分110可以包括指示癌症将在根治性前列腺切除术(即,全部前列腺的移除)已经执行之后临床显著的可能性的评分。在一些实施例中,癌症将被认为如果在根治性前列腺切除术之后任何剩余的癌症(即,肿瘤)会根据格里森评级系统评分大于或等于7,则是临床显著的。第二评分112可以包括指示癌症在根治性前列腺切除术已经执行之后为非定域的可能性的评分。在一些实施例中,癌症将被认为是如果在根治性前列腺切除术之后任何剩余的癌症将被分配大于pt2的病理分期,则是非定域的。

在一些实施例中,预后评价单元100可以包括预测模型(例如,分类器、回归模型等),其被布置为处理输入数据102、104、106、108以便生成与癌症有关的预后评分。在一些实施例中,这样的分类器可以通过使用训练数据训练机器学习模型或算法获得。例如,分类器可以基于随机森林模型或回归模型,诸如线性回归模型或逻辑回归模型。下面更详细地讨论了随机森林模型被训练为用作分类器的实施例。

预后评分(其可以包括第一评分110和/或第二评分112)可以基于所提供的数据依据前列腺癌向医学专家提供到对象的预后中的准确的洞察力。预后评分可以由医学专家用于确定针对对象的动作的适当的过程。例如,如果根据预后评分确定对象具有原发性定域前列腺癌,那么医学专家可以推荐对象经历积极监督(即,定期监测)而不是积极处置,其可以包括例如外科手术或放射治疗。在不使用预后评价单元100的情况下确定动作的过程能够导致积极处置被推荐用于积极监督将适合的对象。因此,预后评价单元100能够导致更少的对象不必要地使用积极处置来处置。这继而可以减少所要求的资源量(医学专家和医学设施中的医学装备两者),并且能够导致针对处置对象的医学设施的成本节省。

根据方面,本文所公开的实施例涉及一种用于执行潜在患有前列腺癌的对象的预后评价的装置。在一些实施例中,对象可能患有前列腺癌。图2是这样的装置200的简化示意图。在一些范例中,装置200可以被实现为计算设备。装置200包括存储器202和处理器204。存储器202包括表示指令集的指令数据。处理器被配置为与存储器202通信并且运行指令集。指令集在由处理器204运行时使处理器执行本文所公开的方法。

在一些实施例中,指令集在由处理器204运行时使处理器获得与对象相关联的对象简档。对象简档可以例如包括上文所讨论的对象简档102。如上所述,对象简档可以包括对象的特性,诸如对象的年龄和对象家族的成员的癌症的任何发生的细节(即,癌症的家族史)。

在一些实施例中,指令集在由处理器204运行时,使处理器获得与对象相关联的临床数据。临床数据可以例如包括上文所讨论的临床数据104。如上所述,在一些实施例中,临床数据可以包括以下各项中的一项或多项:前列腺特异性抗原(psa)密度数据(即,指示在前列腺中检测到的psa密度的数据);以及临床肿瘤分期信息(即,临床肿瘤分期或ct类的指示)。

在一些实施例中,指令集在由处理器204运行时,使处理器获得关于对象的前列腺获得的成像数据。成像数据可以例如包括上文所讨论的成像数据106。如上所述,在一些实施例中,成像数据可以包括以下各项中的一项或多项:与前列腺癌有关的前列腺成像报告和数据系统(pi-rads)评分;以及关于与前列腺癌相关联的病变的空间信息。pi-rads评分和空间信息(其可以包括位置信息和形态信息,诸如体积和结构/形状)可以从多参数磁共振成像(mri)信息导出。因此,成像数据可以包括给定到成像数据中可见的病变的pi-rads评分。在一些实施例中,成像数据可以包括关于与前列腺癌相关联的一个或多个病变中的每个的pirads评分,使用t2加权(t2-w)图像数据、扩散加权图像(dwi)数据和动态对比增强(dce)图像数据中的一个或多个确定的每个pi-rads评分。空间信息可以包括与pi-rads评分已经给定的成像数据中可见的病变有关的位置信息(例如,前部或后部)。在一些实施例中,空间信息可以包括在以下各项中的一个或多个病变的大小的指示:前列腺的周围区、前列腺的中央区、前列腺的转变区和/或前列腺的前纤维肌性基质。空间信息(例如,形态信息)还可以包括指示前列腺中的肿瘤的大小的数据。

在一些实施例中,指令集在由处理器204运行时,使处理器获得与关于对象的前列腺采集的活检有关的病理信息。病理信息可以例如包括上文所讨论的病理信息108。如上所述,病理信息可以包括根据对象的前列腺的活检确定的数据。例如,病理信息可以包括基于活检的检查给定的初级格里森评分和次级格里森评分中的至少一项。

处理器204可以通过从一个或多个数据库检索数据或由用户例如经由与装置200相关联的用户接口手动输入数据获得各种数据项(即,对象简档、临床数据、成像数据和/或病理信息)。

在一些实施例中,指令集在由处理器204运行时使处理器基于至少对象简档、临床数据、成像数据和病理信息来确定与癌症有关的预后评分。如上文简要说明并且下文更详细讨论的,预后评分可以使用预测模型、分类器或算法确定。例如,模型可以使用机器学习技术训练,并且被用于基于输入数据来确定预后评分。在一些实施例中,预后评分可以使用经训练的随机森林分类、线性回归分析模型或逻辑回归分析模型确定。在其他范例中,另一类型的分析可以被执行以便确定预后评分。

在一些实施例中,所确定的预后评分可以包括与癌症临床显著的可能性有关的评分。如上所述,癌症可以被认为如果跟随根治性前列腺切除术任何剩余的癌症将给定至少7的格里森和评分,则是临床显著的。在一些实施例中,所确定的预后评分可以包括与癌症为非定域的可能性有关的评分。如果其已经扩散超过前列腺到对象的身体的另一部分(例如通过转移),则癌症可以是非定域的。癌症可以被认为如果跟随根治性前列腺切除术与任何剩余癌症有关的病理分期将大于pt2,则是非定域的。在一些实施例中,由处理器204确定的预后评分可以包括多个评分(例如,与癌症临床显著的可能性有关的评分和与癌症为非定域的可能性有关的评分)。在一些实施例中,由处理器204确定的预后评分可以包括考虑癌症临床显著的可能性和癌症为非定域的可能性的组合评分。在一些范例中,预后评分可以是例如0至10、或至100的标度上的数值评分(或多个数值评分),或例如0至1、或0至100的标度上的十进制评分。

根据另一方面,实施例涉及执行患有前列腺癌的对象的预后评价的方法。图3是这样的方法300的范例的流程图。方法300包括,在步骤302处,获得与对象相关联的对象简档。在步骤304处,方法300包括获得与对象相关联的临床数据。方法300包括,在步骤306处,获得关于前列腺采集的成像数据。在步骤308处,方法300包括获得与关于对象的前列腺采集的活检有关的病理信息。方法300包括,在步骤310处,基于至少对象简档、临床数据、成像数据和病理信息来确定与癌症有关的预后评分。在一些范例中,方法300可以由上文所讨论的装置200执行。

在一些实施例中,确定预后评分的步骤310可以包括向预测模型(诸如经训练的分类器)提供对象简档、临床数据、成像数据和病理信息作为输入。确定310还可以包括获得以下各项中的至少一项作为输出:指示癌症临床显著的可能性的评分;以及指示癌症为非定域的可能性的评分。

在一些实施例中,方法300还可以包括递送预后评分以呈现或显示给用户(例如,医学专家)的步骤。评分可以例如呈现在与装置200相关联的显示器上。

如先前所述,确定预后评分可以使用预测模型执行,其在一些实施例中可以是经训练的分类器,诸如随机森林分类器、线性回归分析模型或逻辑回归分析模型。根据一些实施例,预测模型可以使用训练机制训练,所述训练机制改进(并且可能地优化)模型,使得预后评分的确定是准确并且有意义的。

在一些实施例中,预测模型可以包括随机森林分类器。随机森林分类器(还被称为随机决策森林)将为机器学习领域技术人员所熟悉。简要地,随机森林分类器是组合通过随机采样稍微彼此不同的众多经训练的决策树的系综算法。随机森林分类器能够基于多个输入特征(例如,输入数据102、104、106、108)准确地预测结果(例如,提供预后评分)。输出是在分类期间确定的类的模式。在随机森林分类器的训练期间,分类器提供特征重要性的内部排序。换句话说,当训练随机森林分类器时,识别对输出具有最大效应的那些特征和对输出具有最小效应的那些特征是可能的。如果其由分类器考虑,则对输出具有很少效应的特征可能仍然对总体区别性能具有负面效应。因此,根据一些实施例,移除最低排序特征(即,对分类器的输出具有最小效应的那些特征),使得分类器不再考虑那些特征。最低排序特征的移除可以被称为“最坏先出(worst-first-out)”。

在一些实施例中,预测模型可以使用训练数据集训练,其包括对象简档信息、临床数据、成像数据和已经由一个或多个医学专家(例如,放射科医师)验证的病理信息。例如,在一些实施例中,预测模型可以使用以下特征中的一些或全部来训练:

1.t2-w图像中的最主导病变的pi-rads评分;

2.dwi图像中的最主导病变的pi-rads评分;

3.dce图像中的最主导病变的pi-rads评分;

4.前列腺中的肿瘤的大小的指示(例如,pi-rads评分已经被确定的所有病变的大小的指示);

5.在前列腺的前区域中由放射科医师识别的所有病变的大小的指示;

6.在前列腺的后区域中由放射科医师识别的所有病变的大小的指示;

7.在前列腺的前纤维肌性基质中由放射科医师识别的所有病变的大小的指示;

8.在前列腺的转变区(tz)中由放射科医师识别的所有病变的大小的指示;

9.在前列腺的中央区(cz)中由放射科医师识别的所有病变的大小的指示;

10.在前列腺的周围区(pz)中由放射科医师识别的所有病变的大小的指示;

11.临床肿瘤分期(ct);

12.初级格里森活检评分;

13.次级格里森活检评分;

14.psa密度(由psa水平和前列腺体积的比率计算的);以及

15.在诊断时对象的年龄。

因此,针对训练数据中包括的每个案例,一个或多个放射科医师确定以上特征中的一些或全部(1至15),并且这些被提供给预测模型以使得模型能够基于这些特征进行学习。

如将为本领域技术人员所熟悉的,pi-rads评分可以基于pi-rads评分系统的各种版本给定。根据本文所公开的实施例,可以使用pi-rads版本1(v1)评分系统或pi-rads版本2(v2)评分系统。使用pi-radsv1系统给定的评分可以转换为pi-radsv2系统中的等效评分,如上文描述的。

当使用大训练数据集训练预测模型时,存在多数类为主导的机会(即,最常见地由模型输出的类,其在前列腺癌患者的背景下可能是表示良性和/或非侵袭性癌症的类)。使用具有大多数类(和相对小少数类)的训练数据集将使得模型朝向多数类偏置,从而导致过度乐观的区别性能。因此,为了减少该效应,在一些实施例中,可以采取动作以使数据集在统计上平衡。在一些实施例中,训练数据集的多数类和少数类可以使用装袋的适配形式平衡。因此,统计平衡数据集通过下采样(或欠采样)训练数据集中的多数类来创建。此后,自举技术(还被称为自举采样)应用于训练众多平衡数据集上的众多随机森林,使得多数类中的所有案例被包括用于训练。众多随机森林被组合在单个随机森林分类器中。因此,多数类随机下采样以使其在大小方面等于少数类。该平衡数据集被用于训练第一随机森林。然后执行第二迭代,由此多数类随机下采样,从而创建新平衡数据集,其被用于训练第二随机森林。该下采样/训练过程重复n次直到至少多数类中的所有案例已经迭代(即,自举)。

图7示意性地图示了根据一个布置的与平衡训练数据的创建相关联的主要步骤。在所图示的布置中,固有不平衡数据(诸如上文所描述的数据)可以适当地操纵以减轻与使用不平衡数据训练分类器相关联的问题。特别地,多数类被下采样,使得创建包含数据的平衡子集的自举数据集,在其上训练随机森林分类器。该流程被重复n次,导致n个经训练的分类器,其输出然后可以组合在另一分类器中以产生单个决策。

如上文简要指出的,随机森林分类器在训练期间自动执行特征排序。本文所公开的实施例利用该特征排序,使得对分类器的区别性能具有积极影响的那些特征的效应可以增加,并且对分类器的区别性能具有消极影响的那些特征的效应可以减小。下面更详细地描述了这样的方法的一个可能的实施方式。

根据一些实施例,特征的影响可以通过分析在针对每个特征的接收器操作曲线(roc)下面积来评估。在第一轮训练之后,具有曲线下最小面积的特征可以被认为是对分类器的输出具有最小效应,并且因此,特征可以移除并且不由未来各轮训练中的分类器考虑。最低排序的特征可以在迭代过程中逐个移除直到额外特征的移除不对分类器的区别性能具有积极效应(即,直到最低排序的特征的移除不导致分类器的性能的改进)。特征的剩余子集可以被认为构成要由分类器使用的最佳特征子集。当分类器要被使用时,其可以基于最佳特征子集处理输入数据以便提供最佳输出。因此,移除最低排序的(即,表现最差的)特征的效应在于分类器的准确度被改进。

再参考图2,装置200的存储器202可以包括指令集,其当由处理器204运行时,使处理器通过使用经训练的随机森林分类器来确定预后评分;随机森林分类器可以被布置为基于多个特征的子集来分类输入数据。特征的子集可以包括具有分类中的最大影响的多个特征的那些特征。换句话说,特征的子集可以包括尚未从上文所描述的过程中的多个特征移除的那些特征。

现在参考图4,本文所公开的方面涉及训练分类器的计算机实施的方法。图4是这样的方法400的范例的流程图。方法400是训练分类器以基于与对象相关联的对象简档、与对象相关联的临床数据、关于前列腺采集的成像数据以及与关于对象的前列腺采集的活检有关的病理信息来确定与对象中的前列腺癌有关的预后评分的方法。方法400包括,在步骤402处,使用训练数据集训练分类器。在步骤404,方法400包括识别影响分类器的输出的多个特征。方法400包括,在步骤406处,根据其对分类器的输出的影响对多个特征进行排序。在步骤408处,方法400包括忽略多个特征中的最低排序特征以获得较高影响特征的子集。步骤408可以包括最低排序特征(即,最差表现特征)的移除,如上文所描述的。方法400包括,在步骤410处,基于特征的子集重新训练分类器。此处,术语“重新训练”是指基于特征的减小的子集执行另一轮训练。因此,方法400可以被认为是循环重复步骤402、404、406和408直到停止准则被满足,例如直到获得最高接收器操作曲线(roc)下面积。

图8图示了根据一个实施方式的经训练的分类器的内部特征排序。图8涉及根据一个实施方式的分类器的一般性能。图8示出了特征重要性排序的绘图作为用于预测病理晚期疾病的分类器的训练的结果。具有高重要性的特征示出当其从分类过程提取时的分类器平均准确度的大的减小。具有低重要性的特征示出当其从分类过程提取时的分类器平均准确度的小的减小。具有低重要性的特征可以被认为是从进一步的分析移除。图8示出了被识别为对于与前列腺癌有关的分类器输出(例如,pi-rads主导病变t2)的生成相对重要的特征和较不重要的特征(例如,ct类)的一个范例。在所示的范例中,已经发现如果包括在一些模型中,则特征ct类可以混淆分类器的操作。实施方式认识到这样的“相对重要性”特征识别可以对理解分类器的操作有帮助,并且分类器的更适当的操作可以使用如上文所描述的“最坏先出”特征选择来辅助。分类器的区别性能可以在每个特征减法后迭代地确定,直到roc曲线下面积降低,其指示特征的最佳子集被发现。当然,由于随机采样被用于评估分类器的性能,因此分类器的区别性能可以通过在每个折叠处重复性能检验多次以获得平均来评估。在所图示的范例中,可以看到位置信息,例如,病变位置(前/后)可以是关于前列腺癌和处置选项的评估和评价的显著区别特征。此外,其可以向临床医师提供与结果的相关性的各种因子的定量分析,其可以被用于更适当地做出关于适当的处置路径和/或总体预后的一个或多个决策。换句话说,给定可以可用的各种信息源,与每个特征相关联的准确度评价可以提供到因子中的定量洞察力以考虑何时执行对象的预后评价。此外,分类器操作的这样的定量评价可以提供改进总体分类器操作的模块。将意识到,特征相对于结果的评价的相互作用可能不是线性或可预测的。特征之间的相互作用可以用于限制分类器关于结果的评价的总体准确度。分类器的性能的迭代评估(每次迭代在被确定为对分类器的操作的最低影响的特征的减去之后被执行)可以被用于改进分类器的总体准确度。

图9图示了根据一个实施方式的被训练为评价非定域病理风险的分类器的内部特征排序。关于示出的实施方式,可以看到pi-rads-放射学-病变-t2被确定为最重要的特征,作为关于非定域病理风险的评价的最差先出特征选择策略的结果。图10图示了根据一个实施方式的被训练为评价显著癌症风险的分类器的内部特征排序。关于示出的实施方式,可以看到诊断年龄(age-at-diagnosis)是最重要的特征,作为关于显著癌症风险的评价的最差先出特征选择策略的结果。

图5是训练分类器的方法500的另一范例的流程图。方法500(其可以是计算机实施的)可以包括方法400的步骤,诸如步骤402至410。方法500还可以包括,在步骤502处,下采样用于训练分类器的训练数据的多数类,使得多数类与训练数据的少数类统计平衡。训练分类器可以包括自举采样训练数据中的少数类中的数据。步骤502可以例如在方法400的步骤402之前执行。

根据另一方面,公开了一种计算机程序产品。图6是与处理器604通信的机器可读介质602的范例的简化示意图。计算机程序产品包括具有实现在其中的计算机可读代码的非瞬态计算机可读介质(例如机器可读介质602)。计算机可读代码被配置为使得在由适合的计算机或处理器(例如,处理器604)上运行时,使计算机或处理器执行如本文所公开的方法(300、400、500)中的任一个的步骤。在一些范例中,处理器604可以包括或者类似于上文所讨论的处理器204。

处理器204、604可以包括一个或多个处理器、处理单元、多核处理器或者模块,其被配置或者被编程为以本文所描述的方式控制装置200。在特定实施方式中,处理器204、604可以包括多个软件和/或硬件模块,其均被配置为执行或者用于执行本文所描述的方法的个体或者多个步骤。

如本文所使用的,术语“模块”旨在包括诸如被配置为执行特定功能的处理器或处理器的部件的硬件部件,或诸如在由处理器执行时具有特定功能的一组指令数据的软件部件。

将意识到,本发明的实施例还适用于适于使本发明付诸实践的计算机程序,特别是在载体上或载体中的计算机程序。该程序可以采取源代码、目标代码、代码中间源和目标代码的形式,诸如部分编译的形式,或者适于使用在根据本发明的实施例的方法的实施方式中的任何其他形式。还将意识到,此类程序可以具有许多不同的架构设计。例如,实施根据本发明的方法或系统的功能的程序代码可以被细分为一个或多个子例程。在这些子例程中间分配功能的许多不同方式对于技术人员而言将是显而易见的。子例程可以一起存储在一个可执行文件中,以形成一个独立的程序。这样的可执行文件可以包括计算机可执行指令,例如,处理器指令和/或解释器指令(例如,java解释器指令)。备选地,一个或多个或所有子例程可以被存储在至少一个外部库文件中,并且静态地或动态地(例如,在运行时)与主程序链接。主程序包含对子例程中至少一个的至少一个调用。子例程还可以包括彼此的函数调用。与计算机程序产品有关的实施例包括与本文阐述的方法中的至少一个方法的每个处理阶段相对应的计算机可执行指令。这些指令可以细分为子例程和/或存储在可以静态或动态链接的一个或多个文件中。与计算机程序产品有关的另一实施例包括与本文阐述的系统和/或产品中至少一个的每个模块相对应的计算机可执行指令。这些指令可以细分为子例程和/或存储在可以静态或动态链接的一个或多个文件中。

计算机程序的载体可以是能够承载程序的任何实体或设备。例如,载体可以包括数据存储设备,诸如rom,例如,cdrom或半导体rom、或者磁记录介质,例如,硬盘。此外,载体可以是可传输的载体,诸如电或光信号,其可以经由电缆或光缆或通过无线电或其他模块来传达。当程序以此类信号实现时,载体可以由此类线缆或其他设备或模块构成。备选地,载体可以是其中嵌入程序的集成电路,该集成电路适于执行相关方法或在相关方法的执行中使用。

通过研究附图、公开内容和所附权利要求,本领域技术人员在实践所要求保护的发明时可以理解和实现所公开的实施例的变型。在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以履行权利要求中所记载的若干项目的功能。尽管在互不相同的从属权利要求中记载了特定措施,但是这并不指示不能有利地使用这些措施的组合。计算机程序可以存储在/分布在合适的介质上,例如与其他硬件一起提供或作为其他硬件的部分提供的光学存储介质或固态介质,但是计算机程序也可以以其他形式分布,例如经由因特网或其他有线或无线电信系统分布。权利要求中的任何附图标记不应被解释为对范围的限制。在以下编号段落中阐述一些布置的特征:

1、一种用于执行对潜在患有前列腺癌的对象的预后评价的装置(200),所述装置包括:

存储器(202),其包括表示指令集的指令数据;以及

处理器(204),其被配置为与所述存储器进行通信并且运行所述指令集,其中,所述指令集当由所述处理器运行时使所述处理器:

获得与所述对象相关联的对象简档;

获得与所述对象相关联的临床数据;

获得关于所述对象的前列腺采集的成像数据;

获得与关于所述对象的前列腺采集的活检有关的病理信息;并且

基于至少所述对象简档、所述临床数据、所述成像数据和所述病理信息来确定与所述癌症有关的预后评分。

2、根据段落1所述的装置(200),其中,所确定的预后评分包括与所述癌症在临床上显著的可能性有关的评分。

3、根据前述段落中的任一个所述的装置(200),其中,所确定的预后评分包括与所述癌症为非定域的可能性有关的评分。

4、根据段落3所述的装置(200),其中,其中,所述癌症被认为在根治性前列腺切除术之后与任何剩余癌症有关的病理分期将大于pt2的情况下是非定域的。

5、根据前述段落中的任一个所述的装置(200),其中,所述对象简档包括以下各项中的一项或多项:所述对象的年龄;癌症的家族史;针对所述对象的人口统计数据;所述对象的种族背景;与所述对象的合并症有关的信息;以及所述对象的处置史。

6、根据前述段落中的任一个所述的装置(200),其中,所述临床数据包括以下各项中的一项或多项:前列腺特异性抗原密度数据;临床肿瘤分期信息;与直肠指检的结果有关的数据;以及与经直肠超声的结果有关的数据。

7、根据前述段落中的任一个所述的装置(200),其中,所述成像数据包括以下各项中的一项或多项:与所述前列腺癌有关的前列腺成像报告和数据系统pi-rads评分;关于与所述前列腺癌相关联的病变的空间信息;以及关于与前列腺癌相关联的病变的表观扩散系数;

其中,所述pi-rads评分和所述空间信息从多参数磁共振成像信息导出。

8、根据段落7所述的装置(200),其中,所述成像数据包括关于与所述前列腺癌相关联的一个或多个病变中的每个病变的pi-rads评分,每个pi-rads评分是使用以下各项中的一项或多项来确定的:t2加权图像数据、扩散加权图像数据和动态对比增强图像数据;并且

其中,所述空间信息包括在以下各项中的总计所述一个或多个病变的大小的指示:在所述对象的前列腺的前区域中,在所述对象的前列腺的后区域中;在所述前列腺的周围区中,在所述前列腺的中央区中,在所述前列腺的转变区中和/或在所述前列腺的前纤维肌性基质中。

9、根据前述段落中的任一个所述的装置(200),其中,所述指令集当由所述处理器运行时使所述处理器通过使用预测模型来确定所述预后评分。

10、根据前述段落中的任一个所述的装置(200),其中,所述指令集当由所述处理器运行时使所述处理器通过使用经训练的随机森林分类器来确定所述预后评分;

其中,所述随机森林分类器被布置为基于多个特征的子集对输入数据进行分类;并且

其中,特征的所述子集包括所述多个特征中的在所述分类中具有最大影响的那些特征。

11、一种执行对潜在患有前列腺癌的对象的预后评价的计算机实施的方法(300),所述方法包括:

获得(302)与所述对象相关联的对象简档;

获得(304)与所述对象相关联的临床数据;

获得(306)关于所述前列腺采集的成像数据;

获得(308)与关于所述对象的前列腺采集的活检有关的病理信息;并且

基于至少所述对象简档、所述临床数据、所述成像数据和所述病理信息来确定(310)与所述癌症有关的预后评分。

12、根据段落11所述的计算机实施的方法,其中,确定(310)预后评分包括:

将所述对象简档、所述临床数据、所述成像数据和所述病理信息作为输入提供到预测模型;并且

获得以下各项中的至少一项作为输出:指示所述癌症在临床上显著的可能性的评分;以及指示所述癌症为非定域的可能性的评分。

13、一种计算机实施的方法(400),其训练分类器以基于与所述对象相关联的对象简档、与所述对象相关联的临床数据、关于所述前列腺采集的成像数据以及与关于所述对象的前列腺采集的活检有关的病理信息来确定与对象中的前列腺癌有关的预后评分;所述方法包括:

使用训练数据集来训练(402)所述分类器;

识别(404)影响所述分类器的输出的多个特征;

根据所述多个特征对所述分类器的所述输出的影响对所述多个特征进行排序(406);

忽略(408)所述多个特征中的最低排序特征以获得较高影响特征的子集;并且

基于特征的所述子集来重新训练(410)所述分类器。

14、根据段落13所述的方法(400、500),还包括:

下采样(502)被用于训练所述分类器的所述训练数据的多数类,使得所述多数类与所述训练数据的少数类在统计上平衡;

其中,训练所述分类器包括对所述训练数据的所述少数类中的数据进行自举采样。

15、一种包括非瞬态计算机可读介质的计算机程序产品,所述计算机可读介质(602)具有实现在其中的计算机可读代码,所述计算机可读代码被配置为使得在由适合的计算机或处理器(604)运行时使所述计算机或处理器执行根据段落11至14中的任一项所述的方法。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips