HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种基于结构化电子病历的眼科疾病预测方法和存储设备与流程

2021-01-08 11:01:05|350|起点商标网
一种基于结构化电子病历的眼科疾病预测方法和存储设备与流程

本发明涉及数据处理技术领域,特别涉及一种基于结构化电子病历的眼科疾病预测方法和存储设备。



背景技术:

根据世界卫生组织发布的数据显示,全球有近3亿视力受损患者,眼科疾病已成为继肿瘤、心血管疾病之后第三位危害及影响人们生存质量的疾病,包括盲在内的视觉损伤是涉及民生的重大公共卫生问题和社会问题。

眼健康主要分为眼病和视力不正常两块。我国眼科疾病众多,包括白内障、青光眼(全国患者近1000万)、屈光不正等。我国是世界上盲和视觉损伤患者数量最多的国家之一。据国际防盲协会披露,我国盲人数量早已突破600万。此外,年龄相关性眼病患病率提高,青少年屈光不正等问题日益突出;眼科医疗资源总量不足、质量不高、分布不均的问题依然存在。

目前,眼科疾病诊断主要通过专业眼科医生人工进行。医生需要获取并整合大量患者相关信息进行诊断和治疗。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高,医生每天接收的信息量和信息密度都很巨大。然而目前我国眼科学的发展水平还不能满足大量眼病患者的需求,眼科医生数量稀少,水平参差不齐,这给疾病诊断的进一步发展带来了极大的困难。使得眼科疾病诊断效率低、精准度低等问题。



技术实现要素:

为此,需要提供一种基于结构化电子病历的眼科疾病预测方法,用以解决人工进行眼科疾病诊断效率低、准确度低等问题。具体技术方案如下:

一种基于结构化电子病历的眼科疾病预测方法,包括步骤:

建立眼科疾病数据库;

获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;

输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;

输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;

获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;

对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。

进一步的,还包括步骤:

判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。

进一步的,所述“建立眼科疾病数据库”,还包括步骤:

通过不同途径获取用于训练的眼科语料,用所述眼科语料对bert模型进行训练,对训练好后的bert模型进行fine-tune得眼科疾病数据库。

进一步的,所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至bert模型得向量化后的电子病历数据库。

进一步的,所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:

其中a为已知诊断结果病历的文本向量,b为待诊断电子病历的拼接向量,s为a与b的相似概率。

进一步的,所述预设模型为elasticnet回归模型。

为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:

一种存储设备,其中存储有指令集,所述指令集用于执行:

建立眼科疾病数据库;

获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;

输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;

输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;

获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;

对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。

进一步的,所述指令集还用于执行:判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。

进一步的,所述指令集还用于执行:所述“建立眼科疾病数据库”,还包括步骤:

通过不同途径获取用于训练的眼科语料,用所述眼科语料对bert模型进行训练,对训练好后的bert模型进行fine-tune得眼科疾病数据库。

进一步的,所述指令集还用于执行:所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至bert模型得向量化后的电子病历数据库。

进一步的,所述指令集还用于执行:所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:

其中a为已知诊断结果病历的文本向量,b为待诊断电子病历的拼接向量,s为a与b的相似概率。

本发明的有益效果是:通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。

此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。

附图说明

图1为具体实施方式所述一种基于结构化电子病历的眼科疾病预测方法的流程图;

图2为具体实施方式所述一种基于结构化电子病历的眼科疾病预测方法的示意图;

图3为具体实施方式所述一种存储设备的模块示意图。

附图标记说明:

300、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。

请参阅图1至图2,在本实施方式中,一种基于结构化电子病历的眼科疾病预测方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实施如下:

步骤s101:建立眼科疾病数据库。请参阅图2,具体可如下:通过不同途径获取用于训练的眼科语料,用所述眼科语料对bert模型进行训练,对训练好后的bert模型进行fine-tune得眼科疾病数据库。其中不同途径如:眼科疾病相关的中文电子书籍,比如《眼科学》,包含眼的生理、病理等特征描述以及眼的各种检查技术,专业性很强。眼科电子病历有着很好的眼科病历的基本描述和格式。百度搜索的眼科疾病问答文本等语料包含了较多的眼科疾病基本症状和诊断建议等信息。以上用于bert模型训练的语料使得训练好的bert模型对眼科电子病历有着较高的特异性和敏感度。采用bert中文预训练模型可以提高对正常语言数据的泛化能力。从预训练模型出发进行fine-tune,形成眼科疾病数据库。

步骤s102:获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接。具体可如下:将待诊断病历中主诉、检查、病史等自由文本,从训练好的bert数据库中提取各自的文本embedding向量(即文本向量),从待诊断病历中眼部生化指标中提取相应数值化特征(即数值向量)。为形成该病历整体的文本embedding特征(即整体特征向量),需要将以上各部分的文本embedding向量特征进行加权拼接,权重可在模型训练过程中不断调整,也可人为设定。

步骤s103:输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型。在本实施方式中,所述预设模型为elasticnet回归模型。步骤s104:输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率。具体可如下:将训练集数据电子病历的整体特征向量输入elasticnet回归模型(如下式)进行训练,然后将测试集电子病历的整体特征向量输入训练好的模型,经过softmax模块后得到1*k的列向量(该向量各项加和为1,k为眼科疾病种类数目),认为该向量即为各疾病的模型概率。

min(y-xw)t(y-xw)+λ1||w||1+λ2||w||2

||.||1与||.||2分别为1范数与2范数,λ1和λ2为正则化系数。

步骤s105:获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率。其中所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至bert模型得向量化后的电子病历数据库。所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:

其中a为已知诊断结果病历的文本向量,b为待诊断电子病历的拼接向量,s为a与b的相似概率。

步骤s106:对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。具体可如下:对于计算得到的模型概率与相似概率,进行加权求和(默认求平均值,权重可根据诊断效果略作调整),得到最终的患病概率向量。

对于计算得到的患病概率,结合疾病的常见程度设置是否患病的判定阈值,判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病,若小于该阈值,则判定不患该种疾病。

基于该阈值,将患者判定为不患病、患某一种或多种眼科疾病,从而给出诊断建议。比如,根据患病概率向量,可判断该患者患a病的概率为0.8,患b病的概率为0.1。

通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。

此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。

请参阅图2至图3,在本实施方式中,一种存储设备300的具体实施方式如下:

一种存储设备300,其中存储有指令集,所述指令集用于执行:建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。

进一步的,所述指令集还用于执行:所述“建立眼科疾病数据库”,还包括步骤:通过不同途径获取用于训练的眼科语料,用所述眼科语料对bert模型进行训练,对训练好后的bert模型进行fine-tune得眼科疾病数据库。其中不同途径如:眼科疾病相关的中文电子书籍,比如《眼科学》,包含眼的生理、病理等特征描述以及眼的各种检查技术,专业性很强。眼科电子病历有着很好的眼科病历的基本描述和格式。百度搜索的眼科疾病问答文本等语料包含了较多的眼科疾病基本症状和诊断建议等信息。以上用于bert模型训练的语料使得训练好的bert模型对眼科电子病历有着较高的特异性和敏感度。采用bert中文预训练模型可以提高对正常语言数据的泛化能力。从预训练模型出发进行fine-tune,形成眼科疾病数据库。

进一步的,所述指令集还用于执行:判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病。

获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接。具体可如下:将待诊断病历中主诉、检查、病史等自由文本,从训练好的bert数据库中提取各自的文本embedding向量(即文本向量),从待诊断病历中眼部生化指标中提取相应数值化特征(即数值向量)。为形成该病历整体的文本embedding特征(即整体特征向量),需要将以上各部分的文本embedding向量特征进行加权拼接,权重可在模型训练过程中不断调整,也可人为设定。

在本实施方式中,所述预设模型为elasticnet回归模型。

将训练集数据电子病历的整体特征向量输入elasticnet回归模型(如下式)进行训练,然后将测试集电子病历的整体特征向量输入训练好的模型,经过softmax模块后得到1*k的列向量(该向量各项加和为1,k为眼科疾病种类数目),认为该向量即为各疾病的模型概率。

min(y-xw)t(y-xw)+λ1||w||1+λ2||w||2

||.||1与||.||2分别为1范数与2范数,λ1和λ2为正则化系数。

进一步的,所述指令集还用于执行:所述“获取向量化后的电子病历数据库”,还包括步骤:输入现有的电子病历数据库至bert模型得向量化后的电子病历数据库。

进一步的,所述指令集还用于执行:所述“对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率”,还包括步骤:

其中a为已知诊断结果病历的文本向量,b为待诊断电子病历的拼接向量,s为a与b的相似概率。

进一步的,对于计算得到的模型概率与相似概率,进行加权求和(默认求平均值,权重可根据诊断效果略作调整),得到最终的患病概率向量。

对于计算得到的患病概率,结合疾病的常见程度设置是否患病的判定阈值,判断最终的患病概率是否大于等于预设的疾病的判定阈值,若大于等于,则判定患该种疾病,若小于该阈值,则判定不患该种疾病。

基于该阈值,将患者判定为不患病、患某一种或多种眼科疾病,从而给出诊断建议。比如,根据患病概率向量,可判断该患者患a病的概率为0.8,患b病的概率为0.1。

通过建立眼科疾病数据库;获取待诊断电子病历中各自由文本对应的文本向量,及获取待诊断电子病历中眼部生化指标对应的数值向量,将所述文本向量和所述数值向量作为所述待诊断电子病历的整体特征向量,并对所述整体特征向量进行加权拼接;输入训练集数据电子病历的整体特征向量至预设模型进行训练,得训练好的模型;输入测试集电子病历的整体特征向量至所述训练好的模型,并经过softmax模块后得到各疾病的模型概率;获取向量化后的电子病历数据库,对待诊断电子病历加权拼接后的整体特征向量与所述向量化后的电子病历数据库的文本向量进行相似度计算,得待诊断电子病历与已知诊断结果病历的相似概率;对所述模型概率和所述相似概率进行加权求和,得最终的患病概率向量。在上述步骤中,对整体特征向量的加权拼接预设模型的使用,使得模型部分与卷积神经网络、循环神经网络等深度学习模型相比,具有更高的可解释性,每一部分的权重,比如主诉或主诉的某个特征,都可对应于该部分对最终模型输出结果的贡献。且整个过程中灵活使用了现有电子病历来辅助诊断,可大大节约人力,提高效率。

此外相似概率的计算使得对已知诊断结果的电子病历的更加充分的利用,该部分的加入将会使得输出概率更加稳定可靠,也使得输出概率的解释效果增强。

需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips