HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

远程医疗实体链接的方法、装置、设备及存储介质与流程

2021-01-08 11:01:46|293|起点商标网
远程医疗实体链接的方法、装置、设备及存储介质与流程

本发明涉及机器学习技术领域,具体涉及远程医疗实体链接的方法、装置、设备及存储介质。



背景技术:

标准的医学实体在现实世界常常有不规范的表述,比如症状“痉挛”,在病历中会被表述成“突发全身抽筋”。我们需要将表述不规范的实体链接到标准实体,以将医疗术语进行规范。

现有技术中,使用google发布的bert中文语言模型,通过在其fine-tuning微调阶段设置参数,获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度进行实体对齐。

仅基于相似度计算的实体链接方法,在面对候选相近的情况时,通常很难处理,实体链接结果不理想。



技术实现要素:

有鉴于此,本发明为了在至少一定程度上克服相关技术中存在的问题,提供一种远程医疗实体链接的方法、装置、设备及存储介质。

基于上述目的,本发明提供了一种远程医疗实体链接的方法包括:

获取待链接实体的文本中各词的词嵌入向量;

根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;

确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;

获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;

计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;

将所述不规范实体与所述标准实体链接。

进一步地,上述所述的远程医疗实体链接的方法中,所述获取待链接实体的文本中各词的词嵌入向量,包括:

将所述待链接实体的文本输入预先训练的bert模型,得到所述词嵌入向量。

进一步地,上述所述的远程医疗实体链接的方法中,所述根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示,包括

将所述词嵌入向量输入预先训练的bilstm模型;

确定所述文本中的不规范实体;

将所述不规范实体的前一个词和所述不规范实体中的最后一个词的输出,作为所述第一特征表示。

进一步地,上述所述的远程医疗实体链接的方法中,所述确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合,包括:

基于bm25算法,检索医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合。

进一步地,上述所述的远程医疗实体链接的方法中,获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示,包括:

基于gnn网络模型,计算所述医疗知识图谱中各实体的第三特征表示;

确定所述第三特征表示中,属于所述候选实体的第二特征表示。

进一步地,上述所述的远程医疗实体链接的方法中,计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体,包括:

将所述第一特征表示与各所述第二特征表示输入预先训练的标准实体预测模型中;

通过所述标准实体预测模型计算所述差异分数,并根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体。

进一步地,上述所述的远程医疗实体链接的方法中,所述预先训练的标准实体预测模型的训练过程包括:

获取训练集,所述训练集中包括n个不规范实体样本的第一样本特征表示,以及与各所述不规范样本对应的各候选样本实体的第二样本特征表示;

将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中,以通过所述初始前馈神经网络模型计算所述第一样本特征表示与各所述第二样本特征表示之间的样本差异分数;

根据所述样本差异分数计算损失函数;

若所述损失函数大于或等于预设阈值,调整所述初始前馈神经网络模型中隐藏层的权重参数,并再次执行所述将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中的步骤,直至所述损失函数小于所述预设阈值;

将所述损失函数小于预设阈值时的所述初始前馈神经网络模型作为所述标准实体预测模型。

本发明还提供一种远程医疗实体链接的装置,包括:

第一获取模块,用于获取待链接实体的文本中各词的词嵌入向量;

第一确定模块,用于根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;

第二确定模块,用于确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;

第二获取模块,用于获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;

计算模块,用于计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;

实体链接模块,用于将所述不规范实体与所述标准实体链接。

本发明还提供一种远程医疗实体链接的设备,包括:

处理器,以及与所述处理器相连接的存储器;

所述存储器用于存储计算机程序;

所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如上任一项所述的远程医疗实体链接的方法。

本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的远程医疗实体链接方法。

从上面所述可以看出,本发明提供的远程医疗实体链接的方法、装置、设备及存储介质,获取待链接实体的文本中各词的词嵌入向量;根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;将所述不规范实体与所述标准实体链接。如此,不再采用计算不同实体间的语义相似度,而是根据特征表示计算候选实体与不规范实体间的差异分数,确定出标准实体,使得实体链接的结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的远程医疗实体链接的方法的流程示意图;

图2是本发明一实施例提供的远程医疗实体链接中fnn的训练过程的方法的流程示意图;

图3是本发明一实施例提供的远程医疗实体链接的装置的结构示意图;

图4是本发明一实施例提供的一种远程医疗实体链接的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

图1是本发明一实施例提供的远程医疗实体链接的方法的流程示意图。如图1所示,本实施例提供一种远程医疗实体链接的方法,包括:

101、获取待链接实体的文本中各词的词嵌入向量。

在一个具体实现过程中,待链接实体的文本可以为医疗活动过程中产生的需要进行实体链接的文本数据,例如可以是病历、医嘱、护理文书、检查报告等医疗活动记录文本。该待链接实体主要指的是具有不同表达方式的医学术语,可以是疾病术语、手术术语、症状术语、药物术语、检查术语中的一项或多项。

其中,词嵌入向量可以通过将所述待链接实体的文本输入预先训练的bert模型中得到。bert模型可以将待链接实体的文本分为一个个字,进而对每个字赋予向量,从而得到各词嵌入向量。

进一步的,词嵌入向量表示为:

表述不规范的实体可以表示为:

m=(wh,…,wt),1≤h≤t≤l

式中,l表示待链接实体的文本中词的数量,h表示不规范实体中的首个词,t表示不规范实体中的最后一个词。

102、根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示。

在一个具体实现过程中,待链接实体文本中包括不规范实体,比如待链接实体文本为“工作期间突发全身抽筋,期间意识清楚”,而其中的“突发全身抽筋”的正确表述应为“痉挛”,因此,需要将表述不规范的实体链接到医疗知识图谱中的标准实体。

具体的,不规范实体的第一特征表示可以通过以下方式得到:

将所述词嵌入向量输入预先训练的bilstm模型;

确定所述文本中的不规范实体;

将所述不规范实体的前一个词和所述不规范实体中的最后一个词的输出,作为所述第一特征表示。

进一步的,将不规范实体的特征表示为:

式中,f表示前向lstm输出,b表示后向lstm输出。

103、确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合。

在一个具体实现过程中,可以采用bm25算法检索与表述不规范的实体最相似的k个实体候选。

104、获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示。

在一个具体实现过程中,可以基于gnn网络模型,计算所述医疗知识图谱中各实体的第三特征表示。其中,第三特征表示为:

其中,n表示医疗知识图谱中实体的数量。

在步骤103中确定出候选实体集合后,便可以在医疗知识图谱中查找候选实体集合中候选实体的第二特征表示。

105、计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体。

在一个具体实现过程中,确定候选实体中的标准实体,可以通过预先训练的标准实体预测模型得到。具体的,将第一特征表示与各所述第二特征表示输入标准实体预测模型中,通过标准实体预测模型计算二者之间的差异分数,并通过差异分数确定出标准实体。

具体的,标准实体预测模型的训练过程可以为:

201、获取训练集,所述训练集中包括n个不规范实体样本的第一样本特征表示,以及与各所述不规范样本对应的各候选样本实体的第二样本特征表示。

在一个具体实现过程中,n个不规范实体样本的第一样本特征表示,与上述的第一特征表示的获取方式一样,此处不再赘述。同理,与各所述不规范样本对应的各候选样本实体的第二样本特征表示,也可以参照上述第二特征表示的获取方式。

202、将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中,以通过所述初始前馈神经网络模型计算所述第一样本特征表示与各所述第二样本特征表示之间的样本差异分数。

在一个具体实现过程中,初始前馈神经网络模型为包含一个隐藏层的前馈神经网络(factorisation-machinesupportedneuralnetworks,fnn)。

第一样本特征表示与各所述第二样本特征表示之间的样本差异分数具体可以通过如下公式得到:

score(m,c,e)=ffn([e,fh-1,bh-1,ft,bt])

其中,(m,c)表示表述不规范实体和文本对,e表示医疗图谱候选实体。

203、根据所述样本差异分数计算损失函数。

在一个具体实现过程中,fnn可以采用hingeloss作为损失函数。具体的,损失函数可以通过如下公式得到:

loss(m,c)=max(0,maxe∈e-score(m,c,e)+δ-score(m,c,e+))

其中,δ是margin,e-表示错误的链接实体集合,e+表示正确的链接实体,d表示训练集。

204、判断所述损失函数是否小于预设阈值,若否,执行205,若是,执行206。

205、调整所述初始前馈神经网络模型中隐藏层的权重参数,并再次执行步骤202。

在一个具体实现过程中,在损失函数较大时,则表明预测结果差异较大,准确度不高,因此需要,调整权重参数,再次输入训练样本,以继续训练fnn。

其中,优化器可以选择adam。

206、将所述损失函数小于预设阈值时的所述初始前馈神经网络模型作为所述标准实体预测模型。

在一个具体实现过程中,将损失函数降到最小,可以使预测得到的标准实体结果更加准确。

需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。

图3是本发明一实施例提供的一种远程医疗实体链接的装置的结构示意图。参照图3,本申请实施例的提供了一种远程医疗实体链接的装置,包括:

第一获取模块30,用于获取待链接实体的文本中各词的词嵌入向量;

第一确定模块31,用于根据各所述词嵌入向量,确定所述文本中不规范实体的第一特征表示;

第二确定模块32,用于确定医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合;

第二获取模块33,用于获取医疗知识图谱中所述候选实体集合中各候选实体的第二特征表示;

计算模块34,用于计算所述第一特征表示与各所述第二特征表示之间的差异分数,根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体;

实体链接模块35,用于将所述不规范实体与所述标准实体链接。

在一个具体实现过程中,第一获取模块,具体用于将所述待链接实体的文本输入预先训练的bert模型,得到所述词嵌入向量。

在一个具体实现过程中,第一确定模块,具体用于将所述词嵌入向量输入预先训练的bilstm模型;

确定所述文本中的不规范实体;

将所述不规范实体的前一个词和所述不规范实体中的最后一个词的输出,作为所述第一特征表示。

进一步地,第二确定模块,具体用于基于bm25算法,检索医疗知识图谱中与所述不规范实体的相似度达到预设相似度值的候选实体集合。

在一个具体实现过程中,第二获取模块,具体用于基于gnn网络模型,计算所述医疗知识图谱中各实体的第三特征表示;

确定所述第三特征表示中,属于所述候选实体的第二特征表示。

进一步地,计算模块,具体用于将所述第一特征表示与各所述第二特征表示输入预先训练的标准实体预测模型中;

通过所述标准实体预测模型计算所述差异分数,并根据各所述差异分数确定出所述第二特征表示对应的候选实体中的标准实体。

在一个具体实现过程中,预先训练的标准实体预测模型的训练过程包括:

获取训练集,所述训练集中包括n个不规范实体样本的第一样本特征表示,以及与各所述不规范样本对应的各候选样本实体的第二样本特征表示;

将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中,以通过所述初始前馈神经网络模型计算所述第一样本特征表示与各所述第二样本特征表示之间的样本差异分数;

根据所述样本差异分数计算损失函数;

若所述损失函数大于或等于预设阈值,调整所述初始前馈神经网络模型中隐藏层的权重参数,并再次执行所述将所述训练集中的第一样本特征表示和第二样本特征表示输入初始前馈神经网络模型中的步骤,直至所述损失函数小于所述预设阈值;

将所述损失函数小于预设阈值时的所述初始前馈神经网络模型作为所述标准实体预测模型。

本实施例的具体实现方案可以参见前述实施例记载的远程医疗实体链接的方法及方法实施例中的相关说明,此处不再赘述。

上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

图4为本发明的模型部署设备实施例的结构示意图,如图4所示,本实施例的通行设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

本发明还提供一种存储介质,所述存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例的远程医疗实体链的控制方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips