一种基于贝叶斯网络的数据挖掘检疫方法与流程

2021-01-08 11:01:45|

373|

起点商标网

本发明涉及大数据应用
技术领域：
，更具体地说，尤其涉及适用于疫情检测检测使用的一种基于贝叶斯网络的数据挖掘检疫方法。
背景技术：
：疫情在全球各个国家传播时，具有易传播、确诊难、症状严重的特点，在各个国家爆发疫情初期，由于之前没有相关的资料，也没有研发有针对性的检测技术，面对大量需要检测的人员时，检测速度特别慢，让很多感染者没有得到及时检测，传染了更多的人，成为疫情走向失控状态的部分原因；疫情防控的中后期，各地会有偶发性的案例，每一个突然发病的人都有可能再次引发大规模感染，当一个地方有新一波疫情的风险时，政府可能会采取大规模疫情检测的方式应对这个风险。这样的对疫情的防控手段存在成本高的缺点；由于对于疫情发展趋势具有谨慎而悲观的推测，疫情爆发的风险在未来会成为常态，大规模检测可能成为常规手段，为了降低大规模检测的成本，需要提供可行的，能够起到监控作用的算法，辅助疫情监控。技术实现要素：针对现有技术的上述缺陷和问题，本发明提供一种基于贝叶斯网络的数据挖掘检疫方法，解决了疫情初期高效地监控疫情发展，疫情中后期能第成本的监控疫情走向的技术问题。为了达到上述目的，本发明提供如下技术方案：一种基于贝叶斯网络的数据挖掘检疫方法，包括如下步骤：步骤一、通过人们最近的社交信息，模拟感染过程，将人们之间的关联关系构建成一个贝叶斯网络g，使得g能尽可能接近感染过程；步骤二、假设某些人如果是感染者，计算这个假设对所有人是否是感染者的概率的影响，将每一个人对其它每个人的影响定义为一个影响力函数effect(x)，得到每个人的影响力值，用effect(x)为所有人排序，选出影响力大的人优先检测；步骤三、每一天检测的时候，把之前的检测结果当成观测证据，重新评估每个人的影响力，选择当天的top(k)个人去检测；步骤四、将人群从1～n编号，把编号为i的人今天是否是患者的事件记为xi，xi可能的取值为positive或者negative。xi的不确定性：h(xi)＝-p(xi＝positive)logp(xi＝positive)-p(xi＝negative)logp(xi＝negative)检测消除了不确定性，所以每次检测都会让h(xi)变小；整体待检测的人群x,(x∈x)。x的不确定性h(x)，在第i人检测过后也会随之下降，下降后整体的不确定性称为xi被观测后的条件熵h(x|xi)；根据得到每天每个人是感染者的概率p(x)，从而能得到每个人的h(x)，然后用h(x)近似评估h(x)；通过设置xi为阳性，经过推理可以得到通过设置xi为阴性，经过推理可以得到则有：由于整体的不确定性h(x)与局部的不确定性的总和有正相关性，在非极端情况下，可以给出论断：effect(x)与h(x|x)有良好的负相关性，选出的人的effect(x)越大，整体的不确定性下降的期望越大。步骤五、采用近似算法可得到感染率最大的人。上述技术方案中，所述人们最近的社交信息获取方法包括通过手机app大面积采集关键信息，数据信息节点为：人与人密切接触的信息、人们的症状信息。上述技术方案中，所述采集关键信息构建成为贝叶斯网络，其涉及的核心要素分为感染源、被感染者、观测证据、观测干扰项。上述技术方案中，所述近似算法为：选择的k人组成的集合为xk，xk的影响力具体为：每次选出未被选出的人中影响力最大的人，选择k次，最开始每人都有一个熵h(x)，已经选择第s人时，熵已经更新为h(x|xs)，通过已知最小的选择任意第s+1人，推导出从逐步推理得到最小的此时effect(xk)最大，采取公式：本发明系基于贝叶斯网络的数据挖掘应用，可以作为疫情发展的监控手段，用尽可能少的资源找出患者，降低疫情监控的成本，基于疫情的常态化监测中，贝叶斯网络中数据与现实数据自然适配，具有较好的匹配度，在数据实验中有良好的效果。以本发明为基础，可以研发统一大数据疫情检测引擎、大型车载式集成rt-prc大规模检测仪器等，对于未来未知的疫情或者生物战争提供高效反应措施，具有较好的市场适用场景。附图说明图1为传染病感染过程多个要素构成的因果环节的网络示意图。图2为本发明试验数据取得的试验示意图。图3为本发明试验数据取得的试验结果示意图。具体实施方式下面将结合本发明的附图和实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下以具体的具体模拟实施例说明本发明的技术方案：在传播理论中，传播模型核心要素分为感染源、被感染者、观测证据、观测干扰项。在没有进行检测时，每个人都是可能的感染源，也都是可能的被感染者。除了人以外，其它的一些因素可以作为间接感染的感染源。观测证据包括人们的症状、各种各样的检测结果等等。比如rt-pcr检测结果是信息量较高的观测证据，发烧、咳嗽等是信息量较少的观测证据。观测干扰项包含假阳性、假阴性、其它相似疾病引发的症状等。人群感染的要素主要有4种关系：(1)人作为感染源是原因，被感染者是结果。(2)间接感染源是原因，被感染者是结果。(3)被感染者是因，对感染者的观测证据是果。(4)观测干扰项是因，观测证据是果。如图1所示，在传染病学的传播过程中，本发明模拟covid-19在一个人群中的传播过程，从而生成一些可研究的数据。感染过程是由很多个要素构成的因果环节的网络。(1)人群总共有n个人，在第一天每个人是感染者的概率为v。如图所示，图中总共有a、b、c、d四个人。(2)排除患者有潜伏期、患者被治愈、患者死亡、病人被收治、人员迁出等情况。(3)一天作为一轮传播的时间周期，总共有10轮传播过程。示意图中只有3轮。(4)每个人在每一轮都是一个新节点，当10轮后，每个人的健康状态都构成长度为10的时间轴。在图中用圆点代表每人每天的健康状况，红色代表是患者。(5)用有向边表示因果关系。如图中的箭头。(6)每个人每轮都有可能密接触其它人，平均接触的人数为r，r称为社交密度。(7)当两个人在某轮互相密切接触，用箭头指向对方在下一轮里的节点，表示如果一个人是感染者，可能传染另一个人。这种传播方式称为社交关系传播，和患者社交被感染的平均概率为c。(8)每个因果关系是一个概率关系。比如某人a和某人b密切接触，如果a是患者，传播给b的概率30％。(9)每轮每个人对下一轮的自己，传播概率为100％。即某人如果今天是患者，则明天也是患者。比如图中b1,b2,b3代表一个人在三轮里都是患者。(10)每一天都存在间接感染源，间接感染源可能是已知的可能是未知的。可能被间接感染源感染。比如中国发生了多次被进口的冷冻海鲜传播。假定间接感染源感染与社交关系传播是相互独立事件。在图中指向c3,d3这样的菱形就是间接感染源。(12)感染者每天有一定的概率被观察到有利于诊断为covid-19的证据，比如：发烧、咳嗽、做过检测。总证据量积累到较高的置信度即可确诊。在图中用正方形表示观测证据，红色正方形是阳性证据。(13)有一定的概率由于其它原因观测到covid-19症状，从而成为假证据干扰诊断，比如肺结核患者也发烧和咳嗽，比如其它冠状病毒感染者做抗体检测出现假阳性。在图中用三角形表示观测干扰项。在建立模型时，由于人们无法精确地记忆所有情况，应该有大量数据丢失的情况，故人们无法完全调查清楚真实的感染过程，直接删除了感染中的前5轮数据。作为本发明实施例一种基于贝叶斯网络的数据挖掘检疫方法，包括如下步骤：步骤一、通过人们最近的社交信息，如通过手机app大面积采集关键信息，数据信息节点为：人与人密切接触的信息、人们的症状信息，模拟感染过程，将将采集关键信息中人们之间的关联关系构建成一个贝叶斯网络g，使得g能尽可能接近感染过程，涉及的核心要素分为感染源、被感染者、观测证据、观测干扰项。步骤二、假设某些人如果是感染者，计算这个假设对所有人是否是感染者的概率的影响，将每一个人对其它每个人的影响定义为一个影响力函数effect(x)，得到每个人的影响力值，用effect(x)为所有人排序，选出影响力大的人优先检测；步骤三、每一天检测的时候，把之前的检测结果当成观测证据，重新评估每个人的影响力，选择当天的top(k)个人去检测；步骤四、将人群从1～n编号，把编号为i的人今天是否是患者的事件记为xi，xi可能的取值为positive或者negative。xi的不确定性：h(xi)＝-p(xi＝positive)logp(xi＝positive)-p(xi＝negative)logp(xi＝negative)检测消除了不确定性，所以每次检测都会让h(xi)变小；整体待检测的人群x,(x∈x)。x的不确定性h(x)，在第i人检测过后也会随之下降，下降后整体的不确定性称为xi被观测后的条件熵h(x|xi)；根据得到每天每个人是感染者的概率p(x)，从而能得到每个人的h(x)，然后用h(x)近似评估h(x)；通过设置xi为阳性，经过推理可以得到通过设置xi为阴性，经过推理可以得到则有：由于整体的不确定性h(x)与局部的不确定性的总和有正相关性，在非极端情况下，可以给出论断：effect(x)与h(x|x)有良好的负相关性，选出的人的effect(x)越大，整体的不确定性下降的期望越大。步骤五、选择的k人组成的集合为xk，xk的影响力具体为：每次选出未被选出的人中影响力最大的人，选择k次，最开始每人都有一个熵h(x)，已经选择第s人时，熵已经更新为h(x|xs)，通过已知最小的选择任意第s+1人，推导出从逐步推理得到最小的此时effect(xk)最大，采取近似算法：即可得到感染率最大的人。近似算法可以采用现有技术或算法更好的求解方法，本发明实施例仅以简单算法予以说明。本发明的实验数据：本发明通过计算机模拟人群感染的过程生成一些数据，作为验证推荐算法有效性的测试集。为了避免开发者通过调整参数去刻意拟合模拟数据，让推荐算法的实验效果表面上显著。发明人选择了两个人独立开发的方法，一个人负责模拟感染过程生成测试数据，另一个人开发推荐算法代码。这样才能验证算法有普适性。实验结果本发明总共生成了4组数据，每组是3600人，总共进行3轮推荐，每组每一轮推荐500人次。初始感染率v社交密度r社交感染概率c总感染人数第一组0.0440.2785第二组0.140.42486第三组0.0420.4964第四组0.0240.4928如图2所示，每一组的3列中从左往右分别是随机推荐、密切接触者推荐、本发明的贝叶斯网络方案，每一列包含第一、二、三轮分别推荐出的500人中是患者的人数数量，以及未被推荐的人。如图3所示，在每一组数据中，在3轮推荐后，基于贝叶斯网络的推荐算法都更容易发现患病者，说明本算法具备显著的有效性。本发明的创新点体现在：首先是建模选择的创新，现有技术中有很多才采用大数据方案来做疫情检测的管理，但都是基于感染链追踪的思路，发明人选择贝叶斯网络，是因为可以很好地模拟人和人之间互相感染的过程，在现有的技术中，贝叶斯网络只会用来检测一个人，而不是整个群体，鲜有采取的贝叶斯网络来建模，检测整个群体的技术方案。本发明选择每一人对整体熵的变化幅度评估影响力，决定了技术方案的效果，在后续的研发和适用中，只需要用成熟的贝叶斯网络推理算法算概率，就能求出熵，就得到了分数，因此本发明用推荐出优先检测者后最小的条件熵作为目标函数，是核心创新。将本发明的方法运用在实践中，发明人从天津宝坻百货商场covid-19疫情的跟踪报道中，得到了60个感染者和密切接触者在新冠疫情爆发期间的活动信息，共整理出169人，发明人复制这些人的活动信息模拟未感染者的社交关系，总共得到3042人，在实验中5天共检测750人，密切接触者推荐算法检出14人，贝叶斯网络推荐算法检出39人，经实际验证可以看到，贝叶斯网络推荐算法没有丢失可能的感染者。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本
技术领域：
的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。