面向药物研发的数据处理方法及系统与流程
本发明涉及药物研发的辅助方法,特别涉及一种面向药物研发的数据处理方法及系统。
背景技术:
在现有的药物研发过程中,药物数据的收集、整理与分析是贯穿药物研发流程的重要步骤,常用的药物研发信息收集一般有以下几个类目的数据:
基于药物靶点信息的数据:
包括靶点生物学功能及临床分子相关的适应症、适应症的流行病学、为满足的临床需求等,常用的公开数据源有例如:pubmed,googlescholar,知网等。
基于药物及蛋白质结构信息的数据:
靶点相关信息可通过uniprot等网站查询,靶点相对应的蛋白质晶体结构信息可在pdb数据库中查询及获取。
基于同类型药物的竞品信息:
包括靶点相关的药物信息、专利、以及药物相关的交易、上市药物的销售额等信息。可在例如cortellis、药渡、reaxys、clinicaltrials、国家药审中心、fda等网站获取。
基于药物专利相关的信息:
药物专利相关信息查询,可从包括epo、wipo、googlepatents等获取相关信息。
基于药物活性的相关信息:
药物活性数据,可从例如chembl、pubchem等公开数据源获取。
总体来说,全面丰富的数据信息收集及整理对于药物研发流程的决策、风向控制、质量及上市成功率都尤为重要,是药物研发过程中不可或缺的环节。
药物信息数据类型纷繁复杂,包括常用的公开数据源、计算机辅助药物设计(cadd)软件产生的结果、药物研发流程中的实验数据等,他们都存在各自的数据结构、存储方式及数据访问方式,导致药物信息收集与整理的过程非常依赖于药物研发相关人员的知识背景、技术手段及时间精力投入。
而其中从数据获取到可以被用于药物研发决策的知识库又存在如下问题:
数据收集、聚合与清洗的问题:
多种数据源的访问方式集成、数据高效采集、数据更新及存储整理,公开数据源数据量大而干扰多,要提取出有价值的信息需要百万到亿级别的数据收集、转换及清洗工具;而商用或定制化数据源,虽然质量相对较高且有相对标准化的数据访问方式,但各自数据访问协议、接口及数据格式有所不同,如何汇总到一起进行维护是一个难题。同时无论公开数据源或者商用、定制化数据源都存在数据增量更新的问题。
数据重算的问题:
清洗聚合过后的数据,一般需要经过一系列数据清洗的手段得到最终有利于药物研发的信息,例如对于分子去重、电荷键级错误处理、手性分子处理等,这些处理方法的每一次更新或者新增都可能需要对历往收集并清洗之后的数据进行重算,规模大耗时长是这部分的主要问题。
数据到知识库的构建问题:
在应用数据的过程中经常会需要对数据进行诸如物理化学相关信息提取,例如针对分子结构提取其包含的环数目、重原子数目、可成氢键的数目等,这些研究过程中的数据预处理、数据标定及运算的结果与聚合、清洗、重算后数据一同构成了药物研发的知识库。这类型的信息提取依赖于一定的计算过程,所以重算所遇到的规模问题在这里也会存在。
技术实现要素:
基于此,有必要提供一种可提高研发效率的面向药物研发的数据处理方法。
同时,提供一种可提高研发效率的面向药物研发的知识库系统。
一种面向药物研发的数据处理方法,包括:
数据集成:构建多种数据集成器,根据不同数据采用与其匹配的数据访问方式,获取数据,将获取的数据序列化成字符串推送给数据收集管道,数据收集管道将获取的数据以批量、异步的方式存储于数据仓库中,并对每一个存储数据记录标定唯一标识,此时存储的数据为原始数据;
数据处理:通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,数据清洗订阅者处理数据清洗管道中的数据,对数据进行处理,清洗过程中通过唯一标识访问原始数据的内容,将处理后的数据存储于数据仓库中,并加上新的标识,此时存储的数据为干净数据;
分析:对数据仓库中的数据进行分析,并将分析结果存储于知识库中。
在优选实施例中,所述数据处理还包括:将来源于不同数据源的分子通过规律规则和数据补充形成一致的信息列表。
在优选实施例中,所述数据处理包括:对不同源的化合数据进行合理性检验、排除规则检验、手性分子的手性信息一致性检验、互变异构体的数据补充、pka预测值的补充的一种或多种处理。
在优选实施例中,所述数据处理还包括:
重算:若处理规则变更,根据数据的唯一标识获取历史收集的相关原始数据,通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,根据变更后的处理规则进行重新处理,得到新的处理后的干净数据存储到数据仓库中。
在优选实施例中,所述数据处理还包括:
聚合:对不同数据源的同一分子进行去重,同时保留其来源信息,对不同数据源中因为信息不对称带来的数据不一致的情况进行合并。
在优选实施例中,所述分析包括:将清洗、聚合后数据,通过化学物理计算对化合物的性质进行预测计算得到的结果及化合物信息一并存储到知识库中。
在优选实施例中,所述数据处理还包括:将处理完后的化合物信息及其相应的附属信息通过csv组织成一致的数据结构存储数据仓库中。
在优选实施例中,所述化合物信息包括:smiles分子式、化合物来源信息、化合物唯一标识中的一种或多种;所述附属信息包括:手性、互变异构体、是否符合lipinski’sruleoffive、是否可购买到的一种或多种信息;
所述数据集成器包括:api接口集成器、文件对象集成器、数据流对象集成器、事件对象集成器中的一种或多种;
所述api接口集成器实现的数据访问方式为httpsapi,根据文档要求获取并解析其返回其结果,并将返回的内容写成json或csv格式的字符串传输到数据收集管道;
所述文件对象集成器实现基于文件对象的数据访问方式,通过下载接口下载得到文件形式的数据,完成下载获取的数据、检验文件下载的完整性并发送给数据收集管道;
所述事件对象集成器实现基于事件的数据访问方式,间隔设定时间轮训访问数据源的数据及更新情况,比对上次最新数据获取时间,将新发布的数据通过httpsapi或文件下载方式获取并发送至数据收集管道;
所述数据流对象集成器实现基于流对象的数据访问方式,获取能够给出增量或分页的数据获取方式的数据,记录上一次访问数据的参数信息,增量获取下一次的访问数据。
一种面向药物研发的知识库系统,包括:
数据集成模块:构建多种数据集成器,根据不同数据采用与其匹配的数据访问方式,获取数据,将获取的数据序列化成字符串推送给数据收集管道,数据收集管道将获取的数据以批量、异步的方式存储于数据仓库中,并对每一个存储数据记录标定唯一标识,此时存储的数据为原始数据;
数据处理模块:通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,数据清洗订阅者处理数据清洗管道中的数据,对数据进行处理,清洗过程中通过唯一标识访问原始数据的内容,将处理后的数据存储于数据仓库中,并加上新的标识,此时存储的数据为干净数据;
分析模块:对数据仓库中的数据进行分析,并将分析结果存储于知识库中。
在优选实施例中,所述数据处理模块还包括:对不同源的化合数据进行合理性检验、排除规则检验、手性分子的手性信息一致性检验、互变异构体的数据补充、pka预测值的补充的一种或多种处理,将来源于不同数据源的分子通过规律规则和数据补充形成一致的信息列表。
上述面向药物研发的数据处理方法及系统,简化及标准化支持多种数据源的对接与集成,提供多种不同的方式面向不同情况的数据源的数据收集,不仅让数据收集变得已与扩展与维护,同时也能够一定程度简化后续数据清洗、重算及知识信息提取的复杂度;通过提供将不同数据源的感兴趣的字段映射到知识库统一的字段设计,实现同样的信息有同样的字段标识和索引,不同源的信息差异也能够合并保存和被查询;数据收集管道采用异步批处理让系统能够同时处理的数据源数量上得以提升,同时数据收集管道与数据清洗管道可采用同样的框架设计降低整体系统运维复杂度,灵活的订阅处理模式可以提提升系统的容错能力和稳定性;提供自定义的数据清洗过程、软件开发工具包及工作流工具,并对接交互式数据分析系统,提升了系统应对多样数据处理需求的灵活性及海量数据处理的扩展性。
本发明适用于药物研发过程中,针对药物靶点、药物分子结构、市场竞品、药物专利信息及实验数据的自动化收集、聚合、数据清洗、存储及在分析流程,构建了一个辅助药物研发的知识库系统;该系统能够对接不同数据源的数据信息,通过大批量数据处理及持久化技术存储、清洗、重算原始数据,进而根据需要构建成面向领域问题的知识库,通过建立于知识库之上的数据分析工具向药物研发相关人员提供便捷的药物数据聚合与分析能力,提升药物研发效率,促进开发设计新的药物研发方法。
附图说明
图1为本发明一实施例的面向药物研发的数据处理方法的流程图;
图2为本发明一优选实施例的面向药物研发的数据处理方法的流程图。
具体实施方式
如图1及图2所示,本发明一实施例的面向药物研发的数据处理方法,包括:
步骤s101,数据集成:构建多种数据集成器,根据不同数据采用与其匹配的数据访问方式,获取数据,将获取的数据序列化成字符串推送给数据收集管道,数据收集管道将获取的数据以批量、异步的方式存储于数据仓库中,并对每一个存储数据记录标定唯一标识,此时存储的数据为原始数据;
步骤s103,数据处理:通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,数据清洗订阅者处理数据清洗管道中的数据,对数据进行处理,清洗过程中通过唯一标识访问原始数据的内容,将处理后的数据存储于数据仓库中,并加上新的标识,此时存储的数据为干净数据;
步骤s105,分析:对数据仓库中的数据进行分析,并将分析结果存储于知识库中。
本实施例的数据收集管道在实现中就是异步数据队列,数据收集管就好比水库,即便上游流量大,也会被蓄积在队列中,然后批量渐进式被下游的订阅者处理。可采用供应商提供的消息队列服务例如awssqs,或者通过开源到消息队列例如apachekafka实现。订阅方式由消息队列这一软件本身提供。
本实施例的序列化将一个数据对象(可能是包含不同信息的结构化的表格数据)通过一种数据格式(例如csv或者txt)写成文件的过程用到了“数据序列化”。存储的过程就是通过文件实现的。标识的意思是每一个化合物在被第一次存储于该系统中时,会对其进行一个唯一的编码,如通过uuid即可得到此编码,以便于数据在该系统中流转时有唯一的身份识别。
不同数据的在存储到数据仓库后都会以csv或者sdf这两种文件格式存在,所以格式上并无太大差异,不同的订阅者来处理不同的数据清洗过程中。
进一步,本实施例的数据集成器包括:api接口集成器、文件对象集成器、数据流对象集成器、事件对象集成器中的一种或多种。
不同的数据均是以文件这种介质存在,所以对接不同的数据问题会转变成解析不同数据格式提取数据的问题。
多种数据源确实存在不同的数据格式,但基本上能够归为几个常用的格式类别,例如sdf,csv等,其主要差异可能来自于数据字段的不同以及数据访问方式的差异,而此处系统将不同的数据源访问方式抽象为4中最为常见的数据访问方法:基于(数据方提供发布的)api请求、基于文件传输、基于(数据提供方发布数据更新的)事件触发、基于(数据提供方发布的)数据流。故此提供了四种不同的程序模块对接四种访问方式获取数据。
异步数据队列是指从上述4中数据访问方式持续获取数据时,因为数据的获取速度和数据的存储io速度是有差异的,为了降低数据获取的高并发对于存储的负载压力,提升系统在面对数据存储失败情况的鲁棒性,使用一个消息队列的架构设计方法来将收集汇总的数据以文件组织方式逐步写入到数据仓库中,典型的实现框架有很多,例如开源的kafka框架或者云供应商提供的各种消息队列框架。
进一步,本实施例的api接口集成器实现的数据访问方式为httpsapi,根据文档要求获取并解析其返回其结果,并将返回的内容写成json或csv格式的字符串传输到数据收集管道。
例如一个数据源网站提供给我们的数据访问方式是httpsapi,以及对应的数据查询文档和api访问秘钥,我们通过api接口集成器实现请求其httpsapi,按照文档要求获取并解析其返回结果,并将返回的内容写成json或者csv格式的字符串传输到数据收集管道中。
进一步,本实施例的文件对象集成器实现基于文件对象的数据访问方式,通过下载接口下载得到文件形式的数据,完成下载获取的数据、检验文件下载的完整性并发送给数据收集管道。
基于文件对象的数据访问方式一般是通过数据提供方的下载接口下载得到文件形式的数据。此处文件对象集成器将完成下载获取数据、检验文件下载完整性并发送给数据收集管道。
进一步,本实施例的事件对象集成器实现基于事件的数据访问方式,间隔设定时间轮训访问数据源的数据及更新情况,比对上次最新数据获取时间,将新发布的数据通过httpsapi或文件下载方式获取并发送至数据收集管道。
基于事件的数据访问方式是事件对象集成器会间隔一定周期(例如每天)轮训访问数据源的数据更新情况,一般可以是api、数据更新消息订阅、网站页面信息更新等,在比对上次最新数据获取时间后将新发布的数据通过httpsapi或文件下载方式获取并发送至数据收集管道。
进一步,本实施例的数据流对象集成器实现基于流对象的数据访问方式,获取能够给出增量或分页的数据获取方式的数据,记录上一次访问数据的参数信息,增量获取下一次的访问数据。
进一步,基于流对象的数据访问方式是对于数据提供方api对接的能力扩展,不同于httpsapi是针对全量数据访问的下载,流对象处理需要数据提供方能够给出增量或者分页的数据获取方式,数据流对象集成器会记录上一次访问数据的参数信息,以便于增量获取下一次访问数据,例如数据提供方给出基于分页参数的httpsapi,可按页大小及页编号获取数据,那么流对象集成器将固定页大小,递增页编号从而获取所有可能的数据。
进一步,本实施例的数据处理包括:对不同源的化合数据进行合理性检验、排除规则检验如某些包含某些金属元素的化合物需要剔除、手性分子的手性信息一致性检验、互变异构体的数据补充、pka预测值的补充的一种或多种处理。上述处理的目的是将来源于不同数据源的分子通过规律规则和数据补充形成一致的信息列表。
本实施例的合理性检验:对于输入分子格式(例如smiles,mol格式)是否能够被常用的化学计算软件(例如rdkit)正常读取,一般可通过常用的软件的分子文件读取是否报错进行判断。
排除规则检验:是应用一些常见的可成药的小分子的筛选规则对输入分子进行过滤,例如”lipinski'sruleoffive”,不可含有特殊金属等。
手性分子检验:是指验证输入分子如果是一个手性分子的话,是否有正确的手性定义于其输入的smiles中。若存在多种手性的可能,可根据需要选择过滤该分子或生成所有可能手性的分子并保存。
互变异构体的数据补充:是指在针对输入分子为smiles时,存在互变异构体的情况可遍历并选取保留其中最常见的互变异构体,一般可通过常用的化学软件例如rdkit实现。
pka预测:是指针对输入的分子通过常用的开源或者商用软件可计算其pka值并保存,例如chemaxon。
数据处理还包括重算:若处理规则变更,根据数据的唯一标识获取历史收集的相关原始数据,通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,根据变更后的处理规则进行重新处理,得到新的处理后的干净数据存储到数据仓库中。
具体的,重算的主要是指从收集到的原始数据经过数据清洗管道得到干净数据的过程,可能的场景是针对清洗规则发生变更时,需要对历史收集的相关原始数据进行重新清洗,此时可标记需要清洗原始数据,将其数据文件的id通过触发器发送到数据清洗管道,后续流程即可完全自动运行,得到新的清洗后的干净数据存放于数据仓库中。
数据处理还包括聚合:对不同数据源的同一分子进行去重,同时保留其来源信息,对不同数据源中因为信息不对称带来的数据不一致的情况进行合并。
具体的聚合过程:不同源的数据经过清洗后虽然都变成csv格式且具备相同的字段属性,但多少有很多分子来源于不同数据源但其实是同一个分子,所以首先要做聚合的目的就是去除重复分子的情况下保留其来源信息。其次是对同一属性字段来自不同数据源可能因为信息的不对称带来的数据不一致情况进行合并,例如化合物是否可购买到不同的数据源获取的信息可能不同,但在最终的知识库中应该有一致的信息表达。
本实施例的触发器对数据的处理的触发机制与数据收集颇为类似,只不过此时数据源来自于数据仓库中的文件。所谓触发器是指一旦有文件产生或者更新,便触发一条消息写入到数据清洗队列中,进而由数据清洗队列的消费者接受消息并对对应的原始数据进行处理。
清洗完后的化合物信息(例如smiles分子式、化合物来源信息、化合物唯一标识符id等)及其相应的附属信息(手性、互变异构体、是否符合lipinski’sruleoffive、是否可购买到等)通过csv组织成一致的数据结构存储回数据仓库,此为干净数据。
进一步,本实施例的数据处理还包括:将处理完后的化合物信息及其相应的附属信息通过csv组织成一致的数据结构存储数据仓库中。化合物信息包括:smiles分子式、化合物来源信息、化合物唯一标识中的一种或多种;所述附属信息包括:手性、互变异构体、是否符合lipinski’sruleoffive、是否可购买到的一种或多种信息。
本实施例的干净数据是一个相对于原始数据并且适配具体场景需求的变化规则,可以是上面提到的规则(针对不同源的化合数据做结构式合理性检验、排除规则检验、手性分子的手性信息一致性检验),亦或者由使用该系统的人定义自己的数据清洗规则得到的数据。
进一步,本实施例的分析包括:数据装载与数据处理,将清洗、聚合后数据,通过化学物理计算对化合物的性质进行预测计算得到的结果及化合物信息一并存储到知识库中。
具体的数据装载与数据整理其实是指针对清洗、聚合后的数据通过交互分析工具、软件开发工具所实现的一系列化学物理计算方法对化合物的性质进行预测计算得到的结果与化合物一并存储到知识库的过程。例如知识库是一个数据库,数据库的字段设计中一部分的属性字段来自于数据源提供的信息聚合后的结果,一部分来自于交互式分析及软件计算的结果,将两部分结果与该化合物自身一起构成一条记录存储到数据库中。例如针对结构库,使用交互式分析及软件开发工具包针对数据仓库中的化合物分子式smiles,预测生成其生物活性构象,并将可能的活性构象存储于结构库中。
化学物理计算一般根据用户需求自定,定义在数据清洗过程中,可以理解为一个程序的调用,例如如果做排除规则的检验,可以通过开源软件rdkit实现。
数据分析过程以及调用该过程中的开发工具jupyternotebook的目的都一样,就是将数据仓库中的数据聚合整理存储到知识库中,软件开发工具包定义了一些列访问和存储知识库的pythonsdk,同时软件开发工具包也包含了例如pka计算模块、构象生成模块质子化位点判别模块等计算工具,而工具的流程串接可按需组件知识提取的工作流,jupyternotebook提供可编程的交互截面能够方便用户通过pythonsdk来串接编程所需要的流程。最终数据将写入到知识库中。以构象库为例,软件开发工具包输入化合物smiles,输出若干生物活性构象,并存储于结构库中便于后续使用。
进一步,本实施例的编码向量为smiles(simplifiedmolecularinputlineentryspecification简化分子线性输入规范)式编码向量。
本发明一实施例的面向药物研发的知识库系统,包括:
数据集成模块:构建多种数据集成器,根据不同数据采用与其匹配的数据访问方式,获取数据,将获取的数据序列化成字符串推送给数据收集管道,数据收集管道将获取的数据以批量、异步的方式存储于数据仓库中,并对每一个存储数据记录标定唯一标识,此时存储的数据为原始数据;
数据处理模块:通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,数据清洗订阅者处理数据清洗管道中的数据,对数据进行处理,清洗过程中通过唯一标识访问原始数据的内容,将处理后的数据存储于数据仓库中,并加上新的标识,此时存储的数据为干净数据;
分析模块:对数据仓库中的数据进行分析,并将分析结果存储于知识库中。
进一步,本实施例的数据集成器包括:api接口集成器、文件对象集成器、数据流对象集成器、事件对象集成器中的一种或多种。
进一步,本实施例的数据处理模块还包括:对不同源的化合数据进行合理性检验、排除规则检验、手性分子的手性信息一致性检验、互变异构体的数据补充、pka预测值的补充的一种或多种处理,将来源于不同数据源的分子通过规律规则和数据补充形成一致的信息列表。
数据处理模块还包括重算单元:若处理规则变更,根据数据的唯一标识获取历史收集的相关原始数据,通过触发器将存储在数据仓库中的原始数据的唯一标识发送给数据清洗管道,根据变更后的处理规则进行重新处理,得到新的处理后的干净数据存储到数据仓库中。
具体的,重算单元的主要是指从收集到的原始数据经过数据清洗管道得到干净数据的过程,可能的场景是针对清洗规则发生变更时,需要对历史收集的相关原始数据进行重新清洗,此时可标记需要清洗原始数据,将其数据文件的id通过触发器发送到数据清洗管道,后续流程即可完全自动运行,得到新的清洗后的干净数据存放于数据仓库中。
数据处理模块还包括聚合单元:对不同数据源的同一分子进行去重,同时保留其来源信息,对不同数据源中因为信息不对称带来的数据不一致的情况进行合并。
具体的,聚合单元:不同源的数据经过清洗后虽然都变成csv格式且具备相同的字段属性,但多少有很多分子来源于不同数据源但其实是同一个分子,所以首先要做聚合的目的就是去除重复分子的情况下保留其来源信息。其次是对同一属性字段来自不同数据源可能因为信息的不对称带来的数据不一致情况进行合并,例如化合物是否可购买到不同的数据源获取的信息可能不同,但在最终的知识库中应该有一致的信息表达。
进一步,本实施例的分析模块包括:数据装载与数据处理单元:将清洗、聚合后数据,通过化学物理计算对化合物的性质进行预测计算得到的结果及化合物信息一并存储到知识库中。
本系统通过提供多种数据源集成方法对接多种数据源的数据格式及访问方式,将收集到的原始数据通过异步数据队列先进行原始数据持久化存储,进而通过数据提取、转换、装载系统将原始数据整理、聚合和重算得到干净数据。在此基础上,该系统进而提供基于jupyternotebook的交互式分析方式及相关物理化学信息计算工具,将干净数据转换并存储于知识库中,供药物研发访问使用。
本实施例的数据集成模块针对多种公开、商业、定制化数据源,抽象成以下4类数据集成方式:基于api接口数据访问方式、基于文件对象的数据访问方式、基于事件的数据访问方式、基于数据流的数据访问方式分别构建4种数据集成器,他们各自通过对接的数据源按照有效合规的数据访问方法获取数据,进而将获取到的数据序列化成字符串推送给数据收集管道,数据收集管道将获取的数据以批量、异步的方式存储于数据仓库中,并对每一个存储记录标定全局唯一的标识,以便于在数据清洗与重算时访问使用,此时存储的是原始数据。
本实施例的数据处理模块,由于原始数据需要经历提取、转换、装载操作的,可通过触发器的将存储在数据仓库中的原始数据唯一标识发送给数据清洗管道,数据清洗管道中的内容会被数据清洗订阅者处理,每个数据清洗订阅者会调用自己所定义的数据清洗过程处理获取原始数据进而进行数据清洗、转换、装载或重算的任务。期间数据清洗过程需要通过数据仓库的全局唯一标识访问到原始数据内容,同时会将结果数据存储于数据仓库中,并加上新的全局唯一标识,此时存储的是干净数据。
本实施例的分析模块通过软件开发工具包可访问到数据仓库中的原始数据及干净数据,提供交互式分析工具jupyternotebook使用软件开发工具包中的方法、函数与库实现对于数据仓库中的数据分析。同时该软件开发工具包也提供对应与知识库的存储方法,将分析的结果存储于知识库中。
本系统简化及标准化支持多种数据源的对接与集成,提供4中不同的方式面向不同情况的数据源的数据收集,不仅让数据收集变得已与扩展与维护,同时也能够一定程度简化后续数据清洗、重算及知识信息提取的复杂度。这里的简化其实是指将该系统提供了4种能够覆盖常见数据提供方的数据访问形式,不再是一种数据提供方一种访问方式,而只需要维护4种集成模式即可。而标准化是指不同源的数据信息存在字段不一致、信息不相同的情况,通过提供将不同数据源的感兴趣的字段映射到知识库统一的字段设计,实现同样的信息有同样的字段标识和索引,不同源的信息差异也能够合并保存和被查询。
数据收集管道采用异步批处理让系统能够同时处理的数据源数量上得以提升,同时数据收集管道与数据清洗管道可采用同样的框架设计降低整体系统运维复杂度,灵活的订阅处理模式可以提提升系统的容错能力和稳定性。
提供自定义的数据清洗过程、软件开发工具包及工作流工具,并对接交互式数据分析系统,提升了系统应对多样数据处理需求的灵活性及海量数据处理的扩展性。
本发明一优选实施例的面向药物研发的知识库系统采用以对接某一公开药物分子活性数据库为例来说明
某药物研发部门计划开发一款新药。该研发部门的药物设计团队希望能够将自有设计的新药与公开活性数据库的药物分子结构、活性及相关信息进行比对,挑选出结构类似的分子研究其活性及相关信息。
首先团队选定了某一公开化合物库,该化合物库仅提供以文件形式下载相关数据,所以团队成员先按照筛选条件,将数据从公开化合物网站以文件形式下载下来,通过该系统基于文件对象的数据集成器将原始下载数据推送至数据收集管道,至此该数据最终会先存储到数据仓库中,且每条原始数据记录都有其在数据仓库中的唯一标识符。
然后团队成员定义一个基于lipski’sruleoffive等原则对原始数据中更有可能成为药物分子的化合物进行筛选,该过程定义在数据清洗过程中,通过触发器获取刚才下载的原始数据,经由数据清洗管道得到最终的可能成药的化合物分子数据,即为干净数据。
团队通过交互式分析工具juypternotebook及该系统提供的软件开发工具包,输入团队设计的药物分子后系统可根据化合物相似性比较算法在刚才清洗得到的数据中查询出来与团队设计相似的化合物分子的活性及相关信息,并可通过软件开发工具包将相关查询结果存储于知识库中,以便于团队在药物研发流程中进行使用。
本发明适用于药物研发过程中,针对药物靶点、药物分子结构、市场竞品、药物专利信息及实验数据的自动化收集、聚合、数据清洗、存储及在分析流程,构建了一个辅助药物研发的知识库系统。该系统能够对接不同数据源的数据信息,通过大批量数据处理及持久化技术存储、清洗、重算原始数据,进而根据需要构建成面向领域问题的知识库,通过建立于知识库之上的数据分析工具向药物研发相关人员提供便捷的药物数据聚合与分析能力,提升药物研发效率,促进开发设计新的药物研发方法。
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除