在ORF中插入蛋白标签的方法以及计算机存储介质与流程

2021-01-08 13:01:20|

523|

起点商标网

本发明涉及生物研究领域，更具体地，涉及一种在orf中插入蛋白标签的方法以及计算机存储介质。

背景技术：

在生物研究实验中，许多场景需要使用蛋白标签与目的蛋白进行融合表达，以便于目的蛋白的表达、检测、示踪、和纯化等。随着计算机技术的不断发展，使用计算机进行序列编辑的应用场景越来越多，用户可以通过计算机选择生物工具进行序列编辑，在含有目的蛋白的orf中插入所需的蛋白标签序列。然而，大多数生物工具更加注重生物分析的结果，忽略了编辑生物序列过程中的用户体验。这些工具在编辑生物序列时大多使用同一颜色，并不追踪编辑过程中的变化。但生物序列大都冗长且杂乱无规律，用户难以识别自己插入的蛋白标签首尾，且手动插入蛋白标签需要自行通过其他方法获取蛋白标签序列，过程繁琐容易出错。

技术实现要素：

为解决上述技术问题，本发明提供一种在orf中插入蛋白标签的方法以及计算机存储介质，能够有效降低使用计算机选择生物工具在orf中插入蛋白标签的错误率，同时将插入的蛋白标签以不同背景颜色标记出来，方便追踪识别，进而提高用户体验。

根据本发明第一方面实施例的在orf中插入蛋白标签的方法，包括以下步骤：s1、获取蛋白标签的标签信息，并根据所述标签信息对所述蛋白标签进行分类；s2、对分类后的所述蛋白标签进行封装，构建蛋白标签库；s3、从所述蛋白标签库中选择目标蛋白标签，并确认所述目标蛋白标签插入orf序列中的位置；s4、根据所述位置在所述orf序列中插入所述目标蛋白标签。

根据本发明实施例的在orf中插入蛋白标签的方法，用户可以直接在整理好的蛋白标签库中挑选目标蛋白标签，有效降低了用户自行搜索查找蛋白标签的错误率，方便使用，在此同时提高插入效率，进一步提高了用户体验。

根据本发明的一些实施例，步骤s1包括：s11、从生物文献中收集所述蛋白标签的所述标签信息；s12、将所述蛋白标签插入载体内进行生物验证实验以获取所述蛋白标签的功能信息；s13、根据所述功能信息和所述蛋白标签的应用领域将所述蛋白标签进行分类。

根据本发明的一些实施例，根据所述功能信息和所述应用领域将所述蛋白标签分为以下11类：

根据本发明的一些实施例，步骤s2包括：s21、根据所述蛋白标签的名称、描述、用途、参考文献、序列进行封装；s22、将每个所述蛋白标签设置为不同颜色；s23、将每个所述蛋白标签插入首端或插入尾端。

根据本发明的一些实施例，步骤s3包括：s31、将所述蛋白标签插入在首端，判断所述蛋白标签是否为第一个插入的蛋白标签；s32、若所述蛋白标签为第一个插入的蛋白标签，则在插入所述蛋白标签后，在orf序列的头部补充atg作为起始密码子，若不是第一个插入的蛋白标签，则在序列的起始密码子后插入蛋白标签。

根据本发明的一些实施例，步骤s3包括：s31’、将所述蛋白标签插入在尾端，在序列末尾连续终止密码子前插入所述蛋白标签。

根据本发明的一些实施例，在orf中插入蛋白标签的方法还包括：s5、判断是否继续插入所述蛋白标签，若是，继续执行步骤s3。

根据本发明的一些实施例，在orf中插入蛋白标签的方法还包括：s6、删除已插入的所述蛋白标签。

根据本发明的一些实施例，步骤s6包括：s61、判断需删除的所述蛋白标签是否为最后一个首端蛋白标签，若否，则删除所述蛋白标签，若是，删除所述蛋白标签并将补充的起始密码子删除；s61’、同时删除所有添加的蛋白标签及补充的起始密码子。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的在orf中插入蛋白标签的方法的流程图；

图2为根据本发明实施例的在orf中插入蛋白标签的方法的蛋白标签分类以及位置选择示意图；

图3为根据本发明实施例的在orf中插入蛋白标签的方法的在orf序列中插入蛋白标签的示意图；

图4为根据本发明另一个实施例的在orf中插入蛋白标签的方法的流程图；

图5为本发明实施例的电子设备的示意图。

附图标记：

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面首先结合附图具体描述根据本发明实施例的在orf中插入蛋白标签的方法。

如图1所示，根据本发明实施例的在orf中插入蛋白标签的方法，包括以下步骤：s1、获取蛋白标签的标签信息，并根据标签信息对蛋白标签进行分类，s2、对分类后的蛋白标签进行封装，构建蛋白标签库，s3、从蛋白标签库中选择目标蛋白标签，并确认目标蛋白标签插入orf序列中的位置，s4、根据位置在orf序列中插入目标蛋白标签。

首先需要说明的是，根据本发明实施例的在orf中插入蛋白标签的方法可以用于对某一特定蛋白进行分离、研究，蛋白质作为生命活动的主要执行者，人们对其功能和生物学机能的研究逐步深入。目前主要通过蛋白标签与目的蛋白融合表达，以便于目的蛋白表达、检测、示踪和纯化，从而进行分离和研究某一特定蛋白。

通过本发明实施例的在orf中插入蛋白标签的方法，预先构建蛋白标签库，用户选择所需目的蛋白标签，确定插入位置，过程简明清晰。不仅能得到插入蛋白标签后的序列，还能通过标签颜色顺序直观的看出每个蛋白标签之间及蛋白标签与orf之间的位置关系。能够解决背景技术中提出的插入过程繁琐易出错，识别难度高，用户体验不佳等技术问题。

以下是对本发明内容中的专有名词进行解释：

蛋白标签(proteintag)：是指利用dna体外重组技术，与目的蛋白一起融合表达的一种多肽或者蛋白，以便于目的蛋白的表达、检测、示踪和纯化等。随着技术的不断发展，研究人员相继开发出了具有各种不同功能的蛋白标签。

载体：载体(vector)，指在基因工程重组dna技术中将dna片段(目的基因)转移至受体细胞的一种能自我复制的dna分子。三种最常用的载体是细菌质粒、噬菌体和动植物病毒。在实际生活中，胰岛素就可以通过使用载体将已插入胰岛素基因片段的质粒放入大肠杆菌内。经过插入基因片段的质粒就称作载体。该质粒在细菌内可以进行自我复制，并且不会影响到生物原来的活动。

开放阅读框(orf)：是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。当一个新基因被识别，其dna序列被解读，人们仍旧无法搞清相应的蛋白序列是什麽。这是因为在没有其它信息的前提下，dna序列可以按六种框架阅读和翻译(每条链三种，对应三种不同的起始密码子)。orf识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的dna序列而其内部不包含启动子或密码子，符合这些条件的序列有可能对应一个真正的单一的基因产物。

换言之，根据本发明实施例的在orf中插入蛋白标签的方法，首先进行构建蛋白标签库，接着用户从蛋白标签库中选取目标蛋白标签插入orf序列中。

其中进行构建蛋白标签库需要获取蛋白标签的标签信息，标签信息能够包括蛋白标签的名称、描述、用途、参考文献、序列、功能以及应用领域，获取的渠道可以是例如pubmed、cbm等权威有效的生物文献库，在此不做限定，为了进一步确认获取到的蛋白标签信息的有效性可以在获取蛋白标签序列后通过数次实验确认该蛋白标签对应的标签信息，根据获取的标签信息对蛋白标签进行分类，可以根据功能信息以及应用领域对蛋白标签分类，通过对蛋白标签分类，便于用户查找使用，接着对分类后的蛋白标签结合标签信息进行封装，构建蛋白标签库。用户根据自己的需求从蛋白标签库以及分类列表下选取目标蛋白标签，并确认目标蛋白标签将要插入orf序列中的位置，最后进行插入蛋白标签。

由此，根据本发明实施例的在orf中插入蛋白标签的方法，用户可以直接在整理好的蛋白标签库中挑选目标蛋白标签，有效降低了用户自行搜索查找蛋白标签的错误率，方便使用，在此同时提高插入效率，进一步提高了用户体验。

根据本发明的一个实施例，步骤s1包括：s11、从生物文献中收集蛋白标签的标签信息；s12、将蛋白标签插入载体内进行生物验证实验以获取蛋白标签的功能信息；s13、根据功能信息和蛋白标签的应用领域将蛋白标签进行分类。通过从生物文献中获取蛋白标签的标签信息，内容针对性强，准确率高，接着将蛋白标签插入载体内进行生物验证，能够进一步确认蛋白标签信息，增加获取蛋白标签信息的准确性，最后，根据获得并进行验证后的标签信息对蛋白标签进行分类，根据功能信息和蛋白标签的应用领域将蛋白标签进行分类，用户能够在挑选目蛋白标签时快速有效的按类别进行查找，提高查找效率。

优选地，根据功能信息和应用领域将蛋白标签分为以下11类：

epitopetags、proteasecleavagesites、destabilizingdomains、detectiontags、purificationtags、signalpeptides、cell-penetratingpeptides、fluorescentgenes、linkers、regulatoryproteins、car-tproteins。根据功能信息和蛋白标签的应用领域将蛋白标签进行分类，用户能够在挑选目蛋白标签时快速有效的按类别进行查找，提高查找效率。

在本发明的一些实施例中，步骤s2包括：s21、根据蛋白标签的名称、描述、用途、参考文献、序列进行封装；s22、将每个蛋白标签设置为不同颜色；s23、将每个蛋白标签插入首端或插入尾端。

首先，根据蛋白标签的对应的具体标签信息进行封装，客户在选用时不仅可以获取该蛋白标签的序列同时能够获得名称、描述、用途、参考文献便于用户理解并使用蛋白标签，通过将不同的蛋白标签设置为不同的颜色，并选择目标蛋白标签的插入位置，插入首端或是插入尾端可根据用户需求进行选择，将目的蛋白标签插入orf序列后，能够通过标签颜色顺序直观的看出每个蛋白标签之间及蛋白标签与orf之间的位置关系。

如图2所示，蛋白标签根据功能信息和应用领域将蛋白标签分为11类，用户在选用时能够根据分类进行快速查找目标蛋白标签，每个蛋白标签的颜色都不一样并设置两个位置供用户选择，方便用户在插入orf序列后，通过标签颜色顺序直观的看出每个蛋白标签之间及蛋白标签与orf之间的位置关系。

根据本发明的一个实施例，步骤s3包括：s31、将蛋白标签插入在首端，判断蛋白标签是否为第一个插入的蛋白标签；s32、若蛋白标签为第一个插入的蛋白标签，则在插入蛋白标签后，在orf序列的头部补充atg作为起始密码子，若不是第一个插入的蛋白标签，则在序列的起始密码子后插入蛋白标签。

在本发明的一些实施例中，步骤s3包括：

s31’、将蛋白标签插入在尾端，在序列末尾连续终止密码子前插入蛋白标签。

如图3和图4所示，在orf序列插入蛋白标签，首先需要判断将蛋白标签插入orf序列的首端或是尾端。

若是选择插入在orf序列首端(n端)，需判断是否为第一个插入的蛋白标签，若是第一插入的蛋白标签需要在orf序列的头部补充atg作为起始密码子，若不是第一个插入的蛋白标签直接在在序列的起始密码子atg后插入蛋白标签。

若是选择插入在orf序列尾端(c端)，在序列末尾连续终止密码子前插入蛋白标签。即在orf序列的末尾taa或tga或tag前插入蛋白标签。

在序列的头部补充atg或是在序列末尾连续终止密码子前插入蛋白标签保证目的蛋白不会移码。其中，在n端插入蛋白标签后需要补充atg的原因是蛋白翻译需要一个起始密码子才能开始翻译。在末尾连续终止密码子前插入蛋白标签的原因是，蛋白标签需要在终止密码子之前才能被表达，若在终止密码子之后插入，翻译已被终止，则无法表达。

根据本发明的一个实施例，在orf中插入蛋白标签的方法还包括：s5、判断是否继续插入蛋白标签，若是，继续执行步骤s3。可以在目标蛋白的orf序列中插入多个蛋白标签，从而进行不同功能的验证，若是需要继续插入蛋白标签则可以继续执行s3步骤。

在本发明的一些实施例中，在orf中插入蛋白标签的方法还包括：s6、删除已插入的蛋白标签。

根据本发明的一个实施例，步骤s6包括：

s61、判断需删除的蛋白标签是否为最后一个首端蛋白标签，若否，则删除蛋白标签，若是，删除蛋白标签并将补充的起始密码子删除；

s61’、同时删除所有添加的蛋白标签及补充的起始密码子。

如需在添加多个蛋白标签的orf序列中对已经插入的蛋白标签进行删除。若仅仅删除其中一个蛋白标签，需判断是否为最后一个首端插入的蛋白标签，由于第一个首端插入的蛋白标签需要在orf序列开始补充atg作为起始密码子，由此，对最后一个首端插入的蛋白标签进行删除时需连同补充的atg作为起始密码子一起删除，若不是最后一个首端插入的蛋白标签则直接删除蛋白标签即可。

若是需要对添加多个蛋白标签的orf序列中全部已插入的蛋白标签进行删除，同时删除所有添加的蛋白标签及补充的起始密码子。

总而言之，根据本发明实施例的在orf中插入蛋白标签的方法，通过预先构建蛋白标签库，在用户编辑orf序列时，展现所有封装好的蛋白标签，用户找到所需蛋白标签后，选择插入位置，快捷插入封装过的已验证有效的蛋白标签，同时通过不同的颜色标记蛋白标签序列，有效改善了背景技术中提出的插入过程繁琐易出错，识别难度高，用户体验不佳等问题。该方法用户仅通过选择所需蛋白标签，确定插入位置，几次选择便可完成插入，操作简明。不仅能得到插入蛋白标签后的序列，还能通过标签图案顺序直观的看出每个蛋白标签之间及蛋白标签与orf之间的位置关系，有效提高了在编辑orf序列过程中的用户体验度。

此外，本发明还提供一种计算机存储介质，计算机存储介质包括一条或多条计算机指令，一条或多条计算机指令在执行时实现上述任一的在orf中插入蛋白标签的方法。

也就是说，计算机存储介质存储有计算机程序，计算机程序被处理器运行时，使得处理器执行上述任一的在orf中插入蛋白标签的方法。

如图5所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法。

进一步地，如图5所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(cpu)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除