语音处理方法、装置、系统及存储介质与流程

2021-01-28 16:01:52|

305|

起点商标网

本发明实施例涉及信息技术领域，尤其涉及一种语音处理方法、装置、系统及存储介质。

背景技术：

随着信息技术的发展，智能设备越来越多的应用到人们的家庭生活中，为了更加方便人们的生活，智能设备的功能越来越全面。当家庭人员外出时，很多人会通告过便签、电话或者语音留言设备等形式给其他成员进行留言，告知其他家庭成员某些注意事项等。

但是，现有的语音留言设备无法根据当前用户的语音对其身份进行识别，无法准确分类当前留言到对应的用户身份下的语音数据库中，使得当另外家庭成员获取留言内容时可能需要收听全部留言信息，从而造成时间的浪费，客户体验度不好。

技术实现要素：

鉴于此，为解决上述根据语音留言无法识别用户身份的技术问题，本发明实施例提供一种语音处理方法、装置、系统及存储介质。

第一方面，本发明实施例提供一种语音处理方法，包括：

获取第一语音片段；

从所述第一语音片段中提取人声部分，作为第二语音片段；

确定所述第二语音片段对应的声纹特征；

从声纹数据库中匹配出与所述声纹特征对应的人物信息。

在一个可能的实施方式中，所述方法还包括：

对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段；

对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

在一个可能的实施方式中，所述方法还包括：

将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量；

对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量；

将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

在一个可能的实施方式中，所述方法还包括：

获取第三语音片段；

确定所述第三语音片段对应的声纹特征；

基于所述声纹特征，确定所述第三语音片段对应的人物信息；

保存所述第三语音片段到所述人物信息对应的语音数据库中。

在一个可能的实施方式中，所述方法还包括：

接收对多个人物信息中目标人物信息的触发操作；

基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段；

播放所述第四语音片段。

第二方面，本发明实施例提供一种语音处理装置，包括：

获取模块，用于获取第一语音片段；

处理模块，用于从所述第一语音片段中提取人声部分，作为第二语音片段；

所述处理模块，还用于确定所述第二语音片段对应的声纹特征；

确定模块，用于从声纹数据库中匹配出与所述声纹特征对应的人物信息。

第三方面，本发明实施例提供一种语音处理系统，包括：

麦克风，用于获取第一语音片段；

处理器，用于从所述第一语音片段中提取人声部分，作为第二语音片段；确定所述第二语音片段对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息。

在一个可能的实施方式中，所述处理器，具体用于对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段；对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

在一个可能的实施方式中，所述处理器，还用于将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量；对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量；将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

在一个可能的实施方式中，所述系统还包括：

所述麦克风，还用于获取第三语音片段；

所述处理器，还用于确定所述第三语音片段对应的声纹特征；基于所述声纹特征，确定所述第三语音片段对应的人物信息；保存所述第三语音片段到所述人物信息对应的语音数据库中。

在一个可能的实施方式中，所述系统还包括：

所述处理器，还用于接收对多个人物信息中目标人物信息的触发操作；基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段；

扬声器，用于播放所述第四语音片段。

第四方面，本发明实施例提供一种存储介质，包括：所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中任一项所述的语音处理方法。

本发明实施例提供的语音处理方案，通过获取第一语音片段；从所述第一语音片段中提取人声部分，作为第二语音片段；确定所述第二语音片段对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息，由此方法，可以实现根据语音留言对用户的身份进行识别，从而对留言进行准备分类，并存储到用户对应的语音数据库中，当其他用户获取留言时可按照指定身份提取目标留言，避免时间的浪费，提高客户体验度。

附图说明

图1为本发明实施例提供的一种语音处理方法的流程示意图；

图2为本发明实施例提供的另一种语音处理方法的流程示意图；

图3为本发明实施例提供的另一种语音处理方法的流程示意图；

图4为本发明实施例提供的一种语音处理装置的结构示意图；

图5为本发明实施例提供的一种语音处理系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种语音处理方法的流程示意图，如图1所示，该方法具体包括：

s11、获取第一语音片段。

s12、从所述第一语音片段中提取人声部分，作为第二语音片段。

在语音留言设备中，语音处理系统的处理器接收用户通过麦克风录入的第一语音片段，处理器对第一语音片段进行语音活动检测处理，提取出有人声的部分，将有人声的语音片段作为第二语音片段。

s13、确定所述第二语音片段对应的声纹特征。

将第二语音片段输入到预先训练好的声纹识别模型中，利用声纹识别模型，提取第二语音片段对应的声纹特征。

s14、从声纹数据库中匹配出与所述声纹特征对应的人物信息。

声纹数据库中预先录入家庭成员中所有成员身份的样本语音，所有样本语音均已标记其对应的声纹特征标签，声纹特征标签可以是用户通过语音形式录入，也可以是通过打字文本形式录入。

进一步地，通过对比上述提取到的第二语音片段的声纹特征和声纹数据库中存储的声纹特征，将声纹特征一致的声纹数据库中存储的声纹特征对应的人物信息作为第二语音片段对应的人物信息，从而识别当前用户身份。

本发明实施例提供的语音处理方法，通过获取第一语音片段；从所述第一语音片段中提取人声部分，作为第二语音片段；确定所述第二语音片段对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息，可以实现根据语音的声纹特征对用户的身份进行识别。

图2为本发明实施例提供的另一种语音处理方法的流程示意图，如图2所示，该方法具体包括：

s21、获取第一语音片段。

s22、对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段。

在本发明实施例中，用户通过语音留言设备的麦克风录入第一语音片段，语音处理器接收第一语音片段，首先通过语音活动检测模型对第一语音片段进行去噪处理，从第一语音片段中识别和消除长时间的静音期，并去除第一语音片段中的噪声，因为当用户录入语音时可能由于周围环境存在较大背景声音，所以需要去除这些噪声，得到去噪后的第一语音片段。

s23、对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

将去噪后的第一语音片段输入人声检测模型，利用人声检测模型识别存在人物说话声音的部分，将第一语音片段中存在人物说话声音的部分提取出来作为第二语音片段。

s24、将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量。

将上述提取到的第二语音片段输入到预先训练好的dnn声纹识别模型中，dnn声纹识别模型首先对第二语音片段进行解帧操作，提取每一帧语音片段的特征，经过计算，得到第二语音片段对应的第一声纹特征向量。

可选的，如果当前用户有多条语音，则计算多条语音的声纹特征向量的平均值，作为此用户录入语音的第一声纹特征向量。

s25、对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量。

s26、将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

对比当前用户录入的第一语音片段对应的第一声纹特征向量和声纹数据库中预先存储的声纹特征向量的相似度，如果第一语音片段对应的第一声纹特征向量和声纹数据库中预先存储的声纹特征向量的相似度超过设定阈值(例如，0.7)，则确定声纹数据库中预先存储的该声纹特征向量为目标声纹特征向量，将该目标声纹特征向量对应的人物信息作为第一语音片段对应的人物信息，识别出当前用户身份。

本发明实施例提供的语音处理方法，通过获取第一语音片段，对所述第一语音片段进行数据处理得到所述第一语音片段对应的声纹特征向量，对比第一语音片段对应的声纹特征向量与声纹数据库中存储的声纹特征向量的相似度，确定第一语音片段对应的人物信息，可以实现根据语音的声纹特征对用户的身份进行识别，将声纹识别技术运用于语音留言中，可有效进行语音留言录入人的身份的确认和管理，利用声纹区分留言，在用户获取其他成员的留言内容时可按照指定身份来提取留言内容，准确提取目标留言，提高用户体验。

图3为本发明实施例提供的另一种语音处理方法的流程示意图，如图3所示，该方法具体包括：

s31、获取第三语音片段。

本发明实施例中，用户首先发出留言指令，系统接收到用户发出的指令后，提供多个身份选项给用户，用户可根据实际情况进行选择，选择留言对象后，开始留言，系统获取用户录入的第三语音片段。

例如，用户点击“我要留言”，系统提供留言给谁的选项，选项可以包括：爸爸、妈妈、爱人或儿子，用户选择要留言的对象后，系统进入留言录音模式，用户通过麦克风录入留言内容。进一步地，本留言系统会结合智能终端设备，从后台服务器发送消息到智能终端设备(例如，手机端和pc端)，提示用户有其他成员给其留言。

s32、确定所述第三语音片段对应的声纹特征。

首先对第三语音片段进行去噪和人声检测处理，然后将处理后的第三语音片段输入到预先训练好的dnn声纹识别模型中，进行声纹特征提取，得到第三语音片段对应的声纹特征向量。

s33、基于所述声纹特征，确定所述第三语音片段对应的人物信息。

s34、保存所述第三语音片段到所述人物信息对应的语音数据库中。

对比当前用户录入的第三语音片段对应的声纹特征向量和声纹数据库中预先存储的声纹特征向量的相似度，如果第三语音片段对应的声纹特征向量和声纹数据库中预先存储的声纹特征向量的相似度超过设定阈值(例如，0.8)，则将声纹数据库中预先存储的该声纹特征向量对应的人物信息作为第三语音片段对应的人物信息，将所述第三语音片段保存到所述人物信息对应的语音数据库中。

s35、接收对多个人物信息中目标人物信息的触发操作。

当用户想要收听留言时，系统根据当前用户的语音分析得到该用户的身份信息后，根据家庭成员关系图，显示出所有关于该用户的家庭成员信息，该用户可根据实际情况选择要收听哪位家庭成员给自己的留言，系统接收用户选择的目标人物的触发指令。

例如，当用户直接说出“收听留言”的语音指令，并没有具体说要收听谁给自己的留言，系统根据该用户的声纹特征向量确定该用户的身份信息，并根据家庭成员关系图，显示出所有关于该用户的家庭成员信息，该用户可根据实际情况选择要收听哪位家庭成员给自己的留言。

又如，家庭成员有儿子、爸爸、妈妈、爷爷和奶奶，儿子的身份标签相对于爸爸和妈妈来说是儿子，相对于爷爷和奶奶来说是孙子，则儿子的身份标签可以包括：儿子和孙子；同理，爸爸的身份标签可以包括：爸爸、丈夫和儿子。当用户想要收听留言时，说出“收听爸爸的留言”，系统根据语音内容首先选择出带有“爸爸”身份标签的语音数据库，则为家庭成员中爸爸和爷爷对应的语音数据库，然后根据该用户的声纹特征识别该用户的身份信息为家庭成员中的爸爸，则确定该用户要收听的是爷爷的留言。

s36、基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段。

s37、播放所述第四语音片段。

根据当前用户选择的要收听留言的目标人物信息，从语音数据库中调取该目标人物对应的第四语音片段，即为该目标人物给当前用户的留言语音，通过扬声器，将第四语音片段播放给当前用户收听。

本发明实施例提供的语音处理方法，通过接收当前用户的语音片段；从所述语音片段中提取对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息，根据人物信息存储留言到对应的语音数据库中，还可以根据人物信息确定并从语音数据库中调取该用户要收听的语音留言，由此方法，可以实现语音留言录入人的身份的确认和管理，利用声纹区分留言，在用户获取其他成员的留言内容时可按照指定身份来提取留言内容，准确提取目标留言，提高用户体验。

图4为本发明实施例提供的一种语音处理装置的结构示意图，具体包括：

获取模块401，用于获取第一语音片段；

处理模块402，用于从所述第一语音片段中提取人声部分，作为第二语音片段；

所述处理模块402，还用于确定所述第二语音片段对应的声纹特征；

确定模块403，用于从声纹数据库中匹配出与所述声纹特征对应的人物信息。

在一个可能的实施方式中，所述获取模块，具体用于获取第三语音片段；接收对多个人物信息中目标人物信息的触发操作；基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段。

在一个可能的实施方式中，所述处理模块，具体用于对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段；对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

在一个可能的实施方式中，所述处理模块，还用于将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量；对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量。

在一个可能的实施方式中，所述处理模块，还用于保存所述第三语音片段到所述人物信息对应的语音数据库中，播放所述第四语音片段。

在一个可能的实施方式中，所述确定模块，具体用于确定所述第三语音片段对应的声纹特征；基于所述声纹特征，确定所述第三语音片段对应的人物信息；将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

本实施例提供的服务器的语音处理装置可以是如图4中所示的语音处理装置，可执行如图1-3中语音处理方法的所有步骤，进而实现图1-3所示语音处理方法的技术效果，具体请参照图1-3相关描述，为简洁描述，在此不作赘述。

图5为本发明实施例提供的一种语音处理系统的结构示意图，图5所示的语音处理系统500包括：至少一个处理器501、存储器502、麦克风503、至少一个网络接口504、扬声器506。语音处理系统500中的各个组件通过总线系统505耦合在一起。可理解，总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统505。

可以理解，本发明实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-onlymemory，rom)、可编程只读存储器(programmablerom，prom)、可擦除可编程只读存储器(erasableprom，eprom)、电可擦除可编程只读存储器(electricallyeprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(staticram，sram)、动态随机存取存储器(dynamicram，dram)、同步动态随机存取存储器(synchronousdram，sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram，ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram，esdram)、同步连接动态随机存取存储器(synchlinkdram，sldram)和直接内存总线随机存取存储器(directrambusram，drram)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统5021和应用程序5022。

其中，操作系统5021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序5022，包含各种应用程序，例如媒体播放器(mediaplayer)、浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。

在本发明实施例中，各部件在存储器502存储有用于执行图1、图2或图3的程序或指令，通过控制器/处理器501执行图1、图2或图3中的具体步骤；

如通过麦克风503获取第一语音片段；处理器501从所述第一语音片段中提取人声部分，作为第二语音片段；确定所述第二语音片段对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息。

在一个可能的实施方式中，所述处理器501对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段；对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

在一个可能的实施方式中，所述处理器501将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量；对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量；将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

在一个可能的实施方式中，所述麦克风503获取第三语音片段；所述处理器501确定所述第三语音片段对应的声纹特征；基于所述声纹特征，确定所述第三语音片段对应的人物信息；保存所述第三语音片段到所述人物信息对应的语音数据库中。

在一个可能的实施方式中，所述处理器501接收对多个人物信息中目标人物信息的触发操作；基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段；扬声器506播放所述第四语音片段。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits，asic)、数字信号处理器(digitalsignalprocessing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmablelogicdevice，pld)、现场可编程门阵列(field-programmablegatearray，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的语音处理系统可以是如图5中所示的语音处理系统，可执行如图1-3中语音处理方法的所有步骤，进而实现图1-3所示语音处理方法的技术效果，具体请参照图1-3相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在语音处理系统执行的语音处理方法。

所述处理器用于执行存储器中存储的语音处理程序，以实现以下在语音处理系统执行的语音处理方法的步骤：

获取第一语音片段；从所述第一语音片段中提取人声部分，作为第二语音片段；确定所述第二语音片段对应的声纹特征；从声纹数据库中匹配出与所述声纹特征对应的人物信息。

在一个可能的实施方式中，对所述第一语音片段进行去噪处理，得到去除噪声后的所述第一语音片段；对去除噪声后的所述第一语音片段进行人声检测，将存在人声的部分作为第二语音片段。

在一个可能的实施方式中，将所述第二语音片段输入到dnn模型中，得到所述第二语音片段对应的第一声纹特征向量；对所述第一声纹特征向量与所述声纹数据库中存储的声纹特征向量进行匹配，将与所述第一声纹特征向量的相似度超过设定阈值的声纹特征向量作为目标声纹特征向量；将所述目标声纹特征向量对应的人物信息作为第一语音片段的人物信息。

在一个可能的实施方式中，获取第三语音片段；确定所述第三语音片段对应的声纹特征；基于所述声纹特征，确定所述第三语音片段对应的人物信息；保存所述第三语音片段到所述人物信息对应的语音数据库中。

在一个可能的实施方式中，接收对多个人物信息中目标人物信息的触发操作；基于所述目标人物信息从语音数据库中调取与所述目标人物信息对应的第四语音片段；播放所述第四语音片段。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除