一种跨设备语音控制方法、系统、终端及存储介质与流程

2021-01-28 15:01:12|

339|

起点商标网

本发明涉及语音识别技术领域，尤其涉及一种跨设备语音控制方法、系统、终端及存储介质。

背景技术：

随着智能终端设备的普及和发展，用户期望可以在不同的终端设备之间进行灵活的语音控制，以极大提升用户体验。例如，在家庭时用户希望使用智能音箱通过语音控制手机播放音乐或视频，或者通过语音控制手机打开应用软件。

目前，跨设备语音控制是基于蓝牙连接传输语音操作指令，但在语音操作指令获取和传输的过程中，并未验证指令发出人员是否有权限控制当前设备，使得任何人均可通过无线连接当前设备后，然后通过语音控制当前设备，安全性能较低；另外，由于设备中声音采集硬件存在差异，使得不同设备的声音采集质量参差不齐，进而使得语音识别过程中验证有权限用户的准确率较低。

技术实现要素：

鉴于上述状况，实有必要提供一种跨设备语音控制方法、系统、终端及存储介质，以解决上述问题。

本发明提供了一种跨设备语音控制方法，所述方法包括：

采集多人在不同设备上的训练语音数据，构建训练数据集；

对所述训练语音数据进行预处理，提取出所述训练语音数据的mfcc特征以训练生成语音映射模型；

获取从第一设备采集的注册语音数据，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，绑定用户id；

获取从第二设备采集的操作指令语音数据，提取出所述操作指令语音数据的mfcc特征，并输入到所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id；

根据所述操作指令语音数据，完成对所述用户id对应的第一设备相应的语音控制。

进一步地，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，具体包括：

对采集的所述注册语音数据进行去噪处理；

将所述注册语音数据分割成整数份语音；

分别提取所述整数份语音的mfcc特征，根据所述mfcc特征计算得到每一份语音的特征语音向量；

将每一份所述语音的特征语音向量进行对比，筛选出对比的差值大于预设向量阈值的特征语音向量，生成筛选特征语音向量；

在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行音频指纹注册。

进一步地，对所述注册语音进行音频指纹注册具体包括：

将所述注册语音与现有的用户id进行绑定，或者根据所述注册语音生成新的用户id。

进一步地，对所述注册语音进行音频指纹注册，绑定用户id之后，还包括：

对第一设备中的应用软件进行分类，并将分类信息及浏览历史记录导入对应的用户id；

在识别出对应的用户id之后，读取所述用户id的应用软件分类信息和浏览历史数据，进行内容推荐。

进一步地，所述注册语音数据为用户朗读的一段预设的提示文字。

本发明还提供了一种跨设备语音控制系统，所述系统包括：

第一设备，用于采集注册语音数据；

第二设备，用于采集操作指令语音数据；

语音映射模块，用于采集多人在不同设备上的训练语音数据，构建训练数据集，并提取出所述训练语音数据的mfcc特征以训练生成语音映射模型。

特征提取模块，用于提取出所述注册语音数据或操作指令语音数据或训练语音数据的mfcc特征；

控制系统模块，用于根据所述注册语音数据的mfcc特征，对第一设备进行音频指纹注册，绑定用户id。

所述控制系统模块还用于将所述操作指令语音数据的mfcc特征输入到所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id，完成对所述用户id对应的第一设备相应的语音控制。

进一步地，所述控制系统模块包括：

注册模块，用于根据所述注册语音数据，对第一设备进行音频指纹注册；

绑定模块，用于将所述注册语音数据与现有的用户id相关联绑定，或者根据所述注册语音数据生成新的用户id并相关联绑定；

匹配模块，用于接收语音映射模型输出的音频指纹，匹配所述注册语音数据，以确定对应的用户id。

进一步地，所述语音映射模块包括：

语音采集模块，用于采集多人在不同设备上的训练语音数据，构建训练数据集；

神经网络模块，所述神经网络模块中预设语音映射模型，用于对输入的操作指令语音数据的mfcc特征进行处理，输出相对应的所述注册语音数据的mfcc特征。

本发明还提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述一种跨设备语音控制方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如所述一种跨设备语音控制方法中的步骤。

与现有技术相比，本发明提供的一种跨设备语音控制方法、系统、终端及存储介质具有如下有益效果：

1、本申请首先获取从第一设备采集的注册语音数据，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，绑定用户id；然后获取从第二设备采集的操作指令语音数据，提取出所述操作指令语音数据的mfcc特征，并输入到预先训练生成所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id；最后根据所述操作指令语音数据，完成对所述用户id对应的第一设备相应的语音控制，实现了跨设备间的语音控制和权限用户语音验证，给用户提供更好的使用体验，提升了跨设备语音控制的安全性。

2、本申请通过训练生成语音映射模型，实现操作指令语音数据映射对应注册语音数据，能够屏蔽不同语音设备之间的差异，提高跨设备语音识别的准确率。

附图说明

图1是本发明的一个实施例中的一种跨设备语音控制方法的流程图。

图2是本发明的一个实施例中的一种跨设备语音控制方法中步骤s30中根据注册语音数据进行音频指纹注册的流程图。

图3是本发明的一个实施例中的一种跨设备语音控制系统的模块示意图。

图4是本发明的一个实施例中的一种跨设备语音控制系统中语音映射模块的组成示意图。

图5是本发明的一个实施例中的一种跨设备语音控制系统中控制系统模块的组成示意图。

主要元件符号说明

100系统

110第一设备

120第二设备

130语音映射模块

131语音采集模块

132神经网络模块

140特征提取模块

150控制系统模块

151注册模块

152绑定模块

153匹配模块

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1，本发明提供了一种跨设备语音控制方法，所述方法包括：

步骤s10、采集多人在不同设备上的训练语音数据，构建训练数据集。

步骤s20、对所述训练语音数据进行预处理，提取出所述训练语音数据的mfcc特征以训练生成语音映射模型。

在本实施例中，所述mfcc特征为梅尔频谱倒谱系数特征mfcc(mel-frequencycepstralcoefficient)。梅尔频率是基于人耳听觉特性提出来的，它与赫兹hz频率成非线性对应关系。从说话人音频中提取mfcc特征一般包括以下步骤：预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，离散余弦变换(dct)等。其中预加重用于在一定程度提升高频部分，使信号的频谱变得平坦；分帧用于将语音按时间分成一系列帧；加窗步骤是采用窗函数增加帧左端和右端的连续性。接着，将音频进行傅里叶变换，从而将时域信号转换为频域信号。然后，利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上，从而获得梅尔频谱。之后，通过离散余弦变换获得梅尔频谱的倒谱系数，进而可以获得倒谱梅尔频谱。

进一步地，在进行机器学习及模型训练的过程中，输入数据为所述训练语音数据的mfcc特征，从而对所述语音映射模型中的判别器进行训练，完成对所述语音映射模型中的判别器进行参数固化，所述语音映射模型的预期输出数据为其他设备获取到对应的同一个人的语音数据。

步骤s30、获取从第一设备采集的注册语音数据，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，绑定用户id。

在本实施例中，所述注册语音数据为用户朗读的一段预设的提示文字。提取出所述注册语音数据的mfcc特征，进行音频指纹注册的过程，如图2所示具体包括：

步骤s31、对采集的所述注册语音数据进行去噪处理。

在本实施例中，对采集的所述注册语音数据进行去噪处理可以采用经验模态分解和小波阈值相结合的方法对注册语音数据进行去噪处理，具体过程为：首先，采用经验模态分解方法对注册语音数据进行自适应分解，得到若干个本征模函数分量，其中，若干个本征模函数分量中包括注册语音数据的信号和噪声；其次，对本征模函数分量进行分析，从而确定含有噪声的高频本征模函数分量，采用小波阈值法对高频本征模函数分量进行去噪处理；最后，将去噪后的高频本征模函数分量和剩余的非高频本征模函数分量相加重构出初始的注册语音数据，从而得到去噪后的注册语音数据。

步骤s32、将所述注册语音数据分割成整数份语音。

在本实施例中，将所述注册语音数据平均分割成整数份语音，以便于对注册语音数据进行验证和处理。其中，可以将注册语音数据平均分割成10份、15份、20份、25份或者30份，可以删除一些有干扰的语音数据，一次采集语音就可以完成音频指纹注册。

步骤s33、分别提取所述整数份语音的mfcc特征，根据所述mfcc特征计算得到每一份语音的特征语音向量。

在本实施例中，提取到所述整数份语音的mfcc特征后，通过简化模型算法简化处理整份语音中每一份语音的mfcc特征，得到简化语音特征，再将简化语音特征投影到总体变化空间后，可得到更为纯净和简单的特征语音向量。

步骤s34、将每一份所述语音的特征语音向量进行对比，筛选出对比的差值大于预设向量阈值的特征语音向量，生成筛选特征语音向量。

在本实施例中，通过信道补偿算法，获取每一份语音的特征语音向量的频率和信道属性，对频率除以信道属性值的值取对数，然后分别对每一份所述语音对应的取对数后数值进行比较。当两两比较的语音的特征语音向量通过计算对数似然比，比较特征语音向量计算后的对数值之间的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量。例如当10份语音的特征语音向量计算后的对数数值为9、9.2、9.1、9.2、9.1、9.2、9.1、9.2、9.2和9.6时，则删除对数数值为9.6对应的特征语音向量(即为筛选特征语音向量)。

步骤s35、在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行音频指纹注册。

在本实施例中，在注册语音数据中删除筛选特征语音向量对应的整数份语音，生成注册语音，对注册语音进行音频指纹注册。然后，将所述注册语音与现有的用户id进行绑定，或者根据所述注册语音生成新的用户id。

步骤s40、获取从第二设备采集的操作指令语音数据，提取出所述操作指令语音数据的mfcc特征，并输入到所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id。

在本实施例中，通过将提取出的所述操作指令语音数据的mfcc特征输入以训练生成的语音映射模型中数据输入端，所述语音映射模型对所述操作指令语音数据的mfcc特征进行映射处理，所述语音映射模型中数据输出端输出相对应的注册语音数据，从而识别并获取对应的用户id，实现验证注册用户与指令发出用户是否为同一人。

步骤s50、根据所述操作指令语音数据，完成对所述用户id对应的第一设备相应的语音控制。

在本实施例中，对第一设备中的应用软件进行分类，并将分类信息及浏览历史记录导入对应的用户id；在识别出对应的用户id之后，读取所述用户id的应用软件分类信息和浏览历史数据，进行内容推荐。例如，将第一设备中所有应用软件按照其使用功能分为聊天社交软件、视频播放软件、音频播放软件、浏览器软件，并将各个应用软件的浏览或播放历史数据导入对应的用户id，当用户通过第二设备获取语音控制指令“打开最近播放的音乐”，识别到对应的用户id后，控制第一设备从音频播放软件分类中寻找播放历史数据，然后打开相应的具体音频播放软件并播放最近播放的音乐文件。

本发明提供了一种跨设备语音控制方法，首先获取从第一设备采集的注册语音数据，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，绑定用户id；然后获取从第二设备采集的操作指令语音数据，提取出所述操作指令语音数据的mfcc特征，并输入到预先训练生成所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id；最后根据所述操作指令语音数据，完成对所述用户id对应的第一设备相应的语音控制，实现了跨设备间的语音控制，给用户提供更好的使用体验；另外，通过训练生成语音映射模型，实现操作指令语音数据映射对应注册语音数据，能够屏蔽不同语音设备之间的差异，提高跨设备语音识别的准确率。

请参阅图3，作为对上述各图示所示的方法的实现，本发明提供一种跨设备语音控制系统，所述系统100包括第一设备110、第二设备120、语音映射模块130、特征提取模块140和控制系统模块150。图3仅示出了所述系统的部分模块，但是应理解的是，并不要求实施所有示出的模块，可以替代的实施更多或者更少的模块。

所述第一设备110，用于采集注册语音数据。

所述第二设备120，用于采集操作指令语音数据。

在本实施例中，所述第一设备110和/或第二设备120可以为智能音箱、智能手表、智能手机、平板电脑、笔记本电脑、台式电脑等电子产品，也可以为智能空调、智能冰箱、扫地机器人、智能洗衣机等智能家居电器。所述第一设备110和/或第二设备120包括用于收录声音的麦克风硬件。

所述语音映射模块130，用于采集多人在不同设备上的训练语音数据，构建训练数据集，并提取出所述训练语音数据的mfcc特征以训练生成语音映射模型。

在本实施例中，如图4所示，所述语音映射模块130包括语音采集模块131和神经网络模块132。所述语音采集模块131用于采集多人在不同设备上的训练语音数据，构建训练数据集；所述神经网络模块132中预设语音映射模型，用于对输入的操作指令语音数据的mfcc特征进行处理，输出相对应的所述注册语音数据的mfcc特征。

进一步地，所述语音映射模型在在进行机器学习及模型训练的过程中，输入数据为所述训练语音数据的mfcc特征，从而对所述语音映射模型中的判别器进行训练，完成对所述语音映射模型中的判别器进行参数固化，所述语音映射模型的预期输出数据为其他设备获取到对应的同一个人的语音数据。

所述特征提取模块140，用于提取出所述注册语音数据或操作指令语音数据或训练语音数据的mfcc特征。

所述控制系统模块150，用于根据所述注册语音数据的mfcc特征，对第一设备110进行音频指纹注册，绑定用户id。

所述控制系统模块150还用于将所述操作指令语音数据的mfcc特征输入到所述语音映射模型中，映射到通过所述第一设备110注册的音频指纹，识别出对应的用户id，完成对所述用户id对应的第一设备110相应的语音控制。

在本实施例中，如图5所示，所述控制系统模块150包括注册模块151、绑定模块152和匹配模块153。

所述注册模块151，用于根据所述注册语音数据，对第一设备110进行音频指纹注册。

进一步地，所述注册模块151进行音频指纹注册的过程具体包括：首先将所述注册语音数据分割成整数份语音，例如平均分割成10份、15份、20份、25份或者30份；分别提取所述整数份语音的mfcc特征，根据所述mfcc特征计算得到每一份语音的特征语音向量；将每一份所述语音的特征语音向量进行对比，筛选出对比的差值大于预设向量阈值的特征语音向量，生成筛选特征语音向量；最后在注册语音数据中删除所述筛选特征语音向量对应的整数份语音，生成注册语音，并对注册语音进行音频指纹注册。

所述绑定模块152，用于将所述注册语音数据与现有的用户id相关联绑定，或者根据所述注册语音数据生成新的用户id并相关联绑定。

所述匹配模块153，用于接收语音映射模型输出的音频指纹，匹配所述注册语音数据，以确定对应的用户id。

在本实施例中，可以对第一设备110中的应用软件进行分类，并将分类信息及浏览历史记录导入对应的用户id；在识别出对应的用户id之后，读取所述用户id的应用软件分类信息和浏览历史数据，进行内容推荐。例如，将第一设备110中所有应用软件按照其使用功能分为聊天社交软件、视频播放软件、音频播放软件、浏览器软件，并将各个应用软件的浏览或播放历史数据导入对应的用户id，当用户通过第二设备120获取语音控制指令“打开最近播放的音乐”，识别到对应的用户id后，控制第一设备110从音频播放软件分类中寻找播放历史数据，然后打开相应的具体音频播放软件并播放最近播放的音乐文件。

本发明提供了一种跨设备语音控制系统，首先获取从第一设备采集的注册语音数据，提取出所述注册语音数据的mfcc特征，进行音频指纹注册，绑定用户id；然后获取从第二设备采集的操作指令语音数据，提取出所述操作指令语音数据的mfcc特征，并输入到预先训练生成所述语音映射模型中，映射到通过所述第一设备注册的音频指纹，识别出对应的用户id；最后根据所述操作指令语音数据，完成对所述用户id对应的第一设备相应的语音控制，实现了跨设备间的语音控制，给用户提供更好的使用体验；另外，通过训练生成语音映射模型，实现操作指令语音数据映射对应注册语音数据，能够屏蔽不同语音设备之间的差异，提高跨设备语音识别的准确率。

本发明还提供一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述一种跨设备语音控制方法中的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述一种跨设备语音控制方法中的步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。