基于树莓派边缘计算的中文语音交互无感控制系统和方法与流程

2021-01-28 16:01:25|

359|

起点商标网

本发明属于计算机技术领域，涉及语音识别技术，具体涉及一种基于树莓派边缘计算的中文语音交互无感控制系统和方法。

背景技术：

语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来；之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

语音合成，又称文语转换(texttospeech,tts)，是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。

对于后端系统中的参数合成而言，该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模，在合成阶段通过时长模型和声学模型预测声学特征参数，对声学特征参数做后处理，最终通过声码器恢复语音波形。该方法可以在语音库相对较小的情况下，得到较为稳定的合成效果。缺点在于统计建模带来的声学特征参数“过平滑”问题，以及声码器对音质的损伤。

对于后端系统中的拼接合成而言，训练阶段与参数合成基本相同，在合成阶段通过模型计算代价来指导单元挑选，采用动态规划算法选出最优单元序列，再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段，可以最大限度保留语音音质；缺点是需要的音库一般较大，而且无法保证领域外文本的合成效果。

传统的语音合成系统，都是相对复杂的系统，比如，前端系统需要较强的语言学背景，并且不同语言的语言学知识还差异明显，因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解，由于传统的参数系统建模时存在信息损失，限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高，同时需要人工介入制定很多挑选规则和参数。

这些都促使端到端语音合成的出现。端到端合成系统直接输入文本或者注音字符，系统直接输出音频波形。端到端系统降低了对语言学知识的要求，可以很方便在不同语种上复制，批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。

现有的缺语音交互系统缺点是：

1.模型太大，难以部署在算力有限的移动端。

2.识别为泛化结果，存在识别误差，对语音控制准确度不够，鲁棒性差。

3.架构不灵活，大部分为云端架构。

4.私有化部署成本高昂。

技术实现要素：

针对现有技术存在的不足，本发明目的在于提供一种基于树莓派边缘计算的中文语音交互无感控制系统和方法，实现在恶劣环境下进行中文语音识别交互的功能，解决恶劣条件下语音识别与语音合成技术鲁棒性差，模型体积大，识别准确率低的问题。

为实现上述目的，本发明采用如下技术申请：

基于树莓派边缘计算的中文语音交互无感控制系统，包括边缘端、移动端、外接控制模块和边缘计算检测与调度模块；

边缘端采用x86服务器，包括用于语音识别和合成的边缘语音识别api和边缘语音合成api；

移动端设备采用树莓派结构，包括具有远场语音采集的功能麦克风，树莓派结构设置有移动端语音识别模块和移动端语音合成模块；移动端部署的语音识别和合成模型其是经过模型压缩过的模型，其模型体积与所需算力远小于边缘端的设备；

外接控制模块，采用i2c总线通讯方式用于与外接设备接口相连接；

边缘计算检测与调度模块，当检测到移动边缘服务器时发送链接请求，形成边-端架构，经过身份认证后将移动端语音识别与语音合成模型功能屏蔽，调用边缘端的识别与合成接口，当边缘服务器远离移动设备时或网络通信不畅其延迟达到阈值后启动移动端部署的语音交互模型，同时监听边缘服务器的接口信号，已期待下一个边缘服务的到来。

进一步，所述边缘语音识别api采用深度残差门控卷积神经网络进行语音识别。

进一步，所述边缘语音合成api采用aishell开源中文语音数据进行训练，实现中文语音合成的目的。

进一步，所述移动端语音识别模块部署的传统语音识别模型，首先采用倒谱系数等提取声音波形的特征，而后与输入的汉语拼音进行隐马尔可夫模型匹配，将打分最高的单词进行匹配，并输出控制信号，同时控制语音合成模块返回提示声音。

进一步，所述移动端设备语音合成模块采用传统语音合成模型：首先，应用音库进行hmm模型的训练，而后对要输出的文本进行分析，形成音素的hmm推测，对音频片段拼接后形成最终生成的语音。

进一步，所述麦克风采用4-mic麦克风阵列。

针对恶劣环境下的基于树莓派边缘计算的中文语音交互无感控制方法：

网络状况良好时，边缘计算检测与调度模块上传下载速率大于可使用阈值后，启动边缘计算模式，移动端部署的语音识别与语音合成模块任务卸载到边缘端，边缘端服务器api启动，循环检测移动端发来的智能语音识别与语音合成的请求；当获得请求后，完成对语音的识别，输出语音识别字符，将识别结果返回给移动端，完成移动端的语音识别请求，而后边缘端根据识别结果执行不同的功能；

当网络状况恶劣时，边缘计算检测与调度模块启用移动端部署的本地语音识别与语音合成模块，完成语音识别与语音合成的功能由本地完成，当边缘端需要调用语音识别模块时，通过树莓派外接的麦克风采集声音波形，而后经过语音信号预处理形成频谱图；

当网络状况适中时，由边缘计算检测与调度模块判断网络的延迟情况，选择最优的调度策略，选择使用本地的语音识别功能或边缘端的语音合成功能。

进一步，移动端部署的语音识别与语音合成模块任务卸载到边缘端，边缘端服务器获得请求后，由api网关解析数据，并将语音数据输入门控卷积神经网络模型，模型首先通过语音信号处理函数将波形转换成语音特征，即频谱图，而后模型使用卷积神经网络对频谱图进行卷积操作，卷积结果通过门控机制进行加权后输入ctc网络，ctc网络对其进行解码后经过softmax层完成对语音的识别，输出语音识别字符。

本发明的有益效果：

本发明的语音识别模型与语音合成模型的模型体积小，可实现边缘计算，可离线工作，直接部署在移动端设备中。

本发明的针对恶劣环境下的基于树莓派边缘计算的中文语音交互无感控制系统和方法，系统采用高鲁棒性的中文语音交互模型部署架构，不依赖网络，在离线情况下可实现语音合成与语音识别的功能，解决网络不通畅或者遭受攻击等恶劣条件下语音识别和交互功能实现在恶劣环境下进行中文语音识别交互的功能。，

结合边缘计算架构实现边缘端在线时进行计算卸载与移动端运行的灵活部署架构，当边缘端离线时实现本地计算的语音模型部署。

硬件平台采用树莓派，方便的集成各种物联网设备，快速实现无感控制。

克服采用深度神经网络进行端到端识别大模型只能采用云端架构的弊端，大大提高鲁棒性，小样本、小模型、小任务场景，解决现有语音合成技术鲁棒性差，模型体积大，识别准确率低的问题。

附图说明

图1是本发明的模型架构图

具体实施方式

下面结合具体实例对本发明作进一步详细描述，但不作为对本发明的限定。

本发明的基于树莓派边缘计算的中文语音交互无感控制系统包括边缘端、移动端、外接控制模块和边缘计算检测与调度模块；下面从硬件系统组成、软件系统组成、系统运行流程三个方面进行阐述：

如图1所示，硬件系统以树莓派为移动控制端与物联网接口设备，包括语音设备模块和语音合成模块，具有与市场上其他物联网模块接口通用的优点，外接控制模块，采用i2c总线通讯方式，与无人机、智能家居接口相连接；边缘端采用x86边缘服务器，通过基于端到端的深度神经网络masr识别语音，通过端到端的tts深度学习模型tacotron进行语音合成，边缘端服务器配置api网关。语音输入麦克风采用4-mic麦克风阵列，具有远场语音识别的功能。

软件系统组成

边缘计算检测与调度模块

当检测到移动边缘服务器时，发送链接请求，形成边-端架构，经过身份认证后将本地语音识别与语音合成模型功能屏蔽，调用边缘端的识别与合成接口，同时，可采取声学模型使用本地化模型，语言模型采用边缘端api的灵活调度模式，将算力做一个最优的均衡，达到大大减少本地资源消耗的目的；当边缘服务器远离移动设备时或网络通信不畅其延迟达到阈值后启动本地部署的语音控制与交互模型。同时监听边缘服务器的接口信号，已期待下一个边缘服务的到来。

边缘语音识别api

本模型采用门控卷积神经网络进行语音识别，同时使用了开源预训练的语言模型，网络结构类似于facebook在2016年提出的wav2letter。但是使用的激活函数不是relu或者是hardtanh，而是glu(门控线性单元)。

边缘语音合成api

本模型参考开源项目tractron的网络架构，采用aishell开源中文语音数据进行了训练，实现中文语音合成的目的。

移动端设备语音识别模块

移动端设备采用传统语音识别模型：首先，采用倒谱系数等提取声音波形的特征，而后，与输入的汉语拼音进行隐马尔可夫模型匹配，将打分最高的单词进行匹配，并输出控制信号，同时控制语音合成模块返回提示声音等。

移动端设备语音合成模块

移动端设备采用传统语音合成模型：首先，应用音库进行hmm模型的训练，而后对要输出的文本进行分析，形成音素的hmm推测，对音频片段拼接后形成最终生成的语音。

系统运行流程

网络状况良好时，调度模块检测网络上传下载速率大于可使用阈值后，启动边缘计算模式，本地部署的语音识别与语音合成模块任务卸载到边缘端，边缘端服务器api启动，循环检测移动端发来的智能语音识别与语音合成的请求。当获得请求后，由api网关解析数据，并将语音数据输入门控卷积神经网络模型，模型首先通过语音信号处理函数将波形转换成语音特征，即频谱图，而后模型使用卷积神经网络对频谱图进行卷积操作，卷积结果通过门控机制进行加权后输入ctc网络，ctc对其进行解码后经过softmax层完成对语音的识别，输出语音识别字符，将识别结果返回给移动端，完成移动端的语音识别请求，而后边缘端根据识别结果执行不同的功能，比如控制传感器与家具产品等，控制电机等。

语音合成同上：api网关经过解析，识别出需要合成的语音字符，而后经过词嵌入转化为向量后经过循环神经网络进行编码，而后通过注意力机制将编码向量经过解码器解码为语音的频谱特征向量，最后通过一层神经网络将频谱特征向量恢复成语音信号，而后传送给边缘端。

当网络状况恶劣时，调度模块启用移动端部署的本地语音识别与语音合成模块，由于其是经过模型压缩过的模型，其模型体积与所需算力远小于边缘端的设备。所以，此时完成语音识别与语音合成的功能由本地完成。当边缘端需要调用语音识别模块时，通过树莓派外接的麦克风采集声音波形，而后经过语音信号预处理形成频谱图。

由调度模块判断网络的延迟情况，由与不同模型所需要传输的数据量时不同的，所以需要选择最优的调度策略，比如使用本地的语音识别功能与边缘端的语音合成功能。

当网络状况适中时，由边缘计算检测与调度模块判断网络的延迟情况，选择最优的调度策略，选择使用本地的语音识别功能或边缘端的语音合成功能。

参照上述实施例对本发明进行了详细说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明要求范围当中。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。