一种基于嵌入式设备的少数民族语音合成系统的制作方法
本实用新型属于语音处理技术领域,涉及一种基于嵌入式设备的少数民族语音合成系统。
背景技术:
远程服务是指利用网络技术实现不同地域、不同设备上的设备信息交互的一种方式,这种服务方式具有即时性、灵活性以及实用性,远程服务技术让用户可以方便地使用移动设备通过网络访问远程服务器或远程服务器集群中的数据。
语音合成技术是通过计算机或其他设备对人类语音进行模拟,将文本信息转换为音频信息的一种技术,主要应用于语音服务和移动设备之类的应用中,目前语音合成的主流方法一般使用端到端的深度神经网络将文本转换为语音。
科大讯飞等公司均推出了自己的中文普通话语音合成远程服务,在远程服务技术应用越来越广泛的背景下,少数民族语言的语音合成服务存在着较大的技术应用空白,尤其是少数民族语音合成装置方面技术应用不充分,同时目前市面上存在的一些少数民族语言合成技术存在开发成本高,语种不全面等问题。
技术实现要素:
本实用新型的目的在于针对现有技术存在的问题,提供一种基于嵌入式设备的少数民族语音合成系统,能够实现少数民族语言文本到语音的转换功能。
为此,本实用新型采取以下技术方案:
一种基于嵌入式设备的少数民族语音合成系统,包括终端、客户端路由器、服务器端路由器和服务器,其中,终端、客户端路由器、服务器端路由器和服务器依次信息连接,且客户端路由器和服务器端路由器通过因特网进行信息交互。
进一步地,终端采用嵌入式设备,服务器采用装有高算力显卡的运算设备,所述终端包括:
存储器单元,所述存储器单元包括nand闪存、同步动态随机存取内存和可擦除可编程只读存储器;
音频播放单元,所述音频播放单元包括wm8960音频芯片、扬声器和耳机接口;
处理单元,所述处理单元采用armcortex-a9架构的处理器;
指令输入单元,所述指令输入单元包括lcd显示屏和usb键盘;
和通信单元,所述通信单元包括蓝牙wifi二合一模块及其外围电路。
进一步地,所述处理单元分别与存储器单元、音频播放单元、指令输入单元和通信单元连接。
本实用新型的有益效果在于:
本实用新型通过嵌入式设备实现了少数民族语音合成功能,具有良好的扩展性,支持多种不同的少数民族语言,在多种嵌入式设备上具有良好的可移植性,并且通过使用服务器高效的计算能力进行语音合成,解决了嵌入式设备处理器主频低下计算能力不足的问题,合理分配了语音合成装置的资源,提升了语音合成的速度和效率,同时在较低的功耗条件下,提升了装置的便携性,填补了藏语,彝语等多种少数民族语言合成服务在移动设备上应用的空白,能够有效增强不同民族间的民族文化交流。
附图说明
图1为本实用新型的系统架构示意图;
图2为本实用新型的结构示意图;
图3为本实用新型的指令操作流程图;
图4为本实用新型的硬件结构示意图。
图中,1-终端,11-指令输入单元,12-文本分析单元,13-远程传输单元,2-客户端路由器,3-因特网,4-服务器端路由器,5-服务器,51-语音合成单元,511-第一神经网络单元,512-第二神经网络单元,52-语音播放单元,53-语料库,54-语音合成单元训练装置,6-arm处理单元9,7-显示单元,8-音频播放单元,9-通信单元,10-存储器单元,11-电源单元。
具体实施方式
本实用新型提供了一种基于嵌入式设备的少数民族语音合成系统,是一种能够在嵌入式设备上实现藏语、彝语等多种少数民族语言合成操作的装置。
下面结合附图与实施方法对本申请的技术方案进行相关说明。
如图1所示,本实用新型的系统架构包括终端1、客户端路由器2、因特网3、服务器端路由器4和服务器5,其中,客户端路由器2用来对终端1信息进行中转,因特网3提供服务器5与终端1交互的基本环境,服务器端路由器4实现网络地址转换(nat)功能,将服务器局域网地址转换为公网地址,达成与因特网3的连接,服务器5实现文本分析和语音合成功能,并将合成语音通过因特网3传送到终端1。
在本实用新型实例中,终端1为嵌入式设备,终端1包括但不限于个人用户电脑、手机、平板、带有显示功能的嵌入式开发板等;服务器5为装有高算力显卡且运行配置了相应的少数民族语音合成服务的运算设备,语音合成服务可调用目前现有的语音合成api接口,也可以使用本地自行设计的语音合成程序,如基于attention算法的端到端语音合成程序,在使用本地服务时,该程序启动将自动监听某个指定的端口,如果有终端1发送文本到服务器5的服务监听端口,则通过该程序对文本进行文本分析、语音合成、返回语音文件等,另外,客户端路由器2在用户使用3g/4g/5g网络的时候是可以省略的。
如图2所示,本实用新型终端1包括指令输入单元11,指令输入单元11用于提供用户输入少数民族文字,选择不同的合成接口,并执行处理操作;进一步地,指令输入单元11除了包括中文、安多藏语、卫藏语、康巴藏语、彝语等语言的接口选择,还包括音量、语速、说话人性别的调整功能。
文本分析单元12,用于对少数民族文字进行处理,剔除不规范符号,获取规范化待合成文本。
远程传输单元13,用于将用户输入的信息通过因特网3传输到服务器5对应的端口进行合成,也可以将合成的语音文件传输到终端1。
服务器5包括语音合成单元51,语音合成单元51对远程传输单元13传输的少数民族语言文本进行合成;其中,语音合成单元51是基于一种端到端的神经网络,包括第一神经网络单元511与第二神经网络单元512,进一步地,第一神经网络单元511为编码单元,用于将输入字符序列转化为词向量,并通过训练模型学习语料库53中的每个字的词向量,优选地,采用循环神经网络或长短时记忆网络等神经网络;第二神经网络单元512为注意力的解码单元,用于输出每个词向量对应的声学特征,优选地,采用带有注意力机制的循环神经网络、双向长短期记忆网络或长短时记忆网络等现有的神经网络。
语音播放单元52,通过板载音频解码芯片对接收到的语音文件进行解码,并通过嵌入式设备内置扬声器播放或者通过外接耳机、音箱设备进行音频播放。
服务器5还包括含有多种少数民族语言的语料库53和语音合成单元训练装置54,其中,语料库53包括每一句语音所对应的语音文本和语料信息存储装置,语料信息存储装置为一种计算机可读存储介质,其功能为存储语音文件及其对应文本信息。
语音合成单元训练装置54执行一种基于深度学习的方法,该深度学习方法为包含卷积且具有深层结构的前馈神经算法,其输入部分为文本序列,输出部分为语音声学特征,具体地,语音合成单元训练装置54通过大容量内存和高算力显卡为训练模型提供硬件支持,将文本转化为字向量,令每个字向量对应一个固定标识号,并使用字向量作为模型的输入,提取音频特征进行模型的训练,通过编码解码和多层神经网络完成对相邻帧的预测,学习文本与语音频谱直接的映射关系,更新模型中的参数,将获取到的语音合成模型保存到语音合成单元51。
本实用新型在使用时,用户通过安装在终端1上的访问界面来进行接口选择和合成文本的输入与发送,服务器端5则进行文本处理和语音合成并将合成的少数民族语音文件发送回对应的终端1,服务器5与终端1之间通过socket接口进行数据交互,服务器端5先初始化socket,绑定对应语音服务端口,对指定端口进行监听,在此时如果客户端初始化一个socket连接服务器该端口,如果连接成功,客户端就可以发送文本信息,服务器端接收并处理,客户端接收合成的语音文件,最后断开连接完成一次数据传输流程。如图3所示,具体流程如下:
第一步,通过指令输入单元11选择想要合成的民族语言接口;
第二步,使用虚拟键盘输入待合成文本;
第三步,终端1将合成文本通过远程传输单元13发送到服务器5;
第四步,服务器5对接收到的文本进行文本分析处理,使文本规范化,如果检测到异常字符则报错,客户端提示重新输入文本,若无异常字符,则去除或替换指定的符号,让文本只保留对应的民族语言字符,再对文本进行分词处理,并将处理完毕的合成文本转化为文本特征序列输入语音合成单元51;
第五步,用语音合成单元51预先训练好的模型来进行对文本进行语音合成,提取文本的语言学特征输入到合成模型中得到对应的语音文件,将合成的语音文件保存到指定位置,并将该文件通过服务器路由器4发送至终端1;
第六步,终端1接收到音频文件后使用板载音频芯片wm8960对音频文件进行解码,最后将合成的语音在音频播放设备上进行播放。
如图4所示,本实用新型还提供一种嵌入式设备,该嵌入式设备包含图1和图2所示的少数民族语音合成系统,嵌入式设备包括arm处理单元6,arm处理单元6分别与显示单元7、音频播放单元8、通信单元9、存储器单元10和电源单元11连接,其中:
arm处理单元6,采用armcortex-a9架构的处理器,该处理器通过对应的存储器管理单元10(mmu)与flash存储器和sdram存储器相连,通过i2c和i2s总线与音频单元相连,使用spi总线和外设进行数据交换。
显示单元7,采用mipi接口液晶显示屏,该屏幕带有触控功能,其中显示单元7支持虚拟键盘输入功能,无需另外添加键盘单元,使用户能够通过图形界面和虚拟键盘完成在终端的操作,mipi接口的优势在于更低的功耗、更高的数据传输率和更小的pcb占位空间,更适合移动装置的需求,便于用户在语音合成界面合成文本的输入、合成下载操作的执行。
音频播放单元8,包括wm8960音频芯片、扬声器和耳机/麦克风接口;其中,wm8960音频芯片通过i2s总线与cpu进行数据传输,cpu通过i2c总线对wm8960音频芯片进行控制,音频播放单元8通过接口外接耳机以及音箱等外部音频播放设备进行语音的播放。
通信单元9,采用蓝牙/wifi二合一单元通过因特网和服务器进行数据交互,具体地,采用rl-um02wbs-8723bu-v1.2芯片,该芯片具有拓展性高,价格低廉的优点,该单元也可以替换为3g/4g/5g单元和以太网网口单元;存储器单元10包括nand闪存、同步动态随机存取内存(sdram)和可擦除可编程只读存储器(eprom),存储器单元10通过arm处理单元6的调用来运行软件程序,进行文件操作以及执行指令;电源单元11用于对上述各单元供电。
在国内,少数民族语言的语音合成服务存在着较大的技术应用空白,尤其是少数民族语音合成装置方面技术应用不充分。目前市面上存在的一些少数民族语言合成技术存在开发成本高,语种不全面等问题,本实用新型通过以嵌入式设备建立客户端,利用实验室本地服务器搭建远程服务端的形式,在嵌入式设备上实现了远程少数民族语音合成功能。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除