一种基于多声学模型的防误唤醒方法及语音识别模组与流程

2021-01-28 13:01:34|

255|

起点商标网

本发明属于语音识别技术领域，具体涉及一种基于多声学模型的防误唤醒方法及语音识别模组。

背景技术：

随着日渐增多的人机交互需要，语音识别相关的应用在生活中越来越多。在逐渐成熟的语音交互中，人们开始更多的追求对语音识别的舒适感，追求语音识别的准确性。语音识别是通过语言模型和声学模型的匹配，从而达到识别。

由于当下绝大部分的语音识别都是基于单个声学模型与单个语言模型的匹配识别，其会存在较大的误唤醒情况，例如在英文模型当中，由于只将部分英文语料在训练时标注成垃圾词，会导致在中文环境下，某些与英文命令词发音相近的中文词会被英文模型误识别为英文命令词，从而识别做出相应。而现有技术的解决办法为扩充训练英文声学模型所需的垃圾词库，这种方法可以解决英文模型在英文环境下的误唤醒情况，也可以给中文环境下的英文模型的误识别情况带来改善，但仍然不能有效的解决问题。

技术实现要素：

为克服现有技术存在的技术缺陷，本发明公开了一种基于多声学模型的防误唤醒方法及语音识别模组。

本发明所述基于多声学模型的防误唤醒方法，包括如下步骤：

s1.分别选取训练多个不同语言的声学模型所需的语言语料；其中在训练不同声学模型对应的语言语料中均应包含命令词语料；

s2.对语料进行处理，其中命令词语料对应的命令词的发音在多个语言模型下的发音相同或相似；

s3.利用处理后的语料分别对对应的声学模型进行训练；

s4.将训练后的声学模型与语言模型打包形成不同语言的语音识别固件并烧录到语音识别模组中；

s5.具体识别过程中，语音识别模组将待识别的音频同时输入多个语音识别固件，当多个语音识别固件同时识别出为命令词时，语音识别模组判定为命令词并执行命令；

未同时识别出为命令词，则认为不是命令词。

具体的，针对两种不同语言，具体包括如下步骤：

s11.分别选取训练第一、第二声学模型所需的语料；其中在训练不同声学模型对应的语言语料中均应包含命令词语料；

s21.对语料进行处理，其中命令词的发音在第一、第二语言模型下的发音相同或相似；

s31.利用处理后的两种语言语料分别对第一声学模型和第二声学模型进行训练；

s41.将训练后的声学模型与语言模型打包形成第一语音识别固件和第二语音识别固件并烧录到语音识别模组中；

s51.具体识别过程中，语音识别模组将待识别的音频同时输入第一语音识别固件和第二语音识别固件，当第一语音识别固件和第二语音识别固件同时识别出为命令词时，语音识别模组判定为命令词并执行命令；

未同时识别出为命令词，则认为不是命令词；

所述第一声学模型、第一语言模型、第一语音识别固件针对两种不同语言中的一种语言，第二声学模型、第二语言模型、第二语音识别固件针对两种不同语言中另一种语言。

优选的，所述s11步骤中训练第一、第二声学模型所需的语料不同。

优选的，所述s3步骤中训练为采用kaldi方式进行训练。

本发明还公开了一种基于多声学模型的语音识别模组，包括不同语言的语音识别固件，所述不同语言的语音识别固件具备以下功能：所有命令词在全部语音识别固件中均被赋予发音并标记为命令词，所述语音识别模组还包括对命令词进行判断的命令词判断模块，所述命令词判断模块的判断方法为：所有语音识别固件均识别出命令词，才判断是命令词，否则认为不是命令词。

采用本发明所述基于多声学模型的防误唤醒方法及语音识别模组，通过训练两种不同语言的语音识别固件同时进行语音识别，可以有效避免由于谐音导致的非命令词误识别为命令词，且不会影响命令词的正常识别。

附图说明

图1为利用本发明所述语音识别固件的一种具体构建方式示意图;

图2为本发明中对语音信号进行具体识别的一种具体实施方式示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于多声学模型的防误唤醒方法，包括如下步骤：

s1.分别选取训练多个不同语言的声学模型所需的语言语料；其中在训练不同声学模型对应的语言语料中均应包含命令词语料；

s2.对语料进行处理，其中命令词语料对应的命令词的发音在多个语言模型下的发音相同或相似；

s3.利用处理后的语料分别对对应的声学模型进行训练；

s4.将训练后的声学模型与语言模型打包形成不同语言的语音识别固件并烧录到语音识别模组中；

未同时识别出为命令词，则认为不是命令词。

具体在两种语言的最简单方式下，包括如下步骤。

s11.分别选取训练第一、第二声学模型所需的语料；其中在训练不同声学模型对应的语言语料中均应包含命令词语料；

s21.对语料进行处理，其中命令词的发音在第一、第二语言模型下的发音相同或相似；

s31.利用处理后的两种语言语料分别对第一声学模型和第二声学模型进行训练；

s41.将训练后的声学模型与语言模型打包形成第一语音识别固件和第二语音识别固件并烧录到语音识别模组中；

所述第一声学模型、第一语言模型、第一语音识别固件针对两种不同语言中的一种语言，第二声学模型、第二语言模型、第二语音识别固件针对两种不同语言中另一种语言；

如图1所示，上述步骤完成对语音识别模组的构建，步骤s51完成具体的识别过程。

步骤s51具体识别过程中，语音识别模组将待识别的音频同时输入第一语音识别固件和第二语音识别固件，当第一语音识别固件和第二语音识别固件同时识别出为命令词时，语音识别模组判定为命令词并执行命令；

未同时识别出为命令词，则认为不是命令词。

以两种最常见的中英文为例，即第一声学模型、第一语言模型和第一语音识别固件对应语言为中文；第二声学模型、第二语言模型和第二语音识别固件对应语言为英文。

可以选择其他语言，也可以继续增加语言种类，只要存在两种以上语言对于某个有意义的词语发音类似，即可参照本发明进行识别。

步骤s11基于应用语境，分别选取训练英文、中文声学模型所需的语料；

训练英文和中文声学模型所需的语料可以相同，但最好不同，不同的语料训练可以扩充垃圾词库，可更好的降低误唤醒率；

在训练不同模型的语料中均应包含命令词语料；

步骤s21对语料进行处理，并根据中文、英文词库，生成相应的中文语言模型和英文语言模型，其中命令词的发音在中、英文语言模型下的发音相同或相似；

例如对应英文命令词start，在中文声学模型中，对其发音用汉语拼音标注为sidate，可以增加声调标注，三个音节分别为一声、四声、轻声。

步骤s31利用处理后的语料对英文声学模型和中文声学模型进行训练；

所述步骤s3或s31中训练可以采用kaldi方式进行训练。训练出需要的英文模型和中文模型，kaldi是一款主要用c++语言编写，是用shell、python和perl来作为胶水进行模型训练的语音识别工具，完全免费开源且可以快速训练语音识别模型。

步骤s41将训练后的声学模型与语言模型打包形成第一语音识别固件和第二语音识别固件并烧录到语音识别模组中；

通过上述过程，可以得到一种基于双声学模型的语音识别模组，内部具有所述第一语音识别固件和第二语音识别固件，还包括命令词判断模块，所述命令词判断模块的判断方法为：所述第一和第二语音识别固件均识别出命令词，才判断是命令词，否则认为不是命令词，具体判断逻辑如图2所示。

具体的识别过程中，语音识别模组将待识别的音频同时输入中文语音识别固件和英文语音识别固件，

当中文语音识别固件和英文语音识别固件同时识别出命令词时，语音识别模组的命令词判断模块判定为命令词并执行命令；

未同时识别，包括两个固件均未识别出，或仅一个固件识别出而另一个固件未识别出，均认为不是命令词。

本发明主要针对一些中文词语发音与英文命令词近似，或英文词语与中文命令词发音近似造成的误识别现象。

例如英文命令词warmer，用于作为加热的命令词，与中文常用词“我们”发音近似，在听到“我们”发音时，容易被英文语音识别固件识别成命令词“warmer”。

训练时，warmer被确定为命令词，在英文语言模型中存储有相应的发音，同时在中文语言模型中使用中文发音规则对该英文词“warmer”赋予一个相似的发音例如“womener”，使该发音与“warmer”英文发音类似。

而“我们”不是命令词，在中文语言模型中虽然具有其发音，但在英文语言模型中没有赋予相似发音。

当用户发出warmer发音时，在中文语言模型和英文语言模型都有相同或相似发音，分别可以被中文语音识别固件和英文语音识别固件同时识别，从而判定为命令词。

而用户发出“我们”时，由于“我们”不是命令词，即使可能被英文语音识别固件误识别为“warmer”命令词，但在中文语音识别固件中识别出该词并非命令词，且由于“我们”本来就是中文发音，中文语音识别固件更容易识别且识别结果更准确，用于中文语音识别固件对其识别出不是命令词，则不会判断为命令词或认定为垃圾词。

可以选择其他语言，也可以继续增加语言种类，只要存在两种以上语言对于某个有意义的词语发音类似，即可参照本发明进行识别。

本发明中，对不同语言模型训练采取的语料是不完全相同的，仅对于命令词部分的语料是相同的，而对于非命令词或垃圾词的部分是不同的。例如英文环境下，有的词可能在训练时没有覆盖到，或者某些词汇在英文环境下不会发生连用，而在当模型放到中文环境下后，某些英文非命令词的发音与中文命令词发音近似，从而导致误唤醒。当采取两种语言模型同时识别之后，在中文环境下的这一部分误唤醒的词，则会被界定为垃圾词，在两种语言模型下由于中文模型的判定会与英文模型不同，从而避免单一模型识别下误唤醒的发生。

本发明公开了一种基于多声学模型的语音识别模组，包括了采用如前所述的方法形成的不同语言的语音识别固件，所述不同语言的语音识别固件具备以下功能：所有命令词在全部语音识别固件中均被赋予发音并标记为命令词，所述语音识别模组还包括对命令词进行判断的命令词判断模块，所述命令词判断模块的判断方法为：所有语音识别固件均识别出命令词，才判断是命令词，否则认为不是命令词。命令词判断模块为软件模块，对各个语音识别固件的识别结果进行汇总，各个固件对当前语音信号全部识别为命令词的，命令词判断模块才认为是命令词，否则认为不是命令词。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除