一种语音输入方法、装置、电子设备及存储介质与流程

2021-01-28 15:01:22|

289|

起点商标网

本申请属于语音识别技术领域，特别的涉及一种语音输入方法、装置、电子设备及存储介质。

背景技术：

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，未来语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域，例如：在目前比较热门的手游市场，如大众常玩的文字游戏，游戏玩家在进行游戏闯关时，需要玩家在每个游戏关卡中自己输入对应的答案，才能完成游戏关卡。

然而，这种由游戏玩家手动输入答案的方式，需要通过玩家的双手输入对应的答案才能完成游戏关卡，而在游戏玩家双手被占用或对某些单词不会拼写的情况下，就无法完成游戏关卡，从而降低了游戏玩家的用户体验，无法满足更高的用户需求。

技术实现要素：

本申请提供了一种语音输入方法、装置、电子设备及存储介质，用以提高游戏玩家的用户体验，满足更高的用户需求。

一种语音输入方法，应用于语音输入系统的语音输入，该方法包括：

获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息；

将所述待识别语音信息输入至预设语音识别模型进行语音识别，以得到所述待识别语音信息对应的字符串文本，其中，构建所述预设语音识别模型的算法包含卷积神经网络和长短期记忆网络；

将所述字符串文本与预设数据库中的字符串进行匹配；

若匹配成功，则将所述字符串文本输入至所述语音输入系统，以实现语音输入。

进一步的，还包括：

若匹配不成功，则向所述语音输入系统发送匹配不成功对应的消息提醒信息，并将所述字符串文本删除。

进一步的，在将所述字符串文本输入至所述语音输入系统之后，还包括：

向所述语音输入系统发送匹配成功对应的消息提醒信息，并将所述字符串文本删除。

进一步的，在所述获取待识别语音之前，还包括：选取待输入字符串文本对应的位置信息；

则将所述字符串文本输入至所述语音输入系统，具体为：

将所述字符串文本输入至所述待输入字符串文本对应的位置信息所对应的位置上。

进一步的，所述构建所述预设语音识别模型的过程，具体为：

获取语音信息样本数据，所述语音信息样本数据中包括多种字符串信息的语音信息；

基于所述语音信息样本数据，采用卷积神经网络算法和长短期记忆网络算法对语音识别模型进行训练，得到所述预设语音识别模型。

一种语音输入装置，应用于语音输入系统的语音输入，该装置包括：

获取单元，用于获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息；

识别单元，用于将所述待识别语音信息输入至预设语音识别模型进行语音识别，以得到所述待识别语音信息对应的字符串文本，其中，构建所述预设语音识别模型的算法包含卷积神经网络和长短期记忆网络；

匹配单元，用于将所述字符串文本与预设数据库中的字符串进行匹配；

输入单元，若匹配成功，则用于将所述字符串文本输入至所述语音输入系统，以实现语音输入。

进一步的，还包括：

第一发送单元，若匹配不成功，则用于向所述语音输入系统发送匹配不成功对应的消息提醒信息，并将所述字符串文本删除。

进一步的，还包括：

第二发送单元，用于向所述语音输入系统发送匹配成功对应的消息提醒信息，并将所述字符串文本删除。

一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上述所述的语音输入方法。

一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述所述的语音输入方法。

与传统技术相比，本申请所述的语音输入方法、装置、电子设备及存储介质，应用于语音输入系统的语音输入，该方法包括：获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息；将所述待识别语音信息输入至预设语音识别模型进行语音识别，以得到所述待识别语音信息对应的字符串文本，其中，构建所述预设语音识别模型的算法包含卷积神经网络和长短期记忆网络；将所述字符串文本与预设数据库中的字符串进行匹配；若匹配成功，则将所述字符串文本输入至所述语音输入系统，以实现语音输入。本申请通过将语音识别进入到手游游戏中，将语音输入进行答案识别，代替玩家手动输入答案，来完成游戏关卡，帮助游戏玩家进行游戏，以实现提高游戏玩家的用户体验，满足更高的用户需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音输入系统结构示意图；

图2为本申请实施例提供的一种语音输入方法流程示意图；

图3～图8为本申请实施例提供的游戏界面各个状态下的显示示意图；

图9为本申请实施例提供的一种语音输入装置结构示意图；

图10为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

本申请提供的一种语音输入方法、装置、电子设备及存储介质，应用于如图1所示的语音输入系统中，如大众常玩的文字游戏，包括英文和中文，如单词、成语填词或者歇后语填词等)，该语音输入系统包括：语音输入装置10、语音识别装置20和语音输出装置30，其中，语音输入装置10接收用户输入的语音信息，通过语音识别装置20对用户输入的语音信息进行语音识别，得到语音识别结果，将语音识别结果通过语音输出装置30发送至文字游戏页面，从而完成游戏关卡。

本申请的发明目的在于：如何提高游戏玩家的用户体验，满足更高的用户需求。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图2所示，为本申请实施例提供的一种语音输入方法的流程示意图。如图2所示，本申请实施例提供的一种语音输入方法，应用于语音输入系统的语音输入，具体包括如下步骤：

s200：选取待输入字符串文本对应的位置信息。

在实际应用中，如手游中的单词填词的文字游戏中，游戏玩家先要选取待输入字符串文本对应的位置信息，该位置信息主要标识待输入字符串在游戏界面的位置，如图3所示。

s201：获取待识别语音信息，该待识别语音信息中包含至少一个字符串信息。

在实际应用中，如手游中的单词填词的文字游戏中，游戏玩家通过设置在游戏界面上的模式转换键进入语音输入模式，如图3所示，模式转换键设置在左下角位置，在本申请实施例中，模式转换键的具体位置可以根据用户的需求设置，在此不做具体的限定。游戏玩家在点击模式转换键后，游戏界面如图4所示，包括返回键盘界面的按钮、麦克风按钮以及其提示文字、倒计时显示(60s)，需要说明的是，当游戏玩家点击模式转换键时，设置一个模式转换提示音。当游戏玩家按下图4中的麦克风按钮时，就可以输入一段语音信息，游戏玩家输入的这段语音信息即为待识别语音信息，在本申请实施例中，当游戏玩家按下图4中的麦克风按钮时，设置一个语音输入提示音，并且设置有麦克风音量大小的动画。进一步的，当游戏玩家释放麦克风按钮时，可以设置有释放提示音。

需要说明的是，该待识别语音信息中包含至少一个字符串信息，即可以在这段语音信息中可以包含多个字符串，即游戏玩家可以根据自己的单词词汇量输入包含字符串的语音信息。

s202：将待识别语音信息输入至预设语音识别模型进行语音识别，以得到待识别语音信息对应的字符串文本，其中，构建预设语音识别模型的算法包含卷积神经网络和长短期记忆网络。

需要说明的是，语音识别技术，也被称为自动语音识别(asr，automaticspeechrecognition)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。在申请实施例中，语音识别技术属于本领域技术人员公知的技术，因此，对于语音识别不再进行详细赘述，具体内容可以参见相关技术即可。

本申请实施例中，上述构建预设语音识别模型的过程，具体可以包括如下步骤：

获取语音信息样本数据，该语音信息样本数据中包括多种字符串信息的语音信息。

基于语音信息样本数据，采用卷积神经网络算法和长短期记忆网络算法对语音识别模型进行训练，得到预设语音识别模型。

在本申请实施例中，由于语音识别技术的识别效率的不断提高，游戏玩家可以使用语音识别技术，通过输入语音来完成游戏关卡，语音识别系统可以识别玩家的语音输入，帮助玩家进行游戏，主要是将语音识别技术应用在手游游戏中，通过输入语音来完成游戏关卡。

s203：将字符串文本与预设数据库中的字符串进行匹配。

需要说明的是，在预设数据库中预先存储有文字游戏中正确答案所对应的字符串，当游戏玩家输入的待识别语音信息进行语音识别后，得到对应的字符串文本，将该字符串文本与预设数据库中的字符串进行匹配，确定识别得到的字符串是否为正确答案。

s204：判断是否匹配成功，若匹配成功，则执行步骤s205；若匹配不成功，则执行步骤s207。

s205：将字符串文本输入至待输入字符串文本对应的位置信息所对应的位置上，以实现语音输入。

s206：向语音输入系统发送匹配成功对应的消息提醒信息，并将字符串文本删除。

s207：向语音输入系统发送匹配不成功对应的消息提醒信息，并将字符串文本删除。

本申请实施例中，将识别得到的字符串与预设数据库中的字符串进行一一匹配，当存在匹配成功的字符串时，则将字符串文本输入至待输入字符串文本对应的位置信息所对应的位置上，以实现语音输入，如图5所示，为从游戏玩家按下麦克风按钮、语音识别到成功输入单词的过程。

需要说明的是，当游戏玩家在通过语音输入回答单词后，若匹配成功，则将字符串文本输入至待输入字符串文本对应的位置信息所对应的位置上，以实现语音输入，如图5所示，在输入成功后，向语音输入系统发送匹配成功对应的消息提醒信息，即当游戏玩家提交正确答案时，要向语音输入系统发送一个“输入正确答案动画”的提示信息，并将识别得到字符串文本删除。若匹配不成功，则向语音输入系统发送匹配不成功对应的消息提醒信息，即当游戏玩家提交的答案不正确时，要向语音输入系统发送一个“输入不正确答案动画”的提示信息，并将字符串文本删除。

更进一步的，需要说明的是，当游戏玩家回答正确时，可以设置有提示音，并且在游戏玩家回答正确后，释放按钮，要设置有答案正确的动画。

为了进一步说明本申请实施例的应用场景，该方法应用的应用场景可以设置party模式，在party模式下，可以自动切换题目，并且开启语音；游戏玩家回答正确时，播放语音提示correct；语音超时时播放倒数提示音，或者直接开启下一轮语音输入；另外，当点击party语音识别或者自动开始下一条问题时，语音读题给用户xletters，……(question)。

需要说明的是，本申请实施例中，无网状态下游戏界面显示如图6所示，无论任何时候，当发现网络链接失败时，将原来的麦克风界面用图6所示无网提示界面替换。

关于游戏玩家的游戏版本问题，即beta版本，在beta版本下，会因使用次数限制不能再继续进行语音识别，游戏玩家的游戏界面会显示成图7所示。

需要进一步说明的是，游戏玩家进行游戏时，会有一个新手引导的流程，对于新手来说，新用户在第2关开启引导的流程，对于老用户只要过了第2关，那么在第6关后开启引导的流程。在开启用户引导之前，游戏玩家是看不到进入语音模式的入口的，且一个用户终身只有一次该新手引导，在游戏玩家的引导关数是可以根据用户的需求进行本地配置的。如图8所示，当玩家第一次点击语音识别时，会弹出2个权限申请，当任意一个权限申请没有通过时，出现画面c，并且需要配图展示开启权限流程。如果玩家不开启权限则，点击任意位置，引导结束。

在本申请实施例中，语音识别的各种数据需要及时进行打点，主要包括：bq打点和bi打点，其中，bq打点是新建语音输入打点表，打点时机为每次成功检测，如下面表所示；bi打点levelpass表与flashcrazepass表中加入1列，本关使用语音输入完成题目个数占比。

bq打点表

本申请实施例提供的语音输入方法，应用于语音输入系统的语音输入，该方法包括：获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息；将所述待识别语音信息输入至预设语音识别模型进行语音识别，以得到所述待识别语音信息对应的字符串文本，其中，构建所述预设语音识别模型的算法包含卷积神经网络和长短期记忆网络；将所述字符串文本与预设数据库中的字符串进行匹配；若匹配成功，则将所述字符串文本输入至所述语音输入系统，以实现语音输入。本申请实施例通过将语音识别进入到手游游戏中，将语音输入进行答案识别，代替玩家手动输入答案，来完成游戏关卡，帮助游戏玩家进行游戏，以实现提高游戏玩家的用户体验，满足更高的用户需求。

请参阅图9，基于上述实施例公开的一种语音输入方法，本实施例对应公开了一种语音输入装置，应用于语音输入系统的语音输入，该装置具体包括：

获取单元901，用于获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息。

识别单元902，用于将所述待识别语音信息输入至预设语音识别模型进行语音识别，以得到所述待识别语音信息对应的字符串文本，其中，构建所述预设语音识别模型的算法包含卷积神经网络和长短期记忆网络。

匹配单元903，用于将所述字符串文本与预设数据库中的字符串进行匹配。

输入单元904，若匹配成功，则用于将所述字符串文本输入至所述语音输入系统，以实现语音输入。

第一发送单元905，若匹配不成功，则用于向所述语音输入系统发送匹配不成功对应的消息提醒信息，并将所述字符串文本删除。

第二发送单元906，用于向所述语音输入系统发送匹配成功对应的消息提醒信息，并将所述字符串文本删除。

所述装置包括处理器和存储器，上述获取单元、识别单元、匹配单元、第一发送单元和第二发送单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过将语音识别进入到手游游戏中，将语音输入进行答案识别，代替玩家手动输入答案，来完成游戏关卡，帮助游戏玩家进行游戏，以实现提高游戏玩家的用户体验，满足更高的用户需求。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音输入方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音输入方法。

本发明实施例提供了一种电子设备，如图10所示，该电子设备100包括至少一个处理器1001、以及与所述处理器连接的至少一个存储器1002、总线1003；其中，所述处理器1001、所述存储器1002通过所述总线1003完成相互间的通信；处理器1001用于调用所述存储器1002中的程序指令，以执行上述的所述语音输入方法。

本文中的电子设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取待识别语音信息，所述待识别语音信息中包含至少一个字符串信息；

将所述字符串文本与预设数据库中的字符串进行匹配；

若匹配成功，则将所述字符串文本输入至所述语音输入系统，以实现语音输入。

优选的，还包括：

若匹配不成功，则向所述语音输入系统发送匹配不成功对应的消息提醒信息，并将所述字符串文本删除。

优选的，在将所述字符串文本输入至所述语音输入系统之后，还包括：

向所述语音输入系统发送匹配成功对应的消息提醒信息，并将所述字符串文本删除。

优选的，在所述获取待识别语音之前，还包括：选取待输入字符串文本对应的位置信息；

则将所述字符串文本输入至所述语音输入系统，具体为：

将所述字符串文本输入至所述待输入字符串文本对应的位置信息所对应的位置上。

优选的，所述构建所述预设语音识别模型的过程，具体为：

获取语音信息样本数据，所述语音信息样本数据中包括多种字符串信息的语音信息；

基于所述语音信息样本数据，采用卷积神经网络算法和长短期记忆网络算法对语音识别模型进行训练，得到所述预设语音识别模型。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。