语音唤醒与识别自动化测试方法、存储介质及测试终端与流程

2021-01-28 13:01:33|

346|

起点商标网

本发明涉及通信技术领域，尤其涉及一种语音唤醒与识别自动化测试方法、存储介质及测试终端。

背景技术：

电视的智能语音在研发和测试过程中，需要经过许多特定噪音场景进行验证测试，保障远场语音唤醒、识别率。

目前，针对电视智能语音系统的测试大多采用人工方式进行验证，但是人工测试不仅存在人工测试语音单一性、人工测试成本高和测试效率低的问题，而且无法分析与自动记录测试结果。

因此，现有技术有待于进一步的改进和提升。

技术实现要素：

鉴于上述现有技术的不足，本发明的目的在于提供一种语音唤醒与识别自动化测试方法、存储介质及测试终端，旨在解决现有对智能电视语音唤醒与识别测试效率低的问题。

一种语音唤醒与识别自动化测试方法，其中，包括步骤：

利用语音指令对待测设备进行语音唤醒与识别；所述语音指令包括唤醒语音指令及识别语音指令；

获取唤醒后的所述待测设备的界面图像，将所述语音识别界面图像同预置图像进行比对测试，输出测试结果。

上述所述的语音唤醒与识别自动化测试方法，通过依据设定的语音指令自动进行电视语音唤醒、识别率的测试，并且自动记录与输出测试报告，以解决人工测试效率低、成本高，以及提高和保障测试结果准确性。

可选地，所述的语音唤醒自动化测试方法，其中，所述利用语音指令对待测设备进行语音唤醒与识别的步骤，具体包括：

预先录制所述语音指令以及干扰音频；所述干扰音频包括外噪音干扰音频及内噪音干扰音频；

在播放所述干扰音频的环境中，利用所述语音指令对待测设备进行语音唤醒与识别。

可选地，所述的语音唤醒与识别自动化测试方法，其中，所述获取唤醒后的所述待测设备的语音识别界面图像，将所述语音识别界面图像同预置图像进行比对测试，输出测试结果的步骤，具体包括：

获取利用摄像设备采集到的唤醒后的所述待测设备的语音识别语音识别界面图像；

对所述语音识别界面图像进行图像文字分析，从所述图像文字中区分出语音

识别文字区域；

对所述语音识别文字区域内的文字进行特征提取，得到特征群组；

将所述特征群组与预置的特征数据库中含有语音指令的图像文字特征数据进行对比，依据特征对比识别得出测试结果，并将所述测试结果保存在测试报告中。

可选地，所述的语音唤醒与识别自动化测试方法，其中，所述对所述语音识别界面图像信息进行图像文字分析，从所述语音识别界面图像中区分出语音识别文字区域的步骤之前还包括：

对所述语音识别界面图像依次进行倾斜矫正处理、彩色处理及图像上的噪声点消除处理。

可选地，所述的语音唤醒与识别自动化测试方法，其中，所述对所述语音识别文字区域内的文字进行特征提取，得到特征群组的步骤，具体包括：

对所述语音识别文字区域内的文字进行文字细化处理，得到所述文字的笔画端点、交叉点的数量及交叉点的位置，并保存为特征群组。

可选地，所述的语音唤醒与识别自动化测试方法，其中，所述获取唤醒后的所述待测设备的语音识别界面图像，将所述语音识别界面图像同预置图像进行比对测试，输出测试结果的步骤之后还包括：

当对比测试发现待测设备没有被正确唤醒与识别，则将所获取到的语音识别界面图像进行保存，并对测试结果备注后输出。

可选地，所述的语音唤醒与识别自动化测试方法，其中，所述在播放所述干扰音频的环境中，利用所述语音指令对待测设备进行语音唤醒与识别的步骤，具体包括：

当播放的干扰音频为所述外噪音干扰音频时，将所述待测设备设置为静音状态；

调节所述外噪音干扰音频的播放角度及声压，形成不同的测试环境，利用所述语音指令在所述不同的测试环境中对待测设备进行语音唤醒。

可选地，所述的语音唤醒与识别自动化测试方法，其中，在播放所述干扰音频的环境中，利用所述语音指令对待测设备进行语音唤醒与识别的步骤，具体包括：

当播放的干扰音频为所述内噪音干扰音频时，调节所述内噪音干扰音频的播放角度及声压，形成不同的测试环境，利用所述语音指令在所述不同的测试环境中对待测设备进行语音唤醒与识别。

基于相同的发明构思，本发明还提供一种存储介质，其中，所述存储介质存储有一个或多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的语音唤醒自动化测试方法中的步骤。

基于相同的发明构思，本发明还提供一种测试终端，其中，包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的程序；所述处理器执行所述程序时实现如上所述的语音唤醒自动化测试方法中的步骤。

附图说明

图1为本发明实施例提供的一种语音唤醒与识别自动化测试方法流程图；

图2为本发明实施例提供的应用场景示意图；

图3为本发明实施例提供的一种语音唤醒与识别自动化测试方法中步骤s100的流程图；

图4为本发明实施例提供的一种语音唤醒与识别自动化测试方法中步骤s200的流程图；

图5为本发明实施例提供的图像对比分析流程示意图；

图6为本发明实施例提供的一种测试终端的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。

目前，智能语音在人工智能技术的赋能下逐渐走进人们的日常生活。所谓智能语音就是人机语言的通信，包括语音识别和语音合成。智能语音又分为近场语音和远场语音，近场识别时比如使用语音输入法时，用户可以按住手机上siri的语音按钮直接说话进行识别；远场识别时比如在智能电视场景，通过唤醒词激活电视远场语音，进而说话再进行语音识别。电视作为家庭的智能控制中心，在智能电视中添加远场语音，消费者通过远场语音与电视进行交互，大大提高了电视使用的便捷性。

智能电视的远场语音有着许多便捷性，但是在日常家居生活环境中，有各种的生活外噪音、以及电视在使用过程中自身发出的内噪音影响，这些噪音会对远场语音的唤醒、识别造成干扰。因此电视的智能语音在研发和测试过程中，需要经过许多特定噪音场景进行验证测试，保障远场语音唤醒、识别率。目前针对电视智能语音系统的测试大多采用人工方式进行验证，但是人工测试不仅存在人工测试语音单一性、人工测试成本高和测试效率低的问题，而且无法分析与自动记录测试结果。

基于此，本发明提供一种能够解决上述技术问题的方案，其详细内容将在后续实施例中得以阐述。

举例说明，本发明实施例可以应用到如图4所述的场景，在该场景中，将检测终端10分别和声源音箱20、干扰源音箱30、驱动电机40、视觉检测系统50、待测设备(电视机)60进行连接。在所述检测终端10中导入测试的语音指令以及外噪音干扰音频。在所述检测终端10中，根据测试语音场景：安静、内噪音、外噪音场景，配置所述声源音箱、所述干扰源音箱以及所述驱动电机的测试参数。

所述声源音箱(音箱a、b、c)面朝电视机，和所述电视机的距离分别设为1米、3米、5米，依据设置的安静、内噪音、外噪音场景，所述检测终端10控制驱动电机上的声源音箱、干扰源音箱移动位置及角度，并且声源音箱(音箱a、b、c)根据设置的场景分别依次播放语音指令。容易理解的是，所述声源音箱与电视机之间的距离可以根据需要设置为其他值。

视觉检测系统在电视机正前方，声源音箱每播放一组唤醒识别语音指令，电视被唤醒与识别语音指令时，通过视觉检测系统采集待测设备唤醒、识别的图像，再发送图像到所述检测终端10中进行图像分析处理。判断电视机是否被唤醒，语音指令和电视机上显示的指令文字是否正确。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。所述待检测设备可以是带智能语音的电视、智能投影仪、智能激光电视等。下面实施例中以带智能语音的电视为例来对本发明做解释说明。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

请参考图1至图5，如图所示，本发明实施例提供一种语音唤醒与识别自动化测试方法，所述方法包括步骤：

s100、利用语音指令对待测设备进行语音唤醒；所述语音指令包括唤醒语音指令及识别语音指令；

具体来说，如图2所示，包括步骤：

s110、预先录制所述语音指令以及干扰音频；所述干扰音频包括外噪音干扰音频及内噪音干扰音频；

s120、在播放所述干扰音频的环境中，利用所述语音指令对所述待测设备进行语音唤醒。

在该实施例中，可以预先录制所述语音指令以及干扰音频；比如可以先通过录音设备在安静的环境中录下语音“你好小精灵”、“有什么好看的综艺节目”。将“你好小精灵”音频作为唤醒音频，将“有什么好看的综艺节目”音频作为识别音频。录制一段新闻节目，所述新闻节目的录音的时长可以在1-3分钟，将该音频作为干扰音频。利用干扰音频模拟现实使用中的噪音，利用所述语音指令对待测设备进行语音唤醒。容易理解的是，所述干扰音频包括外噪音(是指智能电视所发声音以外的声音)。

举例来说，将预先录制100组语音指令(每组语音指令包含1个唤醒音频和1个识别音频)以及外噪音干扰音频导入测试终端，在所述待测设备中也导入内噪音音频。在测试终端的设备控制模块中，根据表1测试场景1-9分别设置安静、内噪音、外噪音场景中声源音箱、干扰源音箱、驱动电机、待测设备的声压、角度配置参数。在测试终端的设备控制模块设置测试场景完毕后，按照表1的测试场景1-9依次开展安静、内噪音、外噪音场景的语音唤醒、识别测试。

安静场景的唤醒、识别测试：设备控制模块设置干扰音箱、待测设备为静音状态，设置声源音箱(音箱a、b、c)为表1测试场景1-3的角度与声压后，声源音箱(音箱a、b、c)再依次播报100组语音指令进行安静场景1、3、5米的测试，视觉检测系统与图像对比处理模块负责检测与记录3组结果。

内噪音场景的唤醒测试：设备控制模块设置干扰音箱为静音状态，设置待测设备播、声源音箱(音箱a、b、c)为表1测试场景4-6的角度与声压，并控制待测设备播放内噪音音频后，声源音箱(音箱a、b、c)再依次播报100组语音指令进行内噪音场景1、3、5米的测试，视觉检测系统与图像对比处理模块负责检测与记录结果。

外噪音场景的唤醒、识别测试：设备控制模块设置待测设备为静音状态，设置干扰音箱、声源音箱(音箱a、b、c)为表1测试场景7-9的角度与声压，并控制干扰音箱播放干扰音频后，声源音箱(音箱a、b、c)再依次播报100组语音指令进行外噪音场景1、3、5米的测试，视觉检测系统与图像对比处理模块负责检测与记录结果。

测试结果如表1

s200、获取唤醒后的所述待测设备的语音识别界面图像，将所述语音识别界面图像同预置图像进行比对测试，输出测试结果。

结合图3和图5，具体地，步骤s200包括步骤：

s210、获取利用摄像设备采集到的唤醒后的所述待测设备的语音识别界面图像信息；

s220、对所述语音识别界面图像信息进行图像文字分析，从所述语音识别界面图像中区分出语音识别文字区域；

s230、对所述语音识别文字区域内的文字进行特征提取，得到特征群组；

s240、将所述特征群组与预置的特征数据库中对应含有语音指令的图像文字特征数据进行对比，依据特征对比得出测试结果，并将所述测试结果保存在测试报告中。

在本实施例中，声源音箱播放测试语音指令，当待测设备响应唤醒和识别语音指令后，测试终端向视觉采集系统的图像采集模块发出采集指令。视觉采集系统接受指令后，发采集信号控制图像信息采集模块的相机，对电视机进行拍摄采集唤醒与识别画面的图像信息。被拍摄采集的图像信息以bmp文件格式送到测试终端，测试终端的图像对比处理模块对采集的图像进行预处理：首先需对获取的图像进行倾斜校正、彩色处理并清除图像上的噪声点，加强图像有用的信息；其次对图像文字分析：完成对采集的图像进行总体分析，区分出语音识别文字及图像的区域，对于语音识别文字区域进行识别处理；然后特征提取：根据图像的预处理以及图像的语音识别文字处理，对语音识别的文字进行文字细线化处理，取得文字的笔画端点、交叉点的数量及位置，并且保存为特征群组。

将提取的特征群组，与预置特征数据库中对应含有语音指令的图像文字特征数据进行对比，依据两组特征对比识别得出测试结果，并保存测试结果在测试终端的测试报告中。

在本实施例的一种实施方式中，测试过程中，当视觉检测系统检测到待测设备没有被正确唤醒和识别语音指令，则保存唤醒识别错误的图像到测试终端，并且备注此结果在测试报告中，以备查阅。容易理解的是，所述被测试终端没有被正确唤醒包含两种情况：一是，虽然发出了唤醒语音指令，但是被测试设备没有识别出来，没有做出对应应答。另外一种是虽然待测设备做出了回应，但是，对识别语音指令的识别结果错误，比如说识别语音指令中的语音对应的文字是“播放综艺节目”，但是识别出的是“播放热播电影”。

基于上述所述的语音唤醒自动化测试方法，本发明还提供一种存储介质，所述存储介质存储有一个或多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的语音唤醒自动化测试方法中的步骤。

基于上述所述的语音唤醒与识别自动化测试方法，本发明还提供一种测试终端，如图6所示，其包括至少一个处理器(processor)30；显示屏31；以及存储器(memory)32，还可以包括通信接口(communicationsinterface)33和总线34。其中，处理器30、显示屏31、存储器32和通信接口33可以通过总线34完成相互间的通信。显示屏31设置为显示初始设置模式中预设的用户引导界面。通信接口33可以传输信息。处理器30可以调用存储器32中的逻辑指令，以执行上述实施例中的方法。此外，上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。存储器32作为一种可读存储介质，可设置为存储软件程序，如本发明实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器32中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。存储器32可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。此外，上述存储介质以及终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

综上所述，本发明提供了一种语音唤醒与识别自动化测试方法、存储介质及测试终端。其中，所述方法包括步骤：利用语音指令对待测设备进行语音唤醒；所述语音指令包括唤醒语音指令及识别语音指令；获取唤醒后的所述待测设备的语音识别界面图像，将所述语音识别界面图像同预置图像进行比对测试，输出测试结果。通过依据设定的语音指令自动进行电视语音唤醒、识别率的测试，并且自动记录与输出测试报告，以解决人工测试效率低、成本高，以及提高和保障测试结果准确性。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。