大屏语音响应方法、装置、电子设备和存储介质与流程

2021-01-28 13:01:26|

292|

起点商标网

本发明属于语音信号处理技术领域，尤其涉及大屏语音响应方法、装置、电子设备和存储介质。

背景技术：

在研究利用语音对由多个分屏组成的大屏进行显示控制时，可以采用不同的拾音设备来获取用户对大屏控制的语音信息。在实际中，系统存在同时获取到由相同拾音设备或不同拾音设备采集到的多条语音信息，此时如何从中选取对大屏进行显示控制的目标语音信息，是在研发利用语音对大屏进行控制的过程中遇到的一个技术问题。

技术实现要素：

有鉴于此，本发明实施例提供了一种大屏语音响应方法、装置、电子设备和存储介质，以解决大屏如何同时响应多条语音信息进行大屏显示控制的问题。

第一方面，提供一种大屏语音响应方法，其包括：获取同时采集到的至少两条语音信息；确定所述至少两条语音信息中的一条语音信息为目标语音信息；识别所述目标语音信息中的控制指令，对屏幕进行显示控制。

作为一种可选方案，所述至少两条语音信息包括：由固定麦克风/移动麦克风采集的多条语音信息；或者，由固定麦克风和移动麦克风采集的多条语音信息。

作为一种可选方案，所述确定所述至少两条语音信息中的一条语音信息为目标语音信息，具体包括以下确定目标语音信息方法中的任一种或多种的组合：

识别所述多条语音信息的权限，确定其中一条具有权限的语音信息为目标语音信息；

识别所述多条语音信息中是否包含关键词，确定其中一条包含关键词的语音信息为目标语音信息；

识别所述多条语音信息的采集设备的类型，确定由移动麦克风采集的一条语音信息为目标语音信息；

识别是多条语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息。

作为一种可选方案，识别所述多条语音信息的权限，确定其中一条具有权限的语音信息为目标语音信息，包括：识别所述多条语音信的声纹信息，确定其中声纹信息的用户为预设用户的一条语音信息为目标语音信息。

作为一种可选方案，识别所述多条语音信息的权限，确定其中一条具有权限的语音信息为目标语音信息，包括：识别所述多条语音信息的用户的人脸信息，确定其中人脸信息的用户为预设用户的一条语音信息为目标语音信息。

作为一种可选方案，识别所述多条语音信息的权限，确定其中一条具有权限的语音信息为目标语音信息，包括：识别所述多条语音信息的电子信号标识，确定具有电子信号标识的一条语音信息为目标语音信息。

作为一种可选方案，识别是多条语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息，包括：识别所述多条语音信息的声源位置；计算所述多条语音信息的声源位置与屏幕的距离；选择与屏幕的距离在预设距离范围内的声源位置对应的语音信息为目标语音信息。

作为一种可选方案，识别是多条语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息，包括：识别所述多条语音信息的声源位置；计算所述多条语音信息的声源位置与屏幕的距离；选择与屏幕距离最小的声源位置对应的语音信息为目标语音信息。

第二方面，本发明提供了一种大屏语音响应装置，其包括：语音信息获取模块，被配置为获取同时采集到的至少两条语音信息；目标语音选择模块，确定所述至少两条语音信息中的一条语音信息为目标语音信息；语音指令识别模块，被配置为识别所述目标语音信息中的控制指令，对屏幕进行显示控制。

第三方面，本发明提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述大屏语音响应方法的步骤。

第四方面，本发明提供了一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面中任一项所述大屏语音响应方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本示例通过对同时获取到多条语音信息进行识别，来确定其中一条语音信息为目标语音信息，克服了系统在获取到多条语音信息情况下如何进行响应的问题，提高了语音控制屏幕的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是可以应用本发明的一个场景示意图；

图2是本发明在一实施例中提供的大屏语音响应方法的流程图；

图3是本发明在一实施例中提供的大屏语音响应装置的结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

见图1，示出了可以应用本发明的一个场景示意图。

如图1所示，在该场景中，包括由多个分屏组成的大屏01、屏幕控制设备02、主控模块03、视频源终端04和拾音设备05。其中，组成大屏的各个分屏连接于屏幕控制设备，视屏源终端04和主控模块分别连接于屏幕控制设备03，拾音设备连接于主控模块。

在一应用示例中，将本发明提供的大屏语音响应方法应用于上示例场景时，可以是由以上的主控模块03作为执行主体，所述主控模块可以为一种电子设备，所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如大屏语音响应方法的步骤。

在一应用示例中，将本发明提供的大屏语音响应装置应用于上示例场景时，可以是将所述大屏语音响应装置安装在以上主控模块中。

其中，所述大屏语音响应装置具体由集成的模块/单元的结构构成。所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现大屏语音响应方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read-onlymemory）、随机存取存储器（ram，randomaccessmemory）、电载波信号、电信信号以及软件分发介质等。例如，计算机可读介质可以是安装在以上主控模块03中的存储器。

见图2，为本发明在一实施例中提供的大屏语音响应方法的流程图。

本示例提供的大屏语音响应方法的执行主体可以为图1中的主控模块02，如图2所示，所述大屏语音响应方法，可以包括步骤：

s01：获取同时采集到的至少两条语音信息；

s02：确定所述至少两条语音信息中的一条语音信息为目标语音信息；

s03：识别所述目标语音信息中的控制指令，对屏幕进行显示控制。

本示例通过对同时获取到多条语音信息进行择一进行控制指令识别，然后再根据该控制指令对大屏进行显示控制，克服了在多个语音信息同时对大屏进行控制的情况下系统可能无法快速作出响应的问题，提高了语音屏幕控制的效率和准确性。

步骤s01中，所述语音信息可以是由固定麦克风采集的多条语音信息；或者，所述语音信息也可以是由移动麦克风采集的多条语音信息；再或者，所述语音信息还可以是由固定麦克风和移动麦克风共同采集的多条语音信息。由此可见，在实际应用中，可能是不同的用户在不同的拾音设备上，或者相同的拾音设备上来发出对屏幕的控制的语音信息，那么，从中选取哪一个用户的语音信息作为屏幕控制的目标语音信息最利于应用现场，是实际应用中所面临的关键问题。

步骤s02中，在以上语音信息为不同的采集情况下，可以采用多种一种条件判断机制或多种条件判断机制来确定目标语音信息。

在一个示例中，以上步骤02，可以具体包括步骤s21：识别所述多条语音信息的权限，确定其中一条具有权限的语音信息为目标语音信息。对语音信息设立语音权限，即预先对可以识别语音信息来源的对象设立权限数据库。

例如，上述步骤s21，可以具体包括步骤s211：识别所述多条语音信息的声纹信息，确定其中声纹信息的用户为预设用户的一条语音信息为目标语音信息。显然，本示例是利用声纹识别技术，识别每条语音信息的声纹信息，每个用户的声纹是不一样的，所以可以利用声纹识别来确定每条语音信息的用户信息。由此，如果预先对该用户建立了语音权限数据库，那么即可直接通过声纹识别来确定用户的语音信息的语音权限。当多条语音信息中仅有一条语音信息具有权限时，即可确认所述语音信息为目标语音信息。

又例如，上述步骤s21，还可以具体包括步骤s212：识别所述多条语音信息的用户的人脸信息，确定其中人脸信息的用户为预设用户的一条语音信息为目标语音信息。具体的，在预先对用户设立语音权限数据库的情况下，当获取到语音信息对应用户的人脸信息时，将其与人脸数据库中的人脸数据进行比对，如果获取到的人脸信息是人脸数据库中的人脸数据，则认定该人脸信息对应用户的语音信息具有语音权限。因此，可以确定其中具有语音权限的一条语音信息为目标语音信息。

其中，语音信息对应用户的人脸信息，可以是在采集语音信息时，同步采集该用户的人脸信息；或者，也可以在获取到语音信息之后，识别语音信息的声源位置，然后采集该声源位置的图像来获取语音信息对应用户的人脸信息。应理解，本申请对于获取语音信息对应用户的人脸信息的方式不做具体限制。

再例如，上述步骤s21，还可以具体包括步骤s213：识别所述多条语音信息的电子信号标识，确定具有电子信号标识的一条语音信息为目标语音信息。

其中，所述电子信号标识可以包括射频信号，例如，当获取到语音信息时，检测语音信息的声源位置周围是否有约定频率的射频信号，若有则认定所述语音信息具有权限。与射频信号类似的，所述电子信号还可以包括红外信号、蓝牙信号或者wifi信号等。此外，所述电子信号还可以为编号信号，例如，在拾音设备采集到语音信息时，根据该拾音设备上是否预设有权限标记，在向系统发送该语音信息的同时发送权限标记的编码信息，这样在获取到该语音信息时，即可确定该语音信息的语音权限。

例如，在一个应用场景中，假设所述多条语音信息具体包括：由移动麦克风采集的第一语音信息，以及由固定麦克风采集的第二语音信息。那么，步骤s02，确定所述至少两条语音信息中的一条语音信息为目标语音信息，可以包括步骤：

a01：基于声纹识别，确定第一语音信息对应的第一用户；

a02：基于声纹识别，确定第二语音信息对应的第二用户；

a03：识别所述第一用户和第二用户的权限：

a31：当所述第一用户和第二用户只有一个用户具有权限时，确定所述用户的语音信息为目标语音信息。

本场景中首先识别语音信息的用户权限，从而可以快速确定目标语音信息，避免其他无权语音信息的干扰。需要说明的是，对于识别权限的其他结果，例如第一用户和第二用户都不具有权限，可以返回重新获取语音信息；以及其他情，可以与其他示例进行结合，这里不做详细说明。因此，本示例仅对现有技术作出突出贡献的方案进行详细说明，其他情况本领域技术人员可以根据实际情况进行选择实施和处理。

在一个示例中，以上步骤02，可以具体包括步骤s22：识别所述多条语音信息中是否包含关键词，确定其中一条包含关键词的语音信息为目标语音信息。具体的，可以利用语音信息识别技术，来识别语音信息中的内容，如果该内容中包含预设的关键词信息，则认定该语音信息具有语音权限。其中，所述关键词可以为固定格式的句式，例如，关键词为固定句式“请在x号屏显示内容y”；或者，所述关键词也可以为某个词语，例如，关键词为“小屏小屏”。

在一个示例中，以上步骤02，可以具体包括步骤s23：识别所述多条语音信息的采集设备的类型，确定由移动麦克风采集的一条语音信息为目标语音信息。所述语音信息还可以是由固定麦克风和移动麦克风混合采集的情况下，往往持有移动麦克风的用户控制屏幕的迫切性更强烈，因此可以将由移动麦克风采集的一条语音信息为目标语音信息。当同时有移动麦克风和固定麦克风的语音信息时，移动麦克风的优先级较高，因为，能接收到移动麦克风的信号，就证明该移动麦克风与大屏连接的麦克风，而固定麦克风采集到的语音有可能是路人的语音，因此，优先选择移动麦克风采集的语音信号。

例如，在一个应用场景中，假设所述多条语音信息具体包括：由移动麦克风采集的第一语音信息，以及由固定麦克风采集的第二语音信息。那么，识别所述多条语音信息的采集设备的类型，确定由移动麦克风采集的一条语音信息为目标语音信息，可以具体包括：识别第一语音信息和第二语音信息的采集设备类型；当识别到采集设备有移动麦克风时，确定由移动麦克风采集的一条语音信息为目标语音信息。

应理解，对于识别结果中不包含移动麦克风的情况，可以进行其他处理，例如返回重新获取语音信息，或者再根据其他判断条件来进行目标语音信息确认，可以具体参考其他示例。

在一个示例中，以上步骤02，可以具体包括步骤s24：识别多条语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息。由于用户距离屏幕的距离直接影响观看屏幕的效果，因此可以根据声源位置与屏幕的距离，来确定目标语音信息。

例如，以上步骤s24，可以具体包括步骤：

s241：识别所述多条语音信息的声源位置；

s242：计算所述多条语音信息的声源位置与屏幕的距离；

s243：选择与屏幕的距离在预设距离范围内的声源位置对应的语音信息为目标语音信息。

其中，可以根据屏幕的位置，设置一个或多个距离范围，如果获取到的语音信息的位置在该距离范围之内，则可以认定其为目标语音信息。

又例如，在实际中可能存在不止一条语音信息的声源位置在该距离范围之内，从而导致无法准确确定目标语音信息。因此，以上步骤s24，还可以包括：

s241：识别所述多条语音信息的声源位置；

s242：计算所述多条语音信息的声源位置与屏幕的距离；

s244：选择与屏幕距离最小的声源位置对应的语音信息为目标语音信息。

其中，在实际应用中，在步骤s242之后，可以仅执行步骤s243或s244，或者，也可以先执行步骤s243，当选择与屏幕的距离在预设距离范围内的声源位置对应的语音信息为多条语音信息时，再执行步骤s244。

例如，结合以上权限识别的应用场景来说，当识别第一用户和第二用户的权限，出现第一用户和第二用户都具有权限时，此时则无法确定目标语音信息，因此结合与用户与屏幕的位置的示例来做进一步判断。具体的，在识别所述第一用户和第二用户的权限之后，还可以包括步骤：

a32：当所述第一用户和第二用户都不具有权限时，识别第一语音信息和第二语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息。

具体的，识别第一语音信息和第二语音信息的采集设备与屏幕的距离，确定与屏幕的距离在预设距离范围内的一条语音信息为目标语音信息，可以包括步骤：

b01：识别第一语音信息的第一声源位置；

b02：识别第二语音信息的第二声源位置；

b03：计算第一声源位置与大屏的第一距离；

b04：计算第二声源位置与大屏的第二距离；

b05：根据第一距离和第二距离，确定与大屏距离最近的语音信息为目标语音信息，或者确定满足预设距离范围的一条语音信息为目标语音信息。

结合以上针对步骤s02的示例可知，在实际应用中，步骤s02可以包括上述步骤s21、步骤s22、步骤s23或步骤s24中的任一步骤。但实际中以上单一步骤往往无法准确确定出目标语音信息。例如，在步骤s21中，具有语音权限的语音信息可能不止一条，或者一条都没有；或者，在步骤s22中，包含关键词的语音信息不止一条，或者一条也没有；或者，在步骤s23中，获取到语音信息的拾音设备对应多个移动麦克风，或者，获取到语音信息的拾音设备全是固定麦克风的情况时，则同样无法确定目标语音信息。

因此，为了能更为准确的确定目标语音信息，在实际应用中，上步骤s02可以包括步骤s21、步骤s22、步骤s23和步骤s24中的多个步骤的组合。

具体的，上步骤s02可以步骤s21、步骤s22、步骤s23和步骤s24中的任意两个步骤的组合。其中，在根据单一步骤即可确认目标语音信息的情况可以参考上述示例，这里不做讨论。

例如，上步骤s02为步骤s21和s22的组合时，先判断根据所述步骤s21是否能够确定目标语音信息，若否，则再执行步骤s22。或者，也可以是先判断根据步骤s22是否能够确定目标语音信息，若否，则再执行步骤s21。

同理，当上述步骤s02为其他组合时，例如，步骤s02为步骤s21和s23的组合；或者，步骤s02为步骤s21和s24的组合；或者，步骤s02为步骤s22和s23的组合；或者，步骤s02为步骤s23和s23的组合。与前述上步骤s02为步骤s21和s22的组合示例原理相同，无论采取哪种组合，只要依次执行该组合中任一顺序下的步骤序列，直到能够确定目标语音信息时停止，这里不做赘述。

具体的，上步骤s02可以步骤s21、步骤s22、步骤s23和步骤s24中的任意三个步骤的组合。其中，在根据单一步骤或其中两个步骤来确认目标语音信息的情况可以参考上述示例，这里不做讨论。

例如，上步骤s02为步骤s21、s22和s23的组合时，可以先判断根据所述步骤s21是否能够确定目标语音信息，若否，再判断根据所述步骤s22是否能够确定目标语音信息，若否，再执行步骤s23来确定目标语音信息。

同理，上步骤s02为其他组合时，例如，上步骤s02为步骤s21、s22和s24的组合；或者，上步骤s02为步骤s21、s23和s24的组合；或者，上步骤s02为步骤s22、s23和s24的组合。与前述上步骤s02为步骤s21、s22和s23的组合示例原理相同，即可以依次执行该组合中任一顺序下的步骤序列，直到能够确定目标语音信息时停止，这里不再赘述。

具体的，上步骤s02可以步骤s21、步骤s22、步骤s23和步骤s24的组合时。可以依次判断步骤s21、步骤s22、步骤s23和步骤s24是否能够确定目标语音信息，直到能够确定目标语音信息停止。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在与以上图2所示方法为同一发明构思的基础上，对应的，本发明还提供了一种大屏语音响应装置。

见图3，为本发明提供的大屏语音响应装置在一实施例中的结构图。

如图3所示，该大屏语音响应装置300，可以具体包括：语音信息获取模块310，被配置为获取同时采集到的至少两条语音信息；目标语音选择模块320，确定所述至少两条语音信息中的一条语音信息为目标语音信息；语音指令识别模块330，被配置为识别所述目标语音信息中的控制指令，对屏幕进行显示控制。

其中，大屏语音响应装置与大屏语音响应方法是相对应的产品实施方案，因此，针对大屏语音响应装置中的具体内容可以参见以上方法的实施例，这里不再赘述。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。