车载语音系统的唤醒方法、装置、车辆和介质与流程

2021-01-28 16:01:20|

340|

起点商标网

本发明实施例涉及车辆技术领域，尤其涉及车载语音系统的唤醒方法、装置、车辆和介质。

背景技术：

随着智能技术的发展，智能语音交互技术已广泛应用于各个领域，尤其是汽车领域。当用户使用车载语音系统时，需要先唤醒车载语音系统。相关技术中，用户通过输入语音唤醒词唤醒车载语音系统，并通过语音控制指令控制车载语音系统执行相应操作。

上述唤醒车载语音系统的方式，是对用户输入的语音唤醒词进行识别，那么当用户与其他用户交谈过程中谈到唤醒词时，车载语音系统就会基于唤醒词唤醒并与用户进行交互，导致车载语音系统的唤醒具有较高的误唤醒率。

技术实现要素：

本发明实施例提供一种车载语音系统的唤醒方法、装置、车辆和介质，降低了车载语音系统的误唤醒率。

第一方面，本发明实施例提供了一种车载语音系统的唤醒方法，所述方法包括：

在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段；

若是，则确定所述唤醒词音频段是否存在相邻音频段；

若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

第二方面，本发明实施例还提供了一种车载语音系统的唤醒装置，包括：

第一确定模块，用于在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段；

第二确定模块，用于若是，则确定所述唤醒词音频段是否存在相邻音频段；

唤醒控制模块，用于若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

第三方面，本发明实施例还提供了一种车辆，包括：

麦克风，用于采集用户的音频数据；

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的车载语音系统的唤醒方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例中任一所述的车载语音系统的唤醒方法。

本发明实施例公开的技术方案，具有如下有益效果：

通过采集用户的音频数据，以确定音频数据中是否存在唤醒词音频段，如果音频数据中存在唤醒词音频段，则确定唤醒词音频段是否存在相邻音频段，如果唤醒词音频段不存在相邻音频段，则根据唤醒词音频段，对语音系统进行唤醒。由此，基于用户的音频数据，确定用户的用户场景是与车载语音系统交互场景，还是与其他用户交谈场景，以当用户场景是与车载语音系统交互场景时，根据用户音频数据中的唤醒词音频唤醒车载语音系统，从而降低车载语音系统的误唤醒率，提高车载语音系统的唤醒准确性。

附图说明

图1是本发明实施例一提供的一种车载语音系统的唤醒方法的流程示意图；

图2是本发明实施例二提供的一种车载语音系统的唤醒方法的流程示意图；

图3是本发明实施例三提供的一种车载语音系统的唤醒方法的流程示意图；

图4是本发明实施例四提供的一种车载语音系统的唤醒装置的结构示意图；

图5是本发明实施例五提供的一种车辆的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

下面结合附图对本发明实施例的车载语音系统的唤醒方法、装置、车辆和介质进行详细说明。

实施例一

图1是本发明实施例一提供的一种车载语音系统的唤醒方法的流程示意图。本实施例可适用于用户唤醒车载语音系统的场景，该方法可以由车载语音系统的唤醒装置来执行，该装置可由硬件和/或软件组成，并可集成于车辆中。如图1所示，该方法具体包括如下：

s101，在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段，若是，则执行s102，否则执行s105。

其中，用户可以是指车内的驾驶员或者除驾驶员之外的其他用户等，此处对其不做具体限定。

在本发明实施例中，唤醒词用于将车载语音系统从休眠状态唤醒为工作状态的词。例如，“嘿,红旗”或者“您好，红旗”等，此处对其不做具体限定。需要说明的是，本实施例中唤醒词可以根据实际需要进行修改。

其中，车载语音系统具体是指车载智能语音系统。

可选的，当车辆处于行车状态时，驾驶员可能与其他用户进行通话或者交谈，在此期间车辆中的麦克风会实时采集用户的语音数据，并将采集的语音数据转换为音频数据，以使车载语音系统对麦克风采集的音频数据进行分析确定该音频数据中是否存在唤醒词音频，从而为后续确定是否唤醒车载语音系统奠定基础。

s102，若是，则确定所述唤醒词音频是否存在相邻音频，若否，则执行s103，否则执行s104。

当车辆处于行车场景时，驾驶员与其他用户进行通话或者交谈期间，可能会提及唤醒词，此时车载语音系统就会根据唤醒词执行唤醒操作，并与用户进行交互，从而导致在用户未唤醒的情况下，车载语音系统实现误唤醒，影响用户体验。在实际使用过程中，用户在主动唤醒车载语音系统时，通常只会讲唤醒词，不会讲除唤醒词之外的其他内容，而用户与其他用户进行通话或者交谈过程中，除了将唤醒词之外还会讲其他内容。

因此，本实施例在确定采集的音频数据中存在唤醒词时，还可确定音频数据中唤醒词音频段的相邻位置是否存在其他音频段。当确定唤醒词音频段的相邻位置存在其他音频段时，即可确定用户是与其他用户进行通过或交谈；当确定唤醒词音频段的相邻位置不存在其他音频段时，即可确定用户是与车载语音系统进行语音交互。从而实现了基于音频数据中唤醒词音频段相邻位置是否存在其他音频段，确定是否唤醒车载语音系统，避免了车载语音系统的误唤醒的机率。

具体实现时，本实施例可根据语音活动检测(voiceactivitydetection，简称为vad)算法，从采集的音频数据中识别出音频段和静音段。其中，语音段包括唤醒词语音段。识别出音频段之后，vad算法可从音频段中提取唤醒词音频段，然后确定唤醒词音频段相邻位置是否存在其他音频段。在本发明实施例中，相邻音频段的数量为至少一个。例如，相邻音频段可以是唤醒词音段前一位置的音频段，和/或唤醒词音频段后一位置的音频段。

例如，假设音频数据为“我觉得您好，红旗这个唤醒词还挺好听的”，那么唤醒词为“您好，红旗”时，vad算法获取到音频数据之后，可根据唤醒词提取出唤醒词音频段为“您好，红旗”，以及语音段1“我觉得”和语音段2“这个唤醒词还挺好听的”。然后，vad算法根据唤醒词音频段、音频段1和音频段2的时间信息，确定音频段1位于首位，唤醒词音频段位于中间位，音频段2位于末位，以及确定音频段1和音频段2分别与唤醒词音频段相邻，则确定音频数据中的唤醒词音频段存在相邻音频段。

又例如，假设音频数据为“嘿，红旗”，那么唤醒词为“嘿，红旗”时，vad算法从获取到音频数据中提取出唤醒词语音段为“嘿，红旗”，且确定唤醒词音频段没有相邻音频段，则确定音频数据中的唤醒词音频段不存在相邻音频段。

s103，若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

具体的，在确定音频数据中的唤醒词音频段不存在相邻音频段时，说明用户当前是与车载语音系统进行语音交互。此时，即可自动根据vad算法提取出来的唤醒词音频段，唤醒车载语音系统，以使车载语音系统从休眠状态切换为工作状态，并与用户进行语音交互，以根据用户发送语音控制指令执行相应操作。

s104，若是，则采集所述用户的新音频数据。

可选的，确定音频数据中的唤醒词音频段存在相邻音频段时，说明用户当前是与其他用户进行通话或者交谈，并未与车载语音系统进行语音交互。此时，车载语音交互系统不进行唤醒操作，并控制麦克风继续采集用户的新语音数据，根据新语音数据得到用户的新音频数据，并对该新音频数据进行分析处理。

s105，若否，则不作任何处理。

其中，当确定采集的音频数据不存在唤醒词音频段，说明用户当前是与其他用户进行通话或者交谈，此时麦克风继续实时采集用户的语音数据，以为后续唤醒车载语音系统奠定基础。

本发明实施例提供的技术方案，通过采集用户的音频数据，以确定音频数据中是否存在唤醒词音频段，如果音频数据中存在唤醒词音频段，则确定唤醒词音频段是否存在相邻音频段，如果唤醒词音频段不存在相邻音频段，则根据唤醒词音频段，对语音系统进行唤醒。由此，基于用户的音频数据，确定用户的用户场景是与车载语音系统交互场景，还是与其他用户交谈场景，以当用户场景是与车载语音系统交互场景时，根据用户音频数据中的唤醒词音频唤醒车载语音系统，从而降低车载语音系统的误唤醒率，提高车载语音系统的唤醒准确性。

实施例二

图2是本发明实施例二提供的一种车载语音系统的唤醒方法的流程示意图。在上述实施例的基础上进行优化，具体的，确定音频数据中是否存在唤醒词音频段包括：确定所述音频数据的音频波形图与唤醒词音频段波形图的相似度；根据所述相似度和相似度阈值，确定所述音频数据中是否存在唤醒词音频段。。

如图2所示，该方法具体如下：

s201，在采集到用户的音频数据时，确定所述音频数据的音频波形图与唤醒词音频波形图的相似度。

其中，唤醒词音频波形图，是根据语音唤醒词预先生成的。

可选的，采集到用户的音频数据之后，可根据音频数据生成音频波形图。然后，计算音频波形图与唤醒词音频波形图之间的相似度。具体的，可根据音频波形图与唤醒词音频波形图的误差能量，确定音频波形图与唤醒词音频波形图的相似度。其中，基于误差能量等同于判断函数间正交性的方法。

s202，根据所述相似度和相似度阈值，确定所述音频数据中是否存在唤醒词音频段，若是，则执行s203，否则执行s206。

其中，相似度阈值可根据实际使用场景进行设置，此处对其不做具体限定。例如，设置为0.95或者0.98等。

可选的，确定出音频数据的音频波形图与唤醒词音频波形图的相似度之后，可将相似度与相似度阈值进行比对，以确定相似度是否大于相似度阈值。如果相似度大于相似度阈值，则说明该音频数据中存在唤醒词音频段；如果相似度小于或等于相似度阈值，则说明该音频数据中不存在唤醒词音频段。

s203，若是，则确定所述唤醒词音频段是否存在相邻音频段，若否，则执行s204，否则执行s205。

s204，若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

s205，若是，则采集所述用户的新音频数据。

s206，若否，则不作任何处理。

本发明实施例提供的技术方案，通过采集用户的音频数据，并确定音频数据的音频波形图与唤醒词音频波形图之间的相似度是否大于相似度阈值，当相似度大于相似度阈值，说明音频数据中存在唤醒词音频段，然后确定唤醒词音频段是否存在相邻音频段，如果唤醒词音频段不存在相邻音频段，则根据唤醒词音频段，对语音系统进行唤醒。由此，基于用户的音频数据，确定用户的用户场景是与车载语音系统交互场景，还是与其他用户交谈场景，以当用户场景是与车载语音系统交互场景时，根据用户音频数据中的唤醒词音频唤醒车载语音系统，从而降低车载语音系统的误唤醒率，提高车载语音系统的唤醒准确性。

实施例三

图3是本发明实施例三提供的一种车载语音系统的唤醒方法的流程示意图。在上述实施例的基础上，本实施例进行了进一步优化。具体的，在根据音频数据中的唤醒词音频段，对车载语音系统进行唤醒之后，还包括：接收用户发送的语音控制指令，以对语音控制指令进行识别，并根据识别结果控制车载语音系统执行相应操作。如图3所示，该方法具体如下：

s301，若获取到用户发送的语音控制指令，则对所述语音控制指令进行识别，得到识别结果。

可选的，当车载语音系统唤醒之后，可通过麦克风实时采集用户发送的语音控制指令，然后通过语音识别(automaticspeechrecognition，简称为：asr)技术，对获取的语音控制指令进行语音识别，以将语音控制指令转换为文字，得到识别结果。具体识别过程参见现有方案，此处对其不做过多赘述。

s303，根据所述识别结果，确定所述用户的用户意图。

可选的，可利用自然语言理解(naturallanguageunderstanding，简称为：nlu)技术，根据识别结果确定用户意图及槽位信息。

例如，若识别结果为“打开副驾驶位置的车窗”，则根据nlu技术确定用户意图为“开车窗”，槽位信息为：车窗位置＝“副驾驶位置”。

由于在实际使用过程中，用户发送的语音控制指令可能只表达需求，并未说明与该需求对应的相关信息。例如，识别结果为“打开车窗”，根据nlu技术只能确定用户意图为“开车窗”，却无法获取到槽位信息。针对这种情况，车载语音系统可通过对话管理(dialogmanagement，简称为：dm)器询问用户，以获取槽位信息。继续以上述示例说明：

用户(识别结果)：“打开车窗”；

dm器：“请问打开哪个位置的车窗”；

用户：“副驾驶位置的车窗”。

由此根据“副驾驶位置的车窗”，确定出槽位信息为：“副驾驶位置”

s304，根据所述用户意图，控制所述车载语音系统执行与所述用户意图对应的操作。

可选的，在确定用户意图及槽位信息之后，车载语音系统即可将用户意图和槽位信息发送给中央控制系统，以使中央控制系统根据用户意图和槽位信息，向对应器件发送控制指令，以使对应器件执行与控制指令对应的操作。或者，车载语音系统还可根据用户意图和槽位信息，向对应器件发送控制指令，以使对应器件执行与控制指令对应的操作。其中，控制指令包括：用户意图和槽位信息。

例如，如果用户意图为“开车窗”，槽位信息为：“副驾驶位置”，则向副驾驶位置的车窗升降部件发送开窗指令，以使车窗升降部件打开车窗。

在本发明实施例中，控制车载语音系统执行与用户意图对应的操作之后，还可基于自然语言生成(naturallanguagegeneration，简称为：nlg)技术，生成回复信息，以使用户与车载语音系统之间的语言交互更完整、自然。

例如，如果用户的意图为“播放毛不易的歌”，则车载语音系统会回复“好的，将为您播放毛不易的歌”，并打开播放器播放毛不易的歌。

本发明实施例提供的技术方案，根据采集的音频数据中的唤醒词音频段唤醒车载语音系统之后，车载语音系统可获取用户发送的语音控制指令，以确定用户意图，并根据用户意图执行对应操作，从而简化用户操作，提高对车辆控制的智能化，提高了用户使用体验。

基于上述实施例，本发明实施例在确定用户的用户意图之后，还可包括将识别结果显示在车载语音系统的显示界面中，从而便于用户基于显示识别结果，确定车载语音系统是否对用户语音的识别是否出现错误。

实施例四

图4是本发明实施例四提供的一种车载语音系统的唤醒装置的结构示意图。本发明实施例提供的车载语音系统的唤醒装置配置于车辆。如图4所示，本发明实施例提供的车载语音系统的唤醒装置400包括：第一确定模块410、第二确定模块420和唤醒控制模块430。

其中，第一确定模块410，用于在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段；

第二确定模块420，用于若是，则确定所述唤醒词音频段是否存在相邻音频段；

唤醒控制模块430，用于若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

作为本发明实施例的一种可选的实现方式，第一确定模块410，包括：相似度确定单元和第二确定单元；

其中，相似度确定单元，用于确定所述音频数据的音频波形图与唤醒词音频波形图的相似度；

第二确定单元，用于根据所述相似度和相似度阈值，确定所述音频数据中是否存在唤醒词音频段。

作为本发明实施例的一种可选的实现方式，第二确定单元，具体用于：

若所述相似度大于所述相似度阈值，则确定所述音频数据中存在唤醒词音频段；

若所述相似度小于或等于所述相似度阈值，则确定所述音频数据中不存在唤醒词音频段。

作为本发明实施例的一种可选的实现方式，第二确定模块，具体用于：

根据语音活动检测算法，确定所述唤醒词音频段是否存在相邻音频。

作为本发明实施例的一种可选的实现方式，所述装置还包括：数据采集模块；

其中，数据采集模块，用于若是，则采集所述用户的新音频数据。

作为本发明实施例的一种可选的实现方式，所述装置还包括：识别模块、第三确定模块和控制模块；

其中，识别模块，用于若获取到用户发送的语音控制指令，则对所述语音控制指令进行识别，得到识别结果；

第三确定模块，用于根据所述识别结果，确定所述用户的用户意图；

控制模块，用于根据所述用户意图，控制所述车载语音系统执行与所述用户意图对应的操作。

作为本发明实施例的一种可选的实现方式，所述装置还包括：显示模块；

其中，显示模块，用于将识别结果显示在所述车载语音系统的显示界面中。

需要说明的是，前述对车载语音系统的唤醒方法实施例的解释说明也适用于该实施例的车载语音系统的唤醒装置，其实现原理类似，此处不再赘述。

实施例五

图5是本发明实施例五提供的一种车辆的结构示意图。图5示出了适于用来实现本发明实施方式的示例性车辆500的框图。图5显示的车辆500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，该车辆包括麦克风510、存储装置520、处理器530、输入装置540和输出装置550；其中，麦克风510用于采集用户的音频数据。图5中以一个处理器530为例；车辆中的麦克风510、存储装置520、处理器530、输入装置540和输出装置550可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储装置520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的车载语音系统的唤醒方法对应的程序指令/模块(例如，车载语音系统的唤醒装置400中的第一确定模块410、第二确定模块420和唤醒控制模块430)。处理器530通过运行存储在存储装置520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的车载语音系统的唤醒方法，该方法包括：

在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段；

若是，则确定所述唤醒词音频段是否存在相邻音频段；

若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

当然,本发明实施例所提供的一种车辆,该车辆不限于如上所述的方法操作,还可以执行本发明实施例其他任意实施例所提供的车载语音系统的唤醒方法中的相关操作。

存储装置520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据车辆的使用所创建的数据等。此外，存储装置520可以包括高速随机存取存储装置，还可以包括非易失性存储装置，例如至少一个磁盘存储装置件、闪存器件、或其他非易失性固态存储装置件。在一些实例中，存储装置520可进一步包括相对于处理器530远程设置的存储装置，这些远程存储装置可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置540可用于接收输入的数字或字符信息，以及产生与车辆的用户设置以及功能控制有关的键信号输入。输出装置550可包括显示屏等显示设备。

需要说明的是，前述对车载语音系统的唤醒方法实施例的解释说明也适用于该实施例的车辆，其实现原理类似，此处不再赘述。

本发明实施例提供的车辆，通过采集用户的音频数据，以确定音频数据中是否存在唤醒词音频段，如果音频数据中存在唤醒词音频段，则确定唤醒词音频段是否存在相邻音频段，如果唤醒词音频段不存在相邻音频段，则根据唤醒词音频段，对语音系统进行唤醒。由此，基于用户的音频数据，确定用户的用户场景是与车载语音系统交互场景，还是与其他用户交谈场景，以当用户场景是与车载语音系统交互场景时，根据用户音频数据中的唤醒词音频唤醒车载语音系统，从而降低车载语音系统的误唤醒率，提高车载语音系统的唤醒准确性。

实施例六

为了实现上述目的，本发明还提出了一种计算机可读存储介质。

本发明实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的车载语音系统的唤醒方法，该方法包括：

在采集到用户的音频数据时，确定所述音频数据中是否存在唤醒词音频段；

若是，则确定所述唤醒词音频段是否存在相邻音频段；

若否，则根据所述唤醒词音频段，对车载语音系统进行唤醒。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。