一种车辆用多音区语音交互方法及电子设备与流程

2021-01-28 16:01:21|

252|

起点商标网

本申请涉及汽车电子技术领域，具体涉及一种车辆用多音区语音交互方法。

背景技术：

现在驾车过程中，经常会出现需要某一个问题(或某一轮对话)希望转移到另一个人来回答和完成对话，在多音区环境中(如4、6多音区等技术)，车机终端可以知道车厢内坐在哪个座位上的是哪位用户，也可以知道哪个座位的用户在进行语音交互。但是，目前汽车场景下语音交互多音区技术方案都不支持通过语音切换交互对象。

技术实现要素：

有鉴于此，本申请提供一种车辆用多音区语音交互方法，能够实现在车厢内车机终端与乘客对话时切换语音交互对象，根据不同乘客的特点，动态调整车机终端的话术、情绪，使得车厢内语音交互过程更真实、更自然、更个性化。

为解决上述技术问题，本申请采用以下技术方案：

第一方面，本申请提供一种车辆用多音区语音交互方法，方法包括：

车机终端依照音区的所在位置分别创建与一个或多个音区所在位置对应的语音交互链路；

车机终端设置语音交互链路处于监听状态，监听状态用于监听音区的用于唤醒的语音信号；

当一条或多条语音交互链路监听到音区的语音信号时，车机终端将该一条或多条语音交互链路切换到语音处理状态，语音处理状态用于处理其对应音区内的乘客输入的语音信号；

车机终端获取语音交互链路基于语音信号确定处理结果，并进行语音播报。

作为本申请的第一方面的一个实施例，车机终端依照音区的所在位置分别创建与一个或多个音区所在位置对应的语音交互链路，包括：

当车机终端识别到音区内有乘客，对乘客所在的音区创建语音交互链路。

作为本申请的第一方面的一个实施例，车机终端识别到音区内含有乘客，包括：

车机终端获取用于标识乘客的id；

基于用于标识乘客的id判断该乘客为已注册用户的置信度，

当置信度大于预设值，则确定该乘客为已注册用户，并获取该乘客的用户信息；

当置信度小于预设值时，判断乘客为新用户，并注册用户信息。

作为本申请的第一方面的一个实施例，注册用户信息包括：

车机终端获取的用于标识用户的id，以及用户姓名、用户昵称、用户年龄和用户喜好中的一种或多种。

作为本申请的第一方面的一个实施例，用于标识用户的id包括：面部id、声纹id和虹膜id中一种或多种。

作为本申请的第一方面的一个实施例，语音交互链路的语音处理状态包括：

前端信号处理，包括该语音交互链路获取对应音区的语音信号，并进行预处理，得到高质量的语音信号；

语音交互，包括该语音交互链路基于高质量的语音信号与乘客进行语音对话。

作为本申请的第一方面的一个实施例，前端信号处理，进一步包括：

语音端点检测，用于检测语音信号的起始位置，获取包含语音信息的有效语音信号和不包含语音信息的无效语音信号；

降噪处理，用于降低有效语音信号里的噪音干扰，提高信噪比；

回音消除，用于消除有效语音信号里的回音；

声源定位，基于麦克风阵列收集的语音信号，确定说话乘客所在位置；

波束形成，用于将麦克风阵列收集的多路语音信号，整合成一路语音信号，对声源进一步精确定位。

作为本申请的第一方面的一个实施例，语音交互包括：

语音识别，用于将包含语音信息的有效语音信号转化成第一文本信息；

语义理解，用于理解第一文本信息的含义；

对话管理，基于语义理解，判断乘客当前语音对话是否结束，并生成决策；

话术处理，基于决策套用预设的话术生成第二文本；

语音合成，将第二文本生成语音并反馈给车机终端播放。

作为本申请的第一方面的一个实施例，话术处理(nlg)包括下列方法的一种或多种：

语音交互链路选择默认话术风格；

语音交互链路选择模板配置话术风格；

语音交互链路选择模型生成话术风格。

作为本申请的第一方面的一个实施例，语音交互还包括：

第一条语音交互链路与第一音区的第一乘客语音对话，当语义理解识别到第一音区的第一乘客的目标词汇，且目标词汇指向第二乘客，则第一条语音交互链路切换成监听状态，且第二乘客对应第二音区的第二条语音交互链路状态由监听状态切换成语音处理状态，用于处理第二乘客所在第二音区的语音信号，且，

当第二条语音交互链路取得第二音区的语音信号的处理结果后，反馈给车机终端，并由车机终端进行语音播报，第二条语音交互链路状态由语音处理状态切换成监听状态，第一条语音交互的链路状态由监听状态切换成语音处理状态。

作为本申请的第一方面的一个实施例，语音交互还包括：

语音交互链路在语音处理状态预定时间范围内没有获取到语音信号时，语音交互链路由语音处理状态切换到监听状态。

作为本申请的第一方面的一个实施例，目标词汇包括：

用户称谓、用户昵称和用户姓名中的一种或多种。

作为本申请的第一方面的一个实施例，语音交互链路切换状态时，车机终端发送一个语音消息通知对应音区的乘客，以使乘客获知语音交互链路的状态。

作为本申请的第一方面的一个实施例，多条语音交互链路可以并行处理多个音区的乘客输入的语音信号。

作为本申请的第一方面的一个实施例，音区包括主驾座位区域和/或其他各乘客座位区域。

作为本申请的第一方面的一个实施例，车机终端按照得到处理结果的时间顺序进行语音播报。

第二方面，本申请实施例提供了一种电子设备，包括处理器和存储器，

存储器中存储有指令，

处理器，用于读取存储器中存储的指令，以执行上述车辆用多音区语音交互方法。

本申请的上述技术方案至少具有如下有益效果之一：

根据本申请实施例的车辆用多音区语音交互方法及电子设备，车机终端能够识别车厢不同音区的乘客，根据乘客的语音指令切换对话的语音对象，并且根据不同乘客的特点，动态调整车机终端的话术、情绪，使得车厢内语音交互过程更真实、更自然、更个性化，同时，车机终端能够对不同乘客的语音指令精准区分识别和处理，最终，车机终端能够快速响应不同乘客对于车辆设置、导航、音乐、视频等多种操作，让车厢内交互更加方便快捷。

附图说明

图1为本申请实施例的车辆用多音区语音交互方法的场景图；

图2为本申请实施例的语音交互链路与乘客对话的方法流程图；

图3为本申请实施例的注册乘客用户信息的方法流程图；

图4为本申请实施例的检测和识别乘客的方法流程图；

图5为本申请实施例的车辆用多音区语音交互的方法流程图；

图6为本申请实施例的语音信号处理的方法示意图；

图7为本申请实施例的切换语音交互链路的方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合具体的场景对本申请实施例进行说明。

图1是根据本申请一个实施例的车厢内乘客与车机终端进行语音交互的场景图。如图1所示，该场景汽车中有乘客，每个乘客分别坐在车厢不同位置，例如，主驾驶位，副驾驶位和后排位置，每个位置对应一个音区，车机终端先判断音区内有没有乘客，当有乘客时，创建一条与该音区对应的语音交互链路，车上有几位乘客，就创建几条语音交互链路，用于处理对应音区的乘客与车机终端的语音对话，多条语音交互链路并行，这样，不同位置的乘客都可以与车机终端进行语音交互，例如，小明爸爸坐在驾驶位，小明坐在副驾位置，车机终端启动时，判断驾驶位的音区和副驾位置的音区有乘客，创建两条语音交互链路，其中，一条管理车机终端与驾驶位音区的小明爸爸对话，另一条管理车机终端与副驾音区的小明对话，且两条被创建的语音链路处于监听状态，当小明爸爸说：“帮我导航去一个西餐馆。”，驾驶位的语音交互链路由监听状态切换成语音处理状态，与小明爸爸进行对话回答：“好的，找到了5个西餐馆。”，并通过车机终端播报，这时小明爸爸要接一个电话，说：“我有点儿事，让小明选吧！”，此时驾驶位的语音交互链路由语音处理状态切换到监听状态，暂停对话，副驾音区的语音交换链路由监听状态切换到语音处理状态，等待小明的语音输入，小明说：“去第3个吃牛排吧！”，这时，副驾音区的语音交换链路回答：“小明已经选了西堤牛排望京店，开始为你们导航。”，并通过车机终端播报，由此，可以实现汽车内多音区语音对象的切换，让车内交互更加方便快捷。

在本申请的一些实施例中，首先要确认乘客的用户信息，例如，当乘客进入车厢后，车机终端启动，开始检测和识别用户，车机终端的摄像头识别车厢内各个位置的乘客面部图像及坐在车厢中位置。

在确认汽车乘客的用户信息和位置信息后，开始创建语音交互链路管理车厢内乘客与车机终端的对话。

下面结合附图对本申请的车辆用多音区语音交互方法进行描述，图2示出了车辆用多音区语音交互方法的流程图，该方法应用于车机终端，实现多音区通过语音切换车机终端的交互对象，如图2所示，该方法包括：

步骤s210，车机终端依照音区的所在位置分别创建与一个或多个音区所在位置对应的语音交互链路，其中，一条语音交互链路管理一个音区的语音对话，具体创建语音交互链路的方法是，当车机终端识别到音区内有乘客，对乘客所在的音区创建语音交互链路，由此，该条语音交互链路可以管理位于该音区的乘客与车机终端之间的对话，需要注意的是，当车厢内有多位乘客时，同时创建多条语音交互链路时，其中，多条语音交互链路并行，同时处理多个音区的语音对话。

步骤s220，车机终端设置语音交互链路处于监听状态，监听状态用于监听音区的用于唤醒的语音信号，也就是说，当语音交互链路被创建时，语音交互链路处于监听状态，随时监听对应音区的语音信号，其中，用于唤醒的语音信号达百余个，覆盖导航、娱乐、车控、服务等大多数日常用车场景，同时为了响应唤醒的语音信号更加精准，语音交互链路采用了近百万条级别的语料训练，由此，语音交互链路能够随时响应乘客的语音信号且对乘客语音信号处理的更加精准。

步骤s230，当一条或多条语音交互链路监听到音区的语音信号时，车机终端将该一条或多条语音交互链路切换到语音处理状态，语音处理状态用于处理其对应音区内的乘客输入的语音信号，例如，乘客a说：“帮我查一下今天的天气”，其中，“帮我查一下”属于唤醒的语音信号，乘客a所在的音区对应的语音交互链路由监听状态切换到语音处理状态与乘客a进行对话，对话的语句通过车机终端播报出来，乘客b说：“我想听摇滚乐”，乘客b所在的音区对应的语音交互链路由监听状态切换到语音处理状态与乘客b进行对话，由此，可以实现多音区乘客的语音交互。

步骤s240，车机终端获取语音交互链路基于语音信号确定处理结果，并进行语音播报。例如，根据上一步骤，乘客a的语音交互链路基于语音信号确定处理结果是：查询天气，反馈给车机终端，则车机终端显示天气预报，乘客b的语音交互链路基于语音信号确定处理结果是：播放摇滚乐，反馈给车机终端，则车机终端播放摇滚乐，由此，各个音区的语音交互链路可以与各个音区的乘客使用自然语言语音交互，最终能够达到各个音区的用户可以语音控制车机终端，得到导航、娱乐、等各种服务。

由此，汽车不同音区的乘客车机终端对话，车机终端能够快速响应不同乘客对于车辆设置、导航、音乐、视频等多种操作，实现了汽车多音区通过语音切换车机终端的交互对象，让车厢内交互更加方便快捷。

在本申请的一些实施例中，车机终端识别到音区内含有乘客，包括：车机终端获取用于标识乘客的id，基于用于标识乘客的id判断该乘客为已注册用户的置信度，当置信度大于预设值，则确定该乘客为已注册用户，并获取该乘客的用户信息，当置信度小于预设值时，判断乘客为新用户，并注册用户信息。也就是说，在创建语音交互链路之前，需要先检测识别用户信息，如图3所示，根据面部id或声纹id识别用户，并获取乘客的昵称、乘客的年龄或乘客的爱好等信息，例如，当乘客进入车厢后，车机终端启动，开始检测和识别用户，车机终端的摄像头识别车厢内各个位置的乘客面部图像，与数据库中保存的用户面部id比较，判断乘客是否已经注册过用户信息，当面部id的置信度大于预设值，则确定该乘客为已注册用户，同时获取该乘客的用户信息，如昵称、年龄、喜好等信息，当面部id的置信度大于预设值小于预设值，可进一步获取乘客的声纹id与数据库中保存的用户声纹id比较，判断乘客是否已经注册过用户信息，当声纹id置信度大于预设值，则确定该乘客为已注册用户，同时获取该乘客的用户信息，当声纹id置信度小于预设值，则无法确认用户信息，返回识别用户的初始步骤，重新获取用户面部id来检测和识别用户。

在本申请的一些实施例中，如图4所示，注册用户信息包括：车机终端获取的用于标识用户的id，以及用户姓名、用户昵称、用户年龄和用户喜好中的一种或多种。也就是说，识别乘客的前提是已经数据库已经保存了乘客的注册用户信息，其中。注册用户信息需要唯一标识用户的id，例如：面部id、声纹id和虹膜id中一种或多种，在确定标识用户的id之后呢，关联的用户信息也要添加到用户属性表当中，其中，关联的用户信息包括用户姓名、用户昵称、用户年龄和用户喜好等内容，由此，为后续语音交互链路与乘客对话中的话术处理做准备。

在本申请的一些实施例中，如图5所示，语音交互链路的语音处理状态包括前端信号处理和语音交互，前端信号处理是语音交互链路获取对应音区的语音信号，并进行预处理，得到高质量的语音信号，语音交互是该语音交互链路基于高质量的语音信号与乘客进行语音对话。

在本申请的一些实施例中，前端信号处理，进一步包括语音端点检测(voiceactivitydetection，vad)、降噪处理、回音消除(acousticechocancellation，aec)、声源定位(directionofarrival，doa)和波束形成(beamforming，bf)，语音端点检测用于检测语音信号的起始位置，获取包含语音信息的有效语音信号和不包含语音信息的无效语音信号，降噪处理用于降低有效语音信号里的噪音干扰，提高信噪比，回音消除用于消除有效语音信号里的回音，声源定位基于麦克风阵列收集的语音信号，确定说话乘客所在位置，波束形成用于将麦克风阵列收集的多路语音信号，整合成一路语音信号，对声源进一步精确定位。

在本申请的一些实施例中，语音交互包括语音识别(automaticspeechrecognition，asr)、语义理解(naturallanguageunderstanding，nlu)、对话管理(dialogmanagement，dm)、话术处理(naturallanguagegeneration，nlg)和语音合成(texttospeech，tts)，语音识别用于将包含语音信息的有效语音信号转化成第一文本信息，语义理解用于理解第一文本信息的含义，对话管理基于语义理解，判断乘客当前语音对话是否结束，并生成决策，话术处理基于决策套用预设的话术生成第二文本，语音合成将第二文本生成语音并反馈给车机终端播放。

在本申请的一些实施例中，话术处理(naturallanguagegeneration，nlg)包括下列方法的一种或多种：语音交互链路选择默认话术风格、语音交互链路选择模板配置话术风格或者语音交互链路选择模型生成话术风格。

在本申请的一些实施例中，如图6所示，根据音区内是否有乘客创建对应的语音交互链路，该语音交互链路管理与对应乘客的对话，为了让对话更加方便自然，该语音交互链路会选择话术模板，话术模板可以根据对话的对象调整语音风格，例如，小明爸爸坐在驾驶位，小明坐在副驾位置，小明爸爸说：“帮我查一下今天会议安排。”这时驾驶位的语音交互链路会选择话术模板，使用一个私人秘书的角色风格的语音，严谨专业的情绪，通过车机终端播报会议安排、时间和地点，参加的人员、会议的议题等重要信息，而这时副驾的小明说：“我想看小猪佩奇。”，此时驾驶位的语音通话链路会切换到监听状态，暂停对话，副驾的语音交互链路就会选择话术模板，使用一个幼儿园老师的角色风格的语音，非常甜美有亲合力的情绪，通过车机终端播报出“可爱的小猪佩奇来啦！”，即可以针对不同的语音交互对象采用不同的语音交互风格。

由此，语音交互链路可以根据不同乘客的特点，动态调整车机终端的话术、情绪，使得车厢内语音交互过程更真实、更自然、更个性化。

上述对语音信号的处理对于本领域技术人员而言都是常规处理步骤，可以理解并容易实现的，因此不再详细描述。

在本申请的一些实施例中，语音交互还包括：

第一条语音交互链路与第一音区的第一乘客语音对话，当语义理解(naturallanguageunderstanding，nlu)识别到第一音区的第一乘客的目标词汇，且目标词汇指向第二乘客，则第一条语音交互链路切换成监听状态，且第二乘客对应第二音区的第二条语音交互链路状态由监听状态切换成语音处理状态，用于处理第二乘客所在第二音区的语音信号，且，

在本申请的一些实施例中，语音交互还包括：语音交互链路在语音处理状态预定时间范围内没有获取到语音信号时，语音交互链路由语音处理状态切换到监听状态。

在本申请的一些实施例中，目标词汇包括用户称谓、用户昵称和用户姓名中的一种或多种。

如图7所示，根据音区内是否有乘客创建语音交互链路，语音交互链路监听对应音区的语音信号，例如，第一音区的语音交互链路在监听状态监听到第一音区的乘客说：“我饿了”，其中，“我饿了”属于唤醒语音信号，该条语音交互链路即由监听状态切换到语音处理状态与乘客进行对话，通过车机终端询问乘客是否导航去附近的饭店就餐，该条语音交互链路的语音处理状态等待乘客继续输入语音信号，如，乘客回答：“妈妈你来选择一家饭店”，其中，“妈妈”是目标词汇，则第一音区的语音交互链路识别乘客的语音指令里的目标词汇“妈妈”，并确定妈妈在第二音区，第一音区的语音交互链路由语音处理状态切换到监听状态，且妈妈所在第二音区的语音交互链路由监听状态变成语音处理状态，例如，妈妈回答：“去吃火锅”，则第二音区的语音交互链路与妈妈进行对话，通过车机终端询问妈妈去哪一家火锅店，妈妈回答：“第一家火锅店”，第二音区的语音交互链路通过车机终端询问妈妈是否导航去附近的火锅店就餐，如果妈妈说：“导航去”，第二音区的语音交互链路基于妈妈的语音信号判断对话结束，并把妈妈需要导航去第一家火锅店的处理结果反馈给车机终端，车机终端则显示导航路线，帮助乘客导航到附近的快餐店就餐，当第二音区的语音交互链路在一段时间范围内没有捕捉到语音信号，则判断该轮语音对话结束，第二音区的语音交互链路由语音处理状态切换到监听状态，由此，语音交互链路可以切换到各个音区，与各个音区的乘客使用自然语言语音交互，最终能够达到各个音区的用户可以语音控制车机终端，得到导航、娱乐、等各种服务。

在本申请的一些实施例中，语音交互链路切换状态时，车机终端发送一个语音消息通知对应音区的乘客，以使乘客获知语音交互链路的状态，由此，可以提醒乘客是否进入语音操作车机状态，更加准确地与车机终端进行语音交互。

在本申请的一些实施例中，音区包括主驾座位区域和/或其他各乘客座位区域，根据车型不同，一般汽车车厢内部分为四音区和八音区，每一个音区与乘客座位位置对应。

在本申请的一些实施例中，车机终端按照得到处理结果的时间顺序进行语音播报，由此，避免了车机终端同时播报多条语音交互链路的处理结果，造成混乱。

本申请还提供一种电子设备，包括处理器和存储器，

存储器中存储有指令，处理器用于读取存储器中存储的指令，以执行上述车辆用多音区语音交互方法中任一项步骤。

由此，本申请实施例的车辆用多音区语音交互方法及电子设备，车机终端能够识别车厢不同音区的乘客，根据乘客的语音指令切换对话的语音对象，并且根据不同乘客的特点，动态调整车机终端的话术、情绪，使得车厢内语音交互过程更真实、更自然、更个性化，同时，车机终端能够对不同乘客的语音指令精准区分识别和处理，最终，车机终端能够快速响应不同乘客对于车辆设置、导航、音乐、视频等多种操作，让车厢内交互更加方便快捷。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除