语音交互方法、装置、终端设备及介质与流程
本发明属于人工智能技术领域,尤其涉及一种语音交互方法、装置、终端设备及计算机可读存储介质。
背景技术:
智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。由于智能音箱需要依赖于用户发出的语音信息来进行操作控制,因此,语音识别准确率是影响智能音箱性能的一个关键因素。
随着智能音箱类产品的不断发展,用户对于语音交互服务的需求也在不断扩大。由于每款智能音箱的语音交互方式通常都是固定的,因此,若此类固定的语音交互服务不足以满足用户,或者用户想要探索更加有趣的语音交互方式,体验不同产品的语音交互特点,则势必要购买多款智能音箱类产品。然而,多款智能音箱在同时使用时又会造成相互间的交互困难,不同的智能音箱在处理同一语音信息时,容易会出现语义理解误差,从而出现各类用户体验类问题,降低了智能音箱的用户粘度。
技术实现要素:
有鉴于此,本发明实施例提供了一种语音交互方法、装置、终端设备及计算机可读存储介质,以解决现有技术中,语音交互准确率较为低下的问题。
本发明实施例的第一方面提供了一种语音交互方法,包括:
接收用户发出的语音信息;
通过预设的n个语音识别器,分别对所述语音信息进行识别处理,得到n个第一识别结果;
选取所述n个第一识别结果中的优选识别结果,并将所述优选识别结果分别输入至预设的m个nlp处理器,以输出m个第二识别结果;
在所述m个第二识别结果中,筛选出与预设策略表的节点相匹配的所述第二识别结果,所述策略表预置有用户喜好历史模型;
将所述筛选出的第二识别结果传递给预设的语音播报器,以通过所述语音播报器播报语音信息;
其中,所述n和m均为大于零的整数。
本发明实施例的第二方面提供了一种语音交互装置,包括:
接收单元,用于接收用户发出的语音信息;
识别单元,用于通过预设的n个语音识别器,分别对所述语音信息进行识别处理,得到n个第一识别结果;
选取单元,用于选取所述n个第一识别结果中的优选识别结果,并将所述优选识别结果分别输入至预设的m个nlp处理器,以输出m个第二识别结果;
筛选单元,用于在所述m个第二识别结果中,筛选出与预设策略表的节点相匹配的所述第二识别结果,所述策略表预置有用户喜好历史模型;
播报单元,用于将所述筛选出的第二识别结果传递给预设的语音播报器,以通过所述语音播报器播报语音信息;
其中,所述n和m均为大于零的整数。
本发明实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述语音交互方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现如上述语音交互方法的步骤。
本发明实施例中,在接收到用户发出的语音信息时,通过利用识别能力各异的n个语音识别器来对该语音信息进行识别处理,能够获得不同语音服务提供商所提供的语音识别结果;通过进一步选取出其中优选识别结果,能够提高语音识别的准确率,满足用户对于多样化的语音交互服务的需求;在语音识别完成后,通过利用nlp处理器来再次处理当前的语音识别结果,使得智能音箱能够准确理解用户所发出的控制命令,保证了用户能获得更为准确的语音交互响应数据,从技术层面提供用户无感知而且更加高效的用户体验。本发明实施例中,由于用户能够基于多样化的语音语义服务提供商来获得更加全面的语音交互响应数据,因而在提高了语音交互准确率的同时,也进一步提高了智能音箱的用户体验度以及用户粘度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音交互方法的实现流程图;
图2是本发明实施例提供的语音交互方法s104的具体实现流程图;
图3是本发明实施例提供的语音交互方法s1043的具体实现流程图;
图4是本发明实施例提供的语音交互方法s1044的具体实现流程图;
图5是本发明实施例提供的语音交互装置的结构框图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。在本发明的各个实施例中,流程的执行主体为智能音箱。值得注意的是,除了智能音箱之外,本发明所提供的语音交互方法还适应于其他包含语音识别技术的应用场景,在此不作限定。
图1示出了本发明实施例提供的语音交互方法的实现流程,详述如下:
在s101中,接收用户发出的语音信息。
本发明实施例中,通过预置的语音拾取器,采集目标范围内的语音信息。其中,语音拾取器可以是内置的话筒,也可以是信号接收器。
当上述语音拾取器为内置的话筒时,令该话筒时刻处于工作状态,并持续检测目标范围内的声音信号。若检测到当前声音信号的振幅值大于预设阈值,则将该段声音信号记录为用户发出的语音信息。
当上述语音拾取器为信号接收器时,其用于接收远程设备所转发过来的模拟信号,以对远程用户所传输的语音信息进行捕获。
在s102中,通过预设的n个语音识别器,分别对所述语音信息进行识别处理,得到n个第一识别结果。
本发明实施例中,将接收到的语音信息传输至内部集成的n(n为大于零的整数)个语音识别器,或者,根据预存储的各个网络地址,将语音信息分别发送至与网络地址对应的各个语音识别器。其中,每一个语音识别器与一个平台的语音识别服务商关联,即,每一语音识别器具有一语音识别服务商所特定的语音处理方式。
本发明实施例中,令n个语音识别器分别对接收到的语音信息进行语音识别处理,以将基于模拟信号的语音信息转换为文本信息。由于每一语音识别器在对语音信息进行识别处理后能够得到一个识别结果,因此,对于n个语音识别器,能够输出n个识别结果。
可选地,若上述n等于一,则确定出预先指定的一个语音识别器,并令该语音识别器对当前接收到的语音信息进行识别处理。上述预先指定的一个语音识别器可根据用户发出的设置指令来确定。
可选地,获取智能音箱所属的地理区域,根据该地理区域所对应的语言类别,确定与该语言类别相符的一个或多个语音识别器。例如,若智能音箱所属的地理区域为香港,则其对应的语言类别为粤语,因此,将用于执行粤语语音识别的语音识别器进行选定。
在s103中,选取所述n个第一识别结果中的优选识别结果,并将所述优选识别结果分别输入至预设的m个nlp处理器,以输出m个第二识别结果。
在n个语音识别器所输出的n个识别结果中,选取出一个优选识别结果来作为上述语音信息的文本转换结果。本发明实施例中,将该优选识别结果输入下一层级的自然语言(naturallanguageprocessing,nlp)处理器中。其中,nlp处理器的数目有m(m为大于零的整数)个,以使得每一个nlp处理器分别对上述优选识别结果进行语义识别处理后,输出得到一个语义识别结果。不同的nlp处理器关联不同的语义服务提供商,保证各个语义识别器能够应用不同的识别算法。
本发明实施例中,为了便于区分,将语音识别器所输出的识别结果称为第一识别结果,将nlp处理器输出的识别结果称为第二识别结果。
可选地,若上述m等于一,则可根据用户预先发出的选择参数,确定出指定的一个nlp处理器;或者,对语音识别器所输出的优选识别结果进行检测,在确定与优选识别结果对应的类别领域后,从预设的m个nlp处理器中选取匹配该类别领域的一个nlp处理器。
可选地,获取智能音箱所属的地理区域,根据该地理区域所对应的语言类型,确定与该语言类型相符的一个nlp处理器。例如,若智能音箱所属的地理区域为西班牙,则其对应的语音类型为西班牙语,因此,将用于执行西班牙语义识别的一个nlp处理器进行选定。
在s104中,在所述m个第二识别结果中,筛选出与预设策略表的节点相匹配的所述第二识别结果,所述策略表预置有用户喜好历史模型。
本发明实施例中,根据预设策略表,选取出m个第二识别结果中最符合用户实际语义的识别结果。由于筛选出的第二识别结果用于描述用户发出的控制指令,因此,在后台数据库中,基于选出的该个识别结果,获取并返回与该控制指令匹配的响应数据。
示例性地,上述预设策略表的节点可以是,第二识别结果所属的技术领域与历史交互记录中的各个技术领域的命中率最高;或者,第二识别结果不存在于预设的交互信息记录黑名单等。
在s105中,将所述筛选出的第二识别结果传递给预设的语音播报器,以通过所述语音播报器播报语音信息;其中,所述n和m均为大于零的整数。
本发明实施例中,语音播报器用于实现文字转声音的功能。将上述s104中筛选出的第二识别结果传入语音播报器,以实现对该语音信息的播报。
可选地,语音播报器具有多种属性,包括但不限于语言类型、音色类型、以及节奏速度等。通过接收用户所预先发出的设置指令,可确定基于用户个人喜好的语音播放器的属性,从而通过该指定属性的语音播放器来进行语音播报。
本发明实施例中,在接收到用户发出的语音信息时,通过利用识别能力各异的n个语音识别器来对该语音信息进行识别处理,能够获得不同语音服务提供商所提供的语音识别结果;通过进一步选取出其中优选识别结果,能够提高语音识别的准确率,满足用户对于多样化的语音交互服务的需求;在语音识别完成后,通过利用nlp处理器来再次处理当前的语音识别结果,使得智能音箱能够准确理解用户所发出的控制命令,保证了用户能获得更为准确的语音交互响应数据,从技术层面提供用户无感知而且更加高效的用户体验。本发明实施例中,由于用户能够基于多样化的语音语义服务提供商来获得更加全面的语音交互响应数据,因而在提高了语音交互准确率的同时,也进一步提高了智能音箱的用户体验度以及用户粘度。
作为本发明的一个实施例,图2示出了本发明实施例提供的语音交互方法s104的具体实现流程,详述如下:
s1041:获取每一所述第二识别结果所分别对应的类别领域,并统计每一所述类别领域的出现频次。
s1042:确定出所述出现频次最高的所述类别领域所对应的所述第二识别结果。
本发明实施例中,对nlp处理器所输出的每一个第二识别结果进行分类检测,以确定出每一个第二识别结果所分别对应的类别领域。类别领域包括但不限于“影音”、“问答互动”以及“家居控制”等。
示例性地,若存在一第二识别结果为“播放晴天这首歌”,则与该第二识别结果对应的类别领域为“影音”。其中,上述类别领域的检测过程可基于各领域所预先训练的神经网络模型来匹配实现。
本发明实施例中,分别统计每一类别领域在检测结果中的出现频次。选取出出现频次最高的一个类别领域来作为语音信息最终所对应的类别领域,并确定对应该类别领域的第二识别结果。
s1043:判断所述确定出的所述第二识别结果与预设的用户喜好历史模型是否存在匹配条件。
s1044:若存在,则从所述用户喜好历史模型中,获取与该第二识别结果相对应的匹配条件,并控制所述语音播报器根据所述匹配条件输出语音信息。
将确定出的各个第二识别结果与用户喜好历史模型进行比对,以判断该第二识别结果与预设的用户喜好历史模型是否存在匹配条件。
示例性地,上述判断确定出的所述第二识别结果与用户喜好历史模型是否存在匹配条件,具体包括:
判断当前确定出的第二识别结果所对应的类别领域是否为随机类型领域。随机类型领域用于表示与第二识别结果对应的响应数据为数据结果集中所随机选取的数据。若判断结果为是,则确定第二识别结果与用户喜好历史模型存在匹配条件。此时,从用户喜好历史模型中,获取与该第二识别结果相对应的响应数据,并对该响应数据进行标记后重新加入数据结果集。
优选地,当确定出的第二识别结果与预设的用户喜好历史模型存在匹配条件时,上述s1044还包括:
获取最近预设时长的历史交互信息;对确定出的每一个第二识别结果,判断该第二识别结果是否出现在历史交互信息中。若判断结果为是,且其在最近预设时长内的出现次数大于预设阈值,则表示用户对该第二识别结果的历史响应数据不满意。此时,从用户喜好历史模型的结果数据集中,剔除上述历史响应数据,并重新查找及返回与该第二识别结果对应的响应数据。
例如,若当前检测到的第二识别结果为“播放音乐”,且最近预设时长的历史交互信息中出现了多次“播放音乐”,历史响应数据为歌曲a,则表示用户对歌曲a不满意,因此,需要将该历史响应数据进行剔除,并查找除歌曲a之外的另一歌曲作为当前时刻的响应数据。
作为本发明的一个实施例,在上述实施例的基础之上,对第二识别结果与预设的用户喜好历史模型的匹配过程作进一步地限定。具体地,上述步骤s1043包括:
s10431:根据所述第二识别结果所对应的所述类别领域,加载所述用户喜好历史模型所关联的访问控制列表。
s10432:判断确定出的所述第二识别结果是否存在于所述访问控制列表。
s10433:若确定出的所述第二识别结果不存在于所述访问控制列表,则确定所述第二识别结果与所述用户喜好历史模型匹配。
本发明实施例中,获取第二识别结果所对应的类别领域,在用户喜好历史模型所关联的各个访问控制列表中,加载匹配于当前类别领域的访问控制列表。访问控制列表用于记录当前禁止使用的各项语义识别结果。
例如,若类别领域为影音播放,则加载的访问控制列表为与影音播放权限相关的访问控制列表。示例性地,若访问控制列表中存储有“播放《留言》”这条信息记录,则表示当前禁止将任一语音信息识别为“播放《留言》”这一结果,从而避免了智能音箱需要查找及播放《留言》这一歌曲。
本发明实施例中,对于当前确定出的每一第二识别结果,判断该第二识别结果是否存在于访问控制列表中。若判断结果为是,则确定该第二识别结果与用户喜好历史模型不存在匹配条件,此时,对该第二识别结果进行剔除。若该第二识别结果不存在于访问控制列表,则确定第二识别结果与用户喜好历史模型存在匹配条件。
例如,若用户发出的语音信息为“播放留言”,且存在两个第二识别结果分别为“启动播放留言功能”以及“播放《留言》这首歌”,而用户请求的真实意图为想要使用留言功能,则此时,通过将两个第二识别结果分别与访问控制列表进行匹配后,可丢弃“播放《留言》这首歌”这一第二识别结果,仅将匹配得到的“启动播放留言功能”这一第二识别结果进行保留。
优选地,访问控制列表所包含的各项信息记录可根据用户的自定义参数来设置,也可以根据用户的历史反馈结果来学习训练获得。
本发明实施例中,通过根据第二识别结果所对应的类别领域,加载与之关联的访问控制列表,仅在第二识别结果不存在于访问控制列表时,才确定该第二识别结果与用户喜好历史模型存在匹配条件,进而才从用户喜好历史模型中,获取与该第二识别结果相对应的响应数据,保证了语音播报器最终所播报的响应数据与用户的实际需求能够具有较高吻合度,提高了语义识别的准确度;由于用户还能根据自主探索的用户行为来设置访问控制列表的信息记录,因而也提高了智能音箱的使用灵活度。
作为本发明的一个实施例,图4示出了本发明实施例提供的语音交互方法s1044的具体实现流程,详述如下:
s10441:若所述确定出的所述第二识别结果与预设的用户喜好历史模型存在匹配条件,则对当前所存在的各项所述匹配条件进行选取。
s10442:分别计算所述第二识别结果与各项所述匹配条件的匹配程度。
s10443:将所述匹配程度最高的所述匹配条件进行选取。
本发明实施例中,在将各个第二识别结果与预设的用户喜好历史模型进行匹配比对后,若第二识别结果与用户喜好历史模型不存在匹配条件,则获取预存储的模板数据,将该模板数据作为响应数据进行返回及播报。
例如,上述预存储的模板数据可以是语音信息“我听不太懂,可以再说一次吗”。
若第二识别结果与用户喜好历史模型存在匹配条件,则在分别计算第二识别结果与其中每一项匹配条件的匹配程度。
第二识别结果与各项匹配条件的匹配程度计算方式可以通过余弦相似度计算算法、欧式距离计算算法和或其余自定义的算法来实现。
本发明实施例中,筛选出匹配程度最高的一项匹配条件,以控制语音播报器根据该匹配条件来输出待播报的语音信息。
本发明实施例中,在得到nlp处理器所返回的多个第二识别结果后,若第二识别结果与用户喜好历史模型存在匹配条件,则通过计算并筛选出匹配程度最高的匹配条件,保证了用户能够在使用多类不同特点的语音交互算法的同时,还能够得到相对最优的交互响应结果,因此,最大程度地满足了用户的多元化语音交互需求,提高了语音交互的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于本发明实施例所提供的语音交互方法,图5示出了本发明实施例提供的语音交互装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该装置包括:
接收单元51,用于接收用户发出的语音信息。
识别单元52,用于通过预设的n个语音识别器,分别对所述语音信息进行识别处理,得到n个第一识别结果。
选取单元53,用于选取所述n个第一识别结果中的优选识别结果,并将所述优选识别结果分别输入至预设的m个nlp处理器,以输出m个第二识别结果。
筛选单元54,用于在所述m个第二识别结果中,筛选出与预设策略表的节点相匹配的所述第二识别结果,所述策略表预置有用户喜好历史模型。
播报单元55,用于将所述筛选出的第二识别结果传递给预设的语音播报器,以通过所述语音播报器播报语音信息。
其中,所述n和m均为大于零的整数。
可选地,所述筛选单元54包括:
第一获取子单元,用于获取每一所述第二识别结果所分别对应的类别领域,并统计每一所述类别领域的出现频次。
确定子单元,用于确定出所述出现频次最高的所述类别领域所对应的所述第二识别结果。
判断子单元,用于判断所述确定出的所述第二识别结果与预设的用户喜好历史模型是否存在匹配条件。
第二获取子单元,用于在判断结果为存在时,从所述用户喜好历史模型中,获取与该第二识别结果相对应的匹配条件,并控制所述语音播报器根据所述匹配条件输出语音信息。
可选地,所述判断子单元具体用于:
根据所述第二识别结果所对应的所述类别领域,加载所述用户喜好历史模型所关联的访问控制列表;
判断确定出的所述第二识别结果是否存在于所述访问控制列表;
若确定出的所述第二识别结果不存在于所述访问控制列表,则确定所述第二识别结果与所述用户喜好历史模型匹配。
可选地,所述第二获取子单元具体用于:
若所述确定出的所述第二识别结果与预设的用户喜好历史模型存在匹配条件,则对当前所存在的各项所述匹配条件进行选取;
分别计算所述第二识别结果与各项所述匹配条件的匹配程度;
将所述匹配程度最高的所述匹配条件进行选取。
可选地,所述语音交互装置还包括:
获取单元,用于获取所述用户所属的地理区域。
确定单元,用于确定与所述地理区域对应的n个nlp处理器。
本发明实施例中,在接收到用户发出的语音信息时,通过利用识别能力各异的n个语音识别器来对该语音信息进行识别处理,能够获得不同语音服务提供商所提供的语音识别结果;通过进一步选取出其中优选识别结果,能够提高语音识别的准确率,满足用户对于多样化的语音交互服务的需求;在语音识别完成后,通过利用nlp处理器来再次处理当前的语音识别结果,使得智能音箱能够准确理解用户所发出的控制命令,保证了用户能获得更为准确的语音交互响应数据,从技术层面提供用户无感知而且更加高效的用户体验。本发明实施例中,由于用户能够基于多样化的语音语义服务提供商来获得更加全面的语音交互响应数据,因而在提高了语音交互准确率的同时,也进一步提高了智能音箱的用户体验度以及用户粘度。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如语音交互程序。所述处理器60执行所述计算机程序62时实现上述各个语音交互方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至65的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除