HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种音频中断方法、装置以及计算机可读存储介质与流程

2021-01-28 13:01:28|356|起点商标网
一种音频中断方法、装置以及计算机可读存储介质与流程

本发明涉及语音处理领域,尤其涉及一种音频中断方法、装置以及计算机可读存储介质。



背景技术:

现有的打断技术主要应用于智能客服对话中,即在机器人说话的过程中用户可以随时打断机器人的讲话。但是由于asr系统本身的识别结果延迟较大,从用户开始讲话到触发打断事件,延迟接近1s,导致用户在打断之后的1s内,智能客服仍在tts(文字转语音)播报,影响打断的用户体验。



技术实现要素:

本发明实施例提供了一种音频中断方法、装置以及计算机可读存储介质,具有降低打断延迟,以提升用户体验感的技术效果。

本发明一方面提供一种音频中断方法,所述方法包括:获取音频数据的多个特征向量数据;针对多个所述特征向量数据,生成用于表征所述音频数据为特定音频的置信度;根据所生成的置信度,停止当前音频信息的输出。

在一可实施方式中,所述获取音频数据的多个特征向量数据,包括:流式地提取所述音频数据中多个连续的音频片段数据;分别提取多个所述音频片段数据的特征,生成多个特征向量数据。

在一可实施方式中,所述多个连续的音频片段数据的提取时间间隔相等,并且相邻的音频片段数据之间部分数据重叠。

在一可实施方式中,所述针对多个所述特征向量数据,生成用于表征所述音频数据为特定音频的置信度,包括:针对每一个所述特征向量数据,分别生成用于表征所述特征向量数据为预设分类信息的概率值;根据每一个所述特征向量数据所对应的概率值,生成用于表征所述音频数据为特定音频的置信度

在一可实施方式中,所述针对每一个所述特征向量数据,分别生成用于表征所述特征向量数据为预设分类信息的概率值,包括:将每个所述特征向量数据分别输入于分类器模型进行训练,分别输出用于表征所述特征向量数据为预设分类信息的概率值。

在一可实施方式中,所述分类器模型为二分类器模型,所述预设分类信息为人声信息。

在一可实施方式中,所述根据每一个所述特征向量数据所对应的概率值,生成用于表征所述音频数据为特定音频的置信度,包括:流式地统计至少部分所述概率值中超过概率阈值的数量;若判定所统计的数量超过指定数量阈值,则根据所参与统计的概率值生成用于表征所述音频数据为特定音频的置信度。

在一可实施方式中,所述根据所参与统计的概率值生成用于表征所述音频数据为特定音频的置信度,包括:选取所参与统计的概率值中超过所述概率阈值的概率值;计算所选取的概率值的几何平均值,生成置信度,计算公式如下:con=0(m<tc);其中,con表示置信度,m表示超过所述概率阈值的概率值数量,pi表示所述特征向量数据为预设分类信息的概率值,tp表示概率阈值,tc表示指定数量阈值。

本发明另一方面提供一种音频中断装置,所述装置包括:特征获取模块,用于获取音频数据的多个特征向量数据;置信度生成模块,用于针对多个所述特征向量数据,生成用于表征所述音频数据为特定音频的置信度;置信度执行模块,用于根据所生成的置信度,停止当前音频信息的输出。

本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的音频中断方法。

在本发明实施例中,通过利用特征向量数据所生成的置信度来决定停止当前音频信息的输出,不需要通过现有技术中语音识别解码器得到识别结果,大大减少了计算量,进而降低了打断的延迟,提升了用户体验。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种音频中断方法的实现流程示意图;

图2为本发明实施例一种音频中断方法中相邻音频片段数据之间的关系示意图;

图3为本发明实施例一种音频中断装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例一种音频中断方法的实现流程示意图。

如图1所示,本发明一方面提供一种音频中断方法,方法包括:

步骤101,获取音频数据的多个特征向量数据;

步骤102,针对多个特征向量数据,生成用于表征音频数据为特定音频的置信度;

步骤103,根据所生成的置信度,停止当前音频信息的输出。

本实施例中,在步骤101中,音频数据可通过音频采集设备如录音笔或者麦克风进行采集,音频数据具体可以是人声、动物的叫声或者大自然的声音。

在步骤102中,特定音频也可以是人声、动物声或者大自然声音中的其中一种,可以事先根据实际应用进行指定。

在步骤103中,置信度用于表示音频数据为特定音频的可靠程度,置信度越高,说明音频数据为特定音频的几率越大。当前音频信息主要由机器端或者设备端进行输出,当置信度满足一定条件时,便停止当前音频信息的输出。

由此,通过利用特征向量数据所生成的置信度来决定停止当前音频信息的输出,不需要通过现有技术中语音识别解码器得到识别结果,大大减少了计算量,进而降低了打断的延迟,提升了用户体验。

该方法在应用于智能客服对话场景中时,设备端在判定接收到的音频数据为人声时,智能客服能立即停止当前音频输出,并继续接收用户的声音。

该方法还可以应用于音频输出设备中,如音频输出设备如车载音响正在播放的过程中,如果接收到车辆周围的鸣笛声则停止当前播放,以让驾驶员听清,提升驾驶安全。

在一可实施方式中,获取音频数据的多个特征向量数据,包括:

流式地提取音频数据中多个连续的音频片段数据;

分别提取多个音频片段数据的特征,生成多个特征向量数据。

本实施例中,步骤101的具体过程为:

将音频数据按照从头数据节点到尾数据节点的顺序提取多个连续的音频片段数据;

接着对每个音频片段数据提取mfccs(melfrequencycepstralcoefficients)特征或filterbank特征,生成多个特征向量数据。

图2为本发明实施例一种音频中断方法中相邻音频片段数据之间的关系示意图。

在一可实施方式中,多个连续的音频片段数据的提取时间间隔相等,并且相邻的音频片段数据之间部分数据重叠。

本实施例中,如图2所示,时间间隔优选为一帧的时间,即25ms。为了避免音频数据的遗漏,在提取时优选每隔10ms提取一帧,致使相邻的音频片段数据之间部分数据重叠,图2中的阴影部分即为重叠部分。

在一可实施方式中,针对每一个特征向量数据,生成用于表征音频数据为特定音频的置信度,包括:

针对每一个特征向量数据,分别生成用于表征特征向量数据为预设分类信息的概率值;

根据每一个特征向量数据所对应的概率值,生成用于表征音频数据为特定音频的置信度。

本实施例中,步骤102的具体过程为:

针对每一个特征向量数据,判断生成该特征向量数据为预设分类信息的概率值,其中预设分类信息可根据实际应用实现设定,如应用于智能客服对话时,预设分类信息为人声,应用于车辆行驶时,预设分类信息为鸣笛声。

根据每个特征向量数据的概率值,生成用于表征音频数据为特定音频的置信度。

在一可实施方式中,针对每一个特征向量数据,分别生成用于表征特征向量数据为预设分类信息的概率值,包括:

将每个特征向量数据分别输入于分类器模型进行训练,分别输出用于表征特征向量数据为预设分类信息的概率值。

本实施例中,生成概率值的具体步骤为:

将每个特征向量分别输出分类器模型进行训练,其中分类器模型能够把数据映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

分类器在应用于本方法时需要进行训练,大体会经过以下几个步骤:

1、选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。

2、在训练样本上执行分类器算法,生成分类模型。

3、在测试样本上执行分类模型,生成预测结果。

4、根据预测结果,计算必要的评估指标,评估分类模型的性能。

在一可实施方式中,分类器模型为二分类器模型,预设分类信息为人声信息。

本实施例中,分类器模型为二分类器模型,优选用于预测特征向量数据为人声信息(记为pi)的概率和非人声信息的概率(记为qi),并且满足pi+qi=1。

在一可实施方式中,根据每一个特征向量数据所对应的概率值,生成用于表征音频数据为特定音频的置信度,包括:

流式地统计至少部分概率值中超过概率阈值的数量;

若判定所统计的数量超过指定数量阈值,则根据所参与统计的概率值生成用于表征音频数据为特定音频的置信度。

本实施例中,生成置信度的具体过程为:

利用滑动窗口(slidingwindow)技术按照数据流先后顺序流式地选取指定数量概率值,判定所选取的所有概率值中超过概率阈值的数量,其中概率阈值可事先设定。

若超过概率阈值的数量超过指定数量阈值,则认为检测到了“稳态音频”,则根据所参与统计的概率值生成用于表征音频数据为特定音频的置信度,其中指定数量阈值可事先设定。

在一可实施方式中,根据所参与统计的概率值生成用于表征音频数据为特定音频的置信度,包括:

选取所参与统计的概率值中超过概率阈值的概率值;

计算所选取的概率值的几何平均值,生成置信度,计算公式如下:

con=0(m<tc);

其中,con表示置信度,m表示超过概率阈值的概率值数量,pi表示特征向量数据为预设分类信息的概率值,tp表示概率阈值,tc表示指定数量阈值。

本实施例中,当计算得到的置信度高于指定数值时,则确定音频数据为特定音频,则停止当前音频信息的输出。

图3为本发明实施例一种音频中断装置的结构组成示意图。

如图3所示,本发明另一方面提供一种音频中断装置,装置包括:

特征获取模块201,用于获取音频数据的多个特征向量数据;

置信度生成模块202,用于针对多个特征向量数据,生成用于表征音频数据为特定音频的置信度;

置信度执行模块203,用于根据所生成的置信度,停止当前音频信息的输出。

本实施例中,在特征获取模块201中,音频数据可通过音频采集设备如录音笔或者麦克风进行采集,音频数据具体可以是人声、动物的叫声或者大自然的声音。

在置信度生成模块202中,特定音频也可以是人声、动物声或者大自然声音中的其中一种,可以事先根据实际应用进行指定。

在置信度执行模块203中,置信度用于表示音频数据为特定音频的可靠程度,置信度越高,说明音频数据为特定音频的几率越大。当前音频信息主要由机器端或者设备端进行输出,当置信度满足一定条件时,便停止当前音频信息的输出。

由此,通过利用特征向量数据所生成的置信度来决定停止当前音频信息的输出,不需要通过现有技术中语音识别解码器得到识别结果,大大减少了计算量,进而降低了打断的延迟,提升了用户体验。

该装置在应用于智能客服对话场景中时,设备端在判定接收到的音频数据为人声时,智能客服能立即停止当前音频输出,并继续接收用户的声音。

该装置还可以应用于音频输出设备中,如音频输出设备如车载音响正在播放的过程中,如果接收到车辆周围的鸣笛声则停止当前播放,以让驾驶员听清,提升驾驶安全。

在一可实施方式中,特征获取模块201具体用于:

流式地提取音频数据中多个连续的音频片段数据;

分别提取多个音频片段数据的特征,生成多个特征向量数据。

本实施例中,将音频数据按照从头数据节点到尾数据节点的顺序提取多个连续的音频片段数据;

接着对每个音频片段数据提取mfccs(melfrequencycepstralcoefficients)特征或filterbank特征,生成多个特征向量数据。

在一可实施方式中,置信度生成模块202具体用于:

针对每一个特征向量数据,分别生成用于表征特征向量数据为预设分类信息的概率值;

根据每一个特征向量数据所对应的概率值,生成用于表征音频数据为特定音频的置信度。

本实施例中,针对每一个特征向量数据,判断生成该特征向量数据为预设分类信息的概率值,其中预设分类信息可根据实际应用实现设定,如应用于智能客服对话时,预设分类信息为人声,应用于车辆行驶时,预设分类信息为鸣笛声。

根据每个特征向量数据的概率值,生成用于表征音频数据为特定音频的置信度。

其中,置信度生成模块202在生成概率值的具体步骤为:

将每个特征向量分别输出分类器模型进行训练,其中分类器模型能够把数据映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

其中,置信度生成模块202在生成置信度的具体过程为:

利用滑动窗口(slidingwindow)技术按照数据流先后顺序流式地选取指定数量概率值,判定所选取的所有概率值中超过概率阈值的数量,其中概率阈值可事先设定。

若超过概率阈值的数量超过指定数量阈值,则认为检测到了“稳态音频”,则选取所参与统计的概率值中超过概率阈值的概率值;计算所选取的概率值的几何平均值,生成置信度,计算公式如下:

con=0(m<tc);

其中,con表示置信度,m表示超过概率阈值的概率值数量,pi表示特征向量数据为预设分类信息的概率值,tp表示概率阈值,tc表示指定数量阈值。

置信度执行模块203在判定计算得到的置信度高于指定数值时,则确定音频数据为特定音频,则停止当前音频信息的输出。

本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行音频中断方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于获取音频数据的多个特征向量数据;针对多个特征向量数据,生成用于表征音频数据为特定音频的置信度;根据所生成的置信度,停止当前音频信息的输出。

由此,通过利用特征向量数据所生成的置信度来决定停止当前音频信息的输出,不需要通过现有技术中语音识别解码器得到识别结果,大大减少了计算量,进而降低了打断的延迟,提升了用户体验。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips