语音切割点检测方法及其装置、介质和电子设备与流程

2021-01-28 17:01:25|

286|

起点商标网

本申请涉及语音处理技术领域，特别涉及一种语音切割点检测方法及其装置、介质和电子设备。

背景技术：

随着语音交互技术的发展，机器人客服、带有语音交互功能的家居设备、带有语音助手的电子设备等在生活中的应用越来越广泛，对语音识别的快慢、准确度以及响应速度等要求越来越高。

在语音识别中，语音端点检测技术(voiceactivitydetection,vad)是一项非常重要的技术，它的目的是在连续语音信号中找到一段语音的开始点和终止点。长语音识别一般会利用这项技术，将音频切割成短音频进行识别，因此切割点直接影响了最终的语音识别效果。目前切割点方法是，取长语音中的静音帧，若静音帧的时长大于预定阈值时，将该静音帧中的某一点确定为切割点。但是这种方法存在的问题是，当用户的语速变慢时，可能存在一句话还没说完就被识别为切割点，导致最终语音识别性能下降。

技术实现要素：

本申请实施例提供了一种语音切割点检测方法及其装置、介质和电子设备，在语音识别电子设备中引入语速识别，通过识别语速来进一步确定语音切割点，从而避免导致切割点不准，识别性能下降问题。

第一方面，本申请实施例提供了一种语音切割点检测方法，包括：获取待检测语音信号，确定待检测语音信号中的静音片段集，确定静音片段集中静音片段的时长大于预设时长阈值的静音片段子集，确定待检测语音信号中静音片段子集中每个静音片段对应的第一待检测语音片段和第二待检测语音片段，其中，第一待检测语音片段和第二待检测语音片段一一对应，每个第一待检测语音片段和每个第二待检测语音片段相同的部分包含至少部分相同的静音片段，确定每个第一待检测语音片段的第一语速第二待检测语音片段的第二语速，根据每个第一语速和每个第二语速从静音片段子集中确定目标静音片段子集，确定目标静音片段子集中的语音切割点集。

本申请实施例中，通过第一待检测语音片段的语速与第二待检测语音片段的语速的比值，来判断语音切割端点，可以避免当用户的语速比较慢时，误将语速比较慢的地方作为切割点，在一定程度上提高了语音切割点检测的准确度。

在上述第一方面的一种可能的实现中，上述方法还包括：所述第一待检测语音片段包括所述静音片段子集中的至少部分静音片段；

或者；

所述第一待检测语音片段包括所述静音片段子集中的静音片段和该静音片段两端相邻的非静音片段。

在上述第一方面的一种可能的实现中，上述方法还包括：待检测语音信号包括首端点，尾端点，第二待检测语音片段包括：静音片段中的第一预设点到首端点之间的片段和静音片段中的第一预设点到语音切割点之间的片段。

在上述第一方面的一种可能的实现中，上述方法还包括：第一预设点为静音片段的时长中点。

在上述第一方面的一种可能的实现中，上述方法还包括：根据每个第一语速和每个第二语速从静音片段子集中确定目标静音片段子集，包括：若第一语速与第二语速的比值小于预设比值，则确定第一待检测语音片段和第二待检测语音片段对应的静音片段子集的静音片段为目标静音片段。

在上述第一方面的一种可能的实现中，上述方法还包括：确定目标静音片段子集中的语音切割点集，针对目标静音片段子集中的每个目标静音片段：将目标静音片段中的第二预设点确定为语音切割点。

在上述第一方面的一种可能的实现中，上述方法还包括：第二预设点为目标静音片段中的时长中点。第二预设点包括第一时间点和第二时间点，第一时间点为距离目标静音片段的首端点预设时长的时间点，第二时间点为距离目标静音片段的尾端点预设时长的时间点。

第二方面，本申请的实施例提供了一种语音切割点检测装置，包括：

语音信号获取模块，用于获取待检测语音信号。

静音片段集确定模块，用于确定待检测语音信号中的静音片段集。

静音片段子集确定模块，用于确定静音片段集中静音片段的时长大于预设时长阈值的静音片段子集。

语音片段确定模块，用于确定待检测语音信号中静音片段子集中每个静音片段对应的第一待检测语音片段和第二待检测语音片段，其中，第一待检测语音片段和第二待检测语音片段一一对应，每个第一待检测语音片段和每个第二待检测语音片段相同的部分包含至少部分相同的静音片段。

语速确定模块，用于确定每个第一待检测语音片段的第一语速第二待检测语音片段的第二语速。

目标静音片段确定模块，用于根据每个第一语速和每个第二语速从静音片段子集中确定目标静音片段子集，静音片段子集确定模块还用于若第一语速与第二语速的比值小于预设比值，则确定第一待检测语音片段和第二待检测语音片段对应的静音片段子集的静音片段为目标静音片段；

语音切割点确定模块，用于确定目标静音片段子集中的语音切割点集，语音切割点确定模块还用于针对目标静音片段子集中的每个目标静音片段：将目标静音片段中的第二预设点确定为语音切割点。

在上述第二方面的一种可能的实现中，所述语音片段确定模块还用于将所述第一待检测语音片段确定为所述静音片段子集中的至少部分静音片段；

或者；

将所述第一待检测语音片段确定为所述静音片段子集中的静音片段和该静音片段两端相邻的非静音片段。

在上述第二方面的一种可能的实现中，所述待检测语音信号包括首端点，尾端点，所述语音片段确定模块还用于将所述第二待检测语音片段确定为所述静音片段中的第一预设点到所述首端点之间的片段和所述静音片段中的第一预设点到所述语音切割点之间的片段。

在上述第二方面的一种可能的实现中，所述静音片段子集确定模块还用于将所述第一预设点确定为所述静音片段的时长中点。

在上述第二方面的一种可能的实现中，所述静音片段子集确定模块还用于若所述第一语速与所述第二语速的比值小于预设比值，则确定所述第一待检测语音片段和所述第二待检测语音片段对应的所述静音片段子集的静音片段为目标静音片段。

在上述第二方面的一种可能的实现中，所述语音切割点确定模块还用于所述针对所述目标静音片段子集中的每个目标静音片段：将所述目标静音片段中的第二预设点确定为语音切割点。

在上述第二方面的一种可能的实现中，所述静音片段子集确定模块还用于将所述第二预设点确定为所述目标静音片段中的时长中点。

在上述第二方面的一种可能的实现中，所述静音片段子集确定模块还用于将所述第二预设点确定为第一时间点和第二时间点，所述第一时间点为距离所述目标静音片段的首端点预设时长的时间点，所述第二时间点为距离所述目标静音片段的尾端点预设时长的时间点。

第三方面，本申请实施例提供了一种可读介质，可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行第一方面以及第一方面可能的各实现中的语音切割点检测方法。

第四方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，是电子设备的处理器之一，用于执行第一方面以及第一方面可能的各实现中的语音切割点检测方法。

附图说明

图1根据本申请的一些实施例，示出了一种语音切割点检测场景图。

图2根据本申请的一些实施例，示出了一种智能音箱的结构框图。

图3根据本申请的一些实施例，示出了一种语音切割点检测方法的流程图。

图4根据本申请的一些实施例，示出了一种确定目标静音片段子集中的语音切割点集流程图。

图5根据本申请的一些实施例，示出了一种语音切割点检测示例图。

图6根据本申请的一些实施例，示出了一种语音切割点检测装置的结构框图。

图7根据本申请的一些实施例，示出了一种电子设备的框图。

具体实施方式

本申请的说明性实施例包括但不限于语音切割点检测方法及其装置、介质和电子设备。

下面将结合附图对本申请的实施例作进一步地详细描述。

根据本申请的一些实施例公开了一种语音切割点检测场景。图1示出了该场景的示意图。在图1所示的场景中，包括用户和电子设备100，其中，电子设备100能够采集用户的语音数据，并对用户的语音数据进行处理。为了便于说明，电子设备100以智能音箱100为例说明本申请的技术方案。

可以理解，图1中虽然示出了带有显示屏的智能音箱100，但是适用于本申请的电子设备，如包括但不限于，手机、平板电脑、台式计算机、带有麦克风的家居设备或监控摄像头等。智能音箱100用于获取待检测语音信号，通过过零率和短时能量端点检测算法或语音端点检测(voiceactivitydetection,vad)算法确定待检测语音信号中的静音片段集并获取静音片段集中静音片段的时长，确定静音片段集中静音片段的时长是否大于预设时长阈值，若静音片段集中静音片段的时长大于预设时长阈值，则该静音片段为静音片段子集中的静音片段。以静音片段子集中的静音片段的时长的中点作为第一预设点，以该第一预设点作为第一待检测语音片段的中点，前后各截取预设时长的语音片段得到第一待检测语音片段。以静音片段子集中的静音片段静音片段的时长的中点作为该第二待检测语音片段的尾端点，该静音片段向前最近的语音切割点作为该第二待检测语音的首端点，若静音片段子集中的静音片段向前的所有语音数据没有语音切割点，则以待检测语音信号的首端点作为该第二待检测语音片段的首端点。第一待检测语音片段和第二待检测语音片段通过音节检测算法或神经网络模型算法等得到第一待检测语音片段的语速即第一语速和第二待检测语音片段的语速即第二语速，若第一语速与第二语速的比值小于预设比值则确定该静音片段为目标静音片段，即静音片段存在语音切割点。

可以理解，图1所示的语音切割点检测场景只是实现本申请实施例的一个场景示例，本申请实施例包括并不限于图1所示的场景。

图2根据本申请的一些实施例，示出了一种智能音箱100的结构框图。下面结合图1至2，对本申请提供的语音切割点检测进行详细介绍。

该音箱可以包括音箱主体100。在本申请的一个实施例中，音箱10的主体可以包括显示屏202、壳体(壳体包括前壳(图2未示出)和底壳(图2未示出))，以及处理器203、存储器205、无线通信单元206、音频模块211、扬声器212、麦克风213、电源210、电源管理系统201等。

下面分别对智能音箱100的各功能组件进行介绍：

显示屏202可以用于显示经过处理器203处理后的用户所说的语音内容，并以文字的形式显示在显示屏202上。或者用于显示根据用户的语音内容，智能音箱100应答的文字信息。

扬声器212，也称“喇叭”，用于将音频模块处理后的电信号转换为声音信号。根据用户的语音信息，智能音箱100可以通过扬声器212播放智能音箱100应答的内容。

麦克风213，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当发送语音信息时，用户可以通过人嘴靠近麦克风213发声，将声音信号输入到麦克风213。智能音箱100可以设置至少一个麦克风213。在另一些实施例中，智能音箱100可以设置两个麦克风213，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，智能音箱100还可以设置三个，四个或更多麦克风213，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

音频模块211用于将数字音频信号转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块211还可以用于对音频信号编码和解码。在一些实施例中，音频模块211可以设置于处理器203中，或将音频模块211的部分功能模块设置于处理器203中。

处理器203可以包括一个或多个处理单元，例如：处理器203可以包括应用处理器(applicationprocessor，ap)，调制解调处理器，图形处理器(graphicsprocessingunit，gpu)，图像信号处理器(imagesignalprocessor，isp)，控制器，视频编解码器，数字信号处理器(digitalsignalprocessor，dsp)，基带处理器，和/或神经网络处理器(neural-networkprocessingunit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器203中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器203中的存储器为高速缓冲存储器。该存储器可以保存处理器203刚用过或循环使用的指令或数据。如果处理器203需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器203的等待时间，因而提高了系统的效率。

在本申请的实施例中，处理器203与音频模块211可以配合用于对待检测的语音数据进行识别处理，静音片段子集提取，确定目标静音片段子集，确定语音切割点集，生成切割后的语音数据，将切割后的语音数据转换成文字或语音，并分别通过显示屏202和扬声器212输出给用户。

存储器205用于存储软件程序以及各种数据，处理器203通过运行存储在存储器205的软件程序以及数据，执行智能音箱100的各种功能应用以及数据处理。

无线通信单元206，可以包括无线局域网(wirelesslocalareanetworks，wlan)，(如无线保真(wirelessfidelity，wi-fi)网络)，蓝牙(bluetooth，bt)，全球导航卫星系统(globalnavigationsatellitesystem，gnss)，调频(frequencymodulation，fm)，近距离无线通信技术(nearfieldcommunication，nfc)，红外技术(infrared，ir)等无线通信的解决方案。

下面以智能音箱100为例，详细介绍语音切割点检测内容。

图3根据本申请的一些实施例，示出了一种语音切割点检测方法的流程图。下面结合图1至3，对本申请提供的语音切割点检测方法进行详细介绍。如图3所示，具体地，包括：

1)智能音箱100获取待检测语音信号(302)。

在本申请的实施例中，待检测的语音数据可以是智能音箱100与用户进行语音交互的语音信号，语音信号包含语音信息。例如，如图1的场景中，用户对智能音箱100说，小c同学，今天天气很好，附近有公园吗？提供下公园地址。智能音箱100将该段语音数据做语音切割点检测并识别该段语音内容。在用户与机器人客服聊天的通话过程中，待检测的语音数据可以是用户使用其他电子设备与机器人客服通话的内容，机器人对该段语音数据做语音切割点检测并识别该段语音内容。待检测语音信号也可以是实时的语音流，电子设备通过麦克风采集实时语音流，并需要对该段语音数据做语音切割点检测并识别该段语音内容。

2)智能音箱100确定待检测语音信号中的静音片段集(304)。

在一些实施例中，静音片段获取算法可以是过零率和短时能量切割点检测算法，通过过零率和短时能量切割点检测算法对待检测的语音数据进行处理，获得待检测语音信号中的静音片段集。

在其他一些实施例中，也可以通过语音端点检测算法(voiceactivitydetection，vad)获得待检测语音信号中的静音片段集。其中，包括基于信噪比的语音端点检测(voiceactivitydetection,vad)算法，基于深度神经网络的语音端点检测(voiceactivitydetection,vad)算法，基于解码器和深度神经网络混合的语音端点检测(voiceactivitydetection,vad)算法等。

3)智能音箱100确定静音片段集中静音片段的时长大于预设时长阈值的静音片段子集(306)。

在一些实施例中，若静音片段的长度超过一定过长，则极有可能是存在切割点的静音片段，所以可以通过检测时长大于预设时长阈值的静音片段，初步筛选出部分静音片段，降低语音切割点检测过程中的静音片段的处理量，提高语音切割点检测的处理速度。具体的，包括：

将静音片段集中的静音片段的时长与预设时长阈值进行比较，若静音片段的时长大于预设时长阈值则该静音片段为静音片段子集中的静音片段。

可以理解，在一些实施例中，预设时长阈值可以根据实际情况设定。

4)智能音箱100确定待检测语音信号中静音片段子集中每个静音片段对应的第一待检测语音片段和第二待检测语音片段(308)，其中，第一待检测语音片段和第二待检测语音片段一一对应，第一待检测语音片段和第二待检测语音片段相同的部分包含至少部分相同的静音片段。

现有技术中，通过静音片段的时长确定是否为切割点，若用户的语速较慢，可能存在一句话还没说完就被识别为切割点，导致最终语音识别性能下降。通过包含至少部分相同的静音片段的第一待检测语音片段的第一语速和第二待检测语音片段的第二语速确定语音切割点，将用户的前后语速联系起来判断切割点，以此来提高语音识别性能。

5)智能音箱100确定每个第一待检测语音片段的第一语速第二待检测语音片段的第二语速(310)。

在一些实施例中，所述第一待检测语音片段包括所述静音片段子集中的至少部分静音片段；

或者；

所述第一待检测语音片段包括所述静音片段子集中的静音片段和该静音片段两端相邻的非静音片段。

具体的，在一些实施例中，预设时长用于确定第一待检测语音片段的首端点和尾端点。以静音片段子集的任意一个静音片段为例，以该静音片段的时长的中点作为预设点，以该预设点作为第一待检测语音片段的中点，前后各截取预设时长的语音片段得到第一待检测语音片段。其中，第一待检测语音片段可以包含静音片段两端相邻的部分非静音片段，也可以为不包含静音片段两端相邻的部分非静音片段。

以该静音片段的时长的中点作为第一预设点，以该第一预设点作为该第二待检测语音片段的尾端点。若静音片段之前没有切割点，则以待检测语音信号的首端点作为第二待检测语音片段的首端点。若静音片段之前有切割点，则以距离静音片段最近的切割点作为第二待检测语音片段的首端点。

在一些实施例中，所述第二待检测语音片段包括：所述静音片段中的第一预设点到所述首端点之间的片段和所述静音片段中的第一预设点到所述语音切割点之间的片段。

第一待检测语音片段的语速为第一语速，第二待检测语音片段的语速为第二语速。可以理解，每个第一待检测语音片段的语速，组成第一语速集。每个第二待检测语音片段的语速，组成第二语速集。

可以理解，在一些实施例中，获取第一待检测语音片段和第二待检测语音片段的语速的算法主要包括基于音节检测算法，基于神经网络模型算法，机器学习的语速检测算法等。其中，音节检测算法一般是通过计算一段音频数据中每帧语音的能量值，根据凸包算法获得该段语音的音节个数，从而计算语速。基于神经网络模型算法通过一段音频数据的mfcc特征，得到第一待检测语音片段的语速和第二待检测语音片段的语速，其中，网络结构上可以选择如resnet。机器学习的语速检测算法一般将语速的大小分为快中慢三个档位，通常采用支持向量机即svm或者其他机器学习方法做分类，从而得到第一待检测语音片段的语速和第二待检测语音片段的语速。

6)智能音箱100根据第一语速集和第二语速集从静音片段子集中确定目标静音片段子集(312)。

在一些实施例中，通过将用户的前后语速联系起来判断可能存在切割点的目标静音片段，以此来提高语音识别性能。具体的，包括：根据每个第一语速和每个第二语速从静音片段子集中确定目标静音片段子集，包括：若第一语速与第二语速的比值小于预设比值，则确定第一待检测语音片段和第二待检测语音片段对应的静音片段子集的静音片段为目标静音片段。可以理解，对静音片段子集中的每一条静音片段做该处理，可获取目标静音片段子集。

7)智能音箱100确定目标静音片段子集中的语音切割点集(314)。

针对目标静音片段子集中的每个目标静音片段，将目标静音片段中的第二预设点确定为语音切割点。

其中，第二预设点包括：目标静音片段中的时长中点，第一时间点和第二时间点。且第一时间点为距离目标静音片段的首端点预设时长的时间点，第二时间点为距离目标静音片段的尾端点预设时长的时间点。

下面我们结合图4，详细描述如何确定目标静音片段子集中的语音切割点集。

图4根据本申请的一些实施例，示出了一种确定目标静音片段子集中的语音切割点集流程图。

获取基于语速确定的时长l和目标静音片段的时长m(402)。

在一些实施例中，获取目标静音片段子集中的每个目标静音片段的时长m，可以理解，根据不同的目标静音片段，时长m可以是不同的。获取基于语速确定的时长l，以目标静音片段子集中的任意一个目标静音片段为例，该目标静音片段基于语速确定的时长l用于确定极有可能存在切割点的音频片段，例如，时长l为预设值与该目标静音片段的第二语速的比值。可以理解，根据不同的待检测语音信号和目标静音片段，该预设值可以是不同的。

判断目标静音片段的时长m是否大于基于语速确定的时长l(404)。

在一些实施例中，以目标静音片段子集中的任意一个目标静音片段为例，判断该条目标静音片段的时长m是否大于该静音片段的基于语速确定的时长l，若该条目标静音片段的时长m大于该静音片段的基于语速确定的时长l则执行步骤406操作，若该条目标静音片段的时长m不大于该静音片段的基于语速确定的时长l则执行步骤408操作。

确定目标静音片段的时长的中点为语音切割点(406)。

若该条目标静音片段的时长m大于该静音片段的基于语速确定的时长l，则确定目标静音片段的时长的中点为语音切割点。

确定第一时间点和第二时间点为语音切割点(408)。

在一些实施例中，若该条目标静音片段的时长m不大于该静音片段的基于语速确定的时长l，则确定第一时间点和第二时间点为语音切割点。其中，第一时间点为距离目标静音片段的首端点预设时长的时间点，第二时间点为距离目标静音片段的尾端点预设时长的时间点。具体的，以目标静音片段子集中的任意一个目标静音片段为例，预设时长可以是该目标静音片段基于语速确定的时长l的二分之一处。

在一些实施例中，对于目标静音片段子集中的每个目标静音片段，获取该静音片段的语音切割点，则获得目标静音片段子集对应的语音切割点集，目标静音片段集中的目标静音片段与该语音切割点集中的语音切割点一一对应。

图5根据本申请的一些实施例，示出了一种语音切割点检测示例图。下面结合图5详细阐述语音切割点检测方法。

如图5所示，语音数据内容：小c同学，今天天气很好，附近有公园吗？提供下公园的地址。其中，通过语音端点检测算法，对语音数据进行端点检测，如图所示，这段语音包括7个片段，分别是4个语音片段和3个静音片段。其中，501，503，505，507为语音片段，502，504，506为静音片段。可以理解，静音片段集包括静音片段502，静音片段504，静音片段506。若静音片段506的时长大于预设时长阈值，静音片段506属于静音片段子集。

确定静音片段506的第一待检测语音片段，以该静音片段506的时长的中点作为第一预设点，以该第一预设点作为第一待检测语音片段的中点，前后各截取预设时长的语音片段得到第一待检测语音片段。如图5所示，可以理解，第一预设点即静音片段506的中点，以静音片段506的中点作为静音片段506的第一待检测语音片段的中点，向前截取时长预设时长的静音片段，向后截取时长为预设时长的静音片段。如图5标注所示，可以理解，静音片段506的第一待检测语音片段截取的预设时长可以根据实际情况设置。若截取时长为n’，则第一待检测语音片段的首端点为静音片段506的中点向前截取时长为n’的时间点，第一待检测语音片段的尾端点为静音片段506的中点向后截取时长为n’的时间点。其中，可以理解，如图5所示，静音片段506的第一待检测语音片段可以包括静音片段506，语音片段505的部分片段，语音片段507的部分片段。若截取时长为n，则第一待检测语音片段的首端点为静音片段506的中点向前截取时长为n的时间点，第一待检测语音片段的尾端点为静音片段506的中点向后截取时长为n的时间点。其中，可以理解，如图5所示，静音片段506的第一待检测语音片段可以包括静音片段506的部分片段。确定静音片段506的第二待检测语音片段，以第一预设点作为第二待检测语音片段的尾端点，若静音片段502和静音片段504无切割点，则以待检测语音信号的首端点作为第二待检测语音片段的首端点，若静音片段504有切割点，则以静音片段504的切割点作为第二待检测语音片段的首端点，若静音片段502有切割点，静音片段504无切割点，则以静音片段502的切割点作为第二待检测语音片段的首端点。获取第一待检测语音片段的语速和第二待检测语音片段的语速。

根据第一待检测语音片段的语速和第二待检测语音片段的语速从静音片段子集中确定目标静音片段子集，如图5所示，若静音片段506的第一待检测语音片段的语速与静音片段506的第二待检测语音片段的语速比值小于预设比值，则静音片段506为目标静音片段，可以理解，静音片段506属于目标静音片段子集，静音片段506存在语音切割点。确定基于语速确定的时长l。其中，基于语速确定的时长l为预设值与静音片段506的第二待检测语音片段的语速的比值。若基于语速确定的时长l小于静音片段506的时长m，则第一时间点和第二时间点为语音切割点，其中，如图5标注所示，第一时间点为静音片段506首端点向后时长l/2的时间点，第二时间点为静音片段506的尾端点向前时长l/2的时间点。若静音片段506需要保留的静音片段的时长l大于或等于静音片段506的时长m，静音片段506的时长中点为语音切割点。

图6根据本申请的一些实施例，示出了一种语音切割点检测装置600的结构框图。如图6所示，具体地，包括：

语音信号获取模块(602)，用于获取待检测语音信号。

静音片段集确定模块(604)，用于确定待检测语音信号中的静音片段集。

静音片段子集确定模块(606)，用于确定静音片段集中静音片段的时长大于预设时长阈值的静音片段子集。

语音片段确定模块(608)，用于确定待检测语音信号中静音片段子集中每个静音片段对应的第一待检测语音片段和第二待检测语音片段，其中，第一待检测语音片段和第二待检测语音片段一一对应，每个第一待检测语音片段和每个第二待检测语音片段相同的部分包含至少部分相同的静音片段。

语速确定模块(610)，用于确定每个第一待检测语音片段的第一语速第二待检测语音片段的第二语速。

目标静音片段确定模块(612)，用于根据每个第一语速和每个第二语速从静音片段子集中确定目标静音片段子集，静音片段子集确定模块还用于若第一语速与第二语速的比值小于预设比值，则确定第一待检测语音片段和第二待检测语音片段对应的静音片段子集的静音片段为目标静音片段；

语音切割点确定模块(614)，用于确定目标静音片段子集中的语音切割点集，语音切割点确定模块还用于针对目标静音片段子集中的每个目标静音片段：将目标静音片段中的第二预设点确定为语音切割点。

在一些实施例中，所述语音片段确定模块还用于将所述第一待检测语音片段确定为所述静音片段子集中的至少部分静音片段；

或者；

将所述第一待检测语音片段确定为所述静音片段子集中的静音片段和该静音片段两端相邻的非静音片段。

在一些实施例中，所述待检测语音信号包括首端点，尾端点，所述语音片段确定模块还用于将所述第二待检测语音片段确定为所述静音片段中的第一预设点到所述首端点之间的片段和所述静音片段中的第一预设点到所述语音切割点之间的片段。

在一些实施例中，所述静音片段子集确定模块还用于将所述第一预设点确定为所述静音片段的时长中点。

在一些实施例中，所述静音片段子集确定模块还用于若所述第一语速与所述第二语速的比值小于预设比值，则确定所述第一待检测语音片段和所述第二待检测语音片段对应的所述静音片段子集的静音片段为目标静音片段。

在一些实施例中，所述语音切割点确定模块还用于所述针对所述目标静音片段子集中的每个目标静音片段：将所述目标静音片段中的第二预设点确定为语音切割点。

在一些实施例中，所述静音片段子集确定模块还用于将所述第二预设点确定为所述目标静音片段中的时长中点。

在一些实施例中，所述静音片段子集确定模块还用于将所述第二预设点确定为第一时间点和第二时间点，所述第一时间点为距离所述目标静音片段的首端点预设时长的时间点，所述第二时间点为距离所述目标静音片段的尾端点预设时长的时间点。

可以理解，图6所示的语音切割点检测装置600与本申请提供的语音切割点检测方法相对应，以上关于本申请提供的语音切割点检测方法的具体描述中的技术细节依然适用于图6所示的语音切割点检测装置600，具体描述请参见上文，在此不再赘述。

图7所示为根据本申请的一些实施例的电子设备700的框图。图7示意性地示出了根据多个实施例的示例电子设备700。在一些实施例中，电子设备700可以包括一个或多个处理器704，与处理器704中的至少一个连接的系统控制逻辑708，与系统控制逻辑708连接的系统内存712，与系统控制逻辑708连接的非易失性存储器(nvm)716，以及与系统控制逻辑708连接的网络接口720。

在一些实施例中，处理器704可以包括一个或多个单核或多核处理器。在一些实施例中，处理器704可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。

在一些实施例中，系统控制逻辑708可以包括任意合适的接口控制器，以向处理器704中的至少一个和/或与系统控制逻辑708通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑708可以包括一个或多个存储器控制器，以提供连接到系统内存712的接口。系统内存712可以用于加载以及存储数据和/或指令。在一些实施例中系统700的内存712可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(dram)。

nvm/存储器716可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，nvm/存储器716可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如hdd(harddiskdrive，硬盘驱动器)，cd(compactdisc，光盘)驱动器，dvd(digitalversatiledisc，数字通用光盘)驱动器中的至少一个。

nvm/存储器716可以包括安装电子设备700的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口720通过网络访问nvm/存储716。

特别地，系统内存712和nvm/存储器716可以分别包括：指令724的暂时副本和永久副本。指令724可以包括：由处理器704中的至少一个执行时导致电子设备700实施如图3所示的方法的指令。在一些实施例中，指令724、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑708，网络接口720和/或处理器704中。

网络接口720可以包括收发器，用于为电子设备700提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口720可以集成于电子设备700的其他组件。例如，网络接口720可以集成于处理器704，系统内存712，nvm/存储器716，和具有指令的固件设备(未示出)中的至少一种，当处理器704中的至少一个执行指令时，电子设备700实现如图3所示的语音切割点检测方法。

网络接口720可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口720可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器704中的至少一个可以与用于系统控制逻辑708的一个或多个控制器的逻辑封装在一起，以形成系统封装(sip)。在一个实施例中，处理器704中的至少一个可以与用于系统控制逻辑708的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(soc)。

电子设备700可以进一步包括：输入/输出(i/o)设备732。i/o设备732可以包括用户界面，使得用户能够与电子设备700进行交互；外围组件接口的设计使得外围组件也能够与电子设备700交互。在一些实施例中，电子设备700还包括传感器，用于确定与电子设备700相关的环境条件和位置信息的至少一种。

在一些情况下，所公开的语音切割点检测方法的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的语音切割点检测方法的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(cd-roms)、磁光盘、只读存储器(rom)、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息，例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除