一种语音处理方法、系统、设备及介质与流程
2021-01-28 13:01:09|297|起点商标网
本公开涉及语音识别
技术领域:
:,具体地,涉及一种语音处理方法、系统、设备和介质。
背景技术:
::随着语音识别技术和人工智能技术的发展,语音人机交互产品层出不穷,尤其是智能语音音箱类产品。输入用户语音命令时,当语音边界检测(voiceactivedetection,vad)检测到用户语音命令结束后,系统给出相应的用户响应。响应速度是影响人机交互体验的一个重要因素,越快的vad技术,意味着越快的响应速度。现有技术方案中,主要通过判断静音时间长度是否超过允许静音时间长度的阈值来检测语音是否结束。实际应用中,不同人的语速不同,其静音时间并不一致,即使同一人,不同场景下的语速也往往不同。若允许静音时间长度的阈值比较短,检测速度会比较快,但容易造成错误截断,从而给出错误响应;若为了兼容各种场景,选择一个比较宽松的阈值,会极大降低响应速度。技术实现要素:本公开的主要目的在于提供一种语音处理方法、系统、设备及介质,以解决现有技术中,通过单个时间阈值检测语音结束端点时,不能同时保证响应速度和检测准确度的问题。本公开实施例第一方面提供了一种语音处理方法,包括:根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;根据所述对应的端点信息和语音信号获取对应的文本信息;对所述对应的文本信息进行分析,得到目标文本信息。可选地,所述端点信息包括第一端点信息和第二端点信息,所述根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息包括:根据所述双静音检测模型中的第一阈值时间对所述语音信号进行静音检测,得到所述第一端点信息;以及根据所述双静音检测模型中的第二阈值时间对所述语音信号进行静音检测,得到所述第二端点信息,其中所述第一阈值时间小于所述第二阈值时间。可选地,所述端点信息包括第一端点信息和第二端点信息,所述根据所述对应的端点信息和语音信号获取对应的文本信息包括:根据所述第一端点信息和语音信号获取对应的第一文本信息;根据所述第二端点信息和语音信号获取对应的第二文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息包括:对所述第一文本信息进行分析;当所述第一文本信息为完整文本信息时,所述第一文本信息为所述目标文本信息,当所述第一文本信息不是完整文本信息时,所述第二文本信息为所述目标文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息还包括:对所述第一文本信息进行分析;当所述第一文本信息为不完整文本信息时,再次根据所述第一阈值时间对所述语音信号进行静音检测,以获取对应的第三文本信息,所述第一文本信息和第三文本信息为所述目标文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息包括:根据预置的深度神经网络模型对所述对应的文本信息进行分析,以得到所述目标文本信息。可选地,所述方法还包括:对所述目标文本信息进行自然语言处理,得到所述语音信号对应的指令,以根据所述指令执行相应的操作。本公开实施例第二方面提供了一种语音处理系统,包括:检测模块,用于根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;获取模块,用于根据所述对应的端点信息和语音信号获取对应的文本信息;分析模块,用于对所述对应的文本信息进行分析,得到目标文本信息。可选地,所述端点信息包括第一端点信息和第二端点信息,所述检测模块包括:第一检测模块,用于根据所述双静音检测模型中的第一阈值时间对所述语音信号进行静音检测,得到所述第一端点信息;第二检测模块,用于根据所述双静音检测模型中的第二阈值时间对所述语音信号进行静音检测,得到所述第二端点信息,其中所述第一阈值时间小于所述第二阈值时间。可选地,所述端点信息包括第一端点信息和第二端点信息,所述获取模块包括:第一获取模块,用于根据所述第一端点信息和语音信号获取对应的第一文本信息;第二获取模块,用于根据所述第二端点信息和语音信号获取对应的第二文本信息。可选地,所述分析模块包括:判断模块,用于判断所述第一文本信息是否为完整信息,当所述第一文本信息为完整文本信息时,所述第一文本信息为所述目标文本信息,当所述第一文本信息不是完整文本信息时,所述第二文本信息为所述目标文本信息。可选地,所述分析模块包括:第三获取模块,用于当所述第一文本信息为不完整文本信息时,再次根据所述第一阈值时间对所述语音信号进行静音检测,以获取对应的第三文本信息,所述第一文本信息和第三文本信息为所述目标文本信息。本公开实施例第三方面提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行上述语音处理方法。本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语音处理方法。从上述本公开实施例可知,本公开提供的语音处理方法、系统、设备及介质,当接收到待检测的语音信号时,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;根据对应的端点信息和语音信号获取对应的文本信息;对该对应的文本信息进行分析,得到目标文本信息,以便于能够用于不同场景,既可以快速响应用户需求,又不会引入错误截断,并节省了计算资源。附图说明为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:图1为本公开一实施例提供的语音处理方法的流程示意图;图2为本公开另一实施例提供的语音处理方法的流程示意图;图3为本公开又一实施例提供的语音处理系统的结构示意图;图4示出了一种电子设备的硬件结构框图。具体实施方式为使得本公开目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。参阅图1,图1为本公开一实施例提供的语音处理方法的流程示意图,该方法可应用于具有利用声音进行人机交互功能的电子设备中,该电子设备例如包括:智能音箱、设置有语音助手的平板电脑(portableandroiddevice,pad)或手机等,该方法主要包括以下操作:s101,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。该待检测的语音信号的具体内容例如为“今天天气怎么样”、“我想听周杰伦的晴天”、“拨打13800138000”、“春节的传统习俗有哪些”等,此处对待检测的语音信号的具体内容不做限定。同时,本领域技术人员可以根据本实施例的描述得到其它待检测的语音信号的具体内容。静音检测是指根据特定规则检测某一段语音的结束端点(也称尾端点),尾端点可以认为是该段语音信号中,检测到的最后一个音节,例如语音信号“今天天气怎么样”中的“样”即为其尾端点。双静音检测是指分别根据两个不同的特定规则检测某一段语音的尾端点。因此,操作s101中得到的端点信息包括两个端点信息,这两个端点信息可能相同,也可能不同。本公开实施例中,双静音检测模型中包含两个静音检测模型,以分别用于不同的场景。例如双静音检测模型中的一个静音检测模型检测速度快,但是准确率较低,另一个静音检测模型检测速度较慢,但是准确率高。s102,根据对应的端点信息和语音信号获取对应的文本信息。即,根据操作s101中得到的两个端点信息和语音信号分别获取这两个端点信息对应的文本信息。因此,操作s102中得到的文本信息包括两个文本信息,这两个文本信息可能相同,也可能不同。文本信息是其对应的端点信息及其之前的语音信号的文本内容。例如其中一个文本信息为“今天”,另一个文本信息为“今天天气怎么样”,或者这两个文本信息都为“今天天气怎么样”。s103,对该对应的文本信息进行分析,得到目标文本信息。即,对操作s102中得到的文本信息进行分析,以得到与待检测的语音信号完全对应的目标文本信息。具体地,对根据检测速度快的静音检测模型检测后获得的文本信息进行准确性分析,若该文本信息准确,该文本信息为目标文本信息,否则,上述根据检测准确率高的静音检测模型检测后获得的文本信息为目标信息。在本公开实施例中,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息,根据对应的端点信息和语音信号获取对应的文本信息,对该对应的文本信息进行分析,得到目标文本信息,以便用于不同场景,既可以快速响应用户需求,又不会引入错误截断,提升了准确率。参阅图2,图2为本公开又一实施例提供的语音处理方法的流程示意图,该方法可应用于具有利用声音进行人机交互功能的电子设备中,该方法主要包括以下操作:s201,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。语音活动检测(voiceactivitydetection,vad)是静音检测中的一种,又称为语音边界检测,用于从语音信号流中识别和消除长时间的静音,以达到在不降低业务质量的情况下节省链路资源的目的。vad依靠阈值时间来检测某一段语音信号的尾端点,具体地,当检测到该段语音信号中连续静音的时间长度超过该阈值时间时,认为该段语音信号已经结束,否则,继续检测该段语音信号,直至连续静音的时间长度超过该阈值时间。以双静音检测模型包含两个vad为例,这两个vad的阈值时间分别为第一阈值时间和第二阈值时间,操作s201具体包括:根据双静音检测模型中的第一阈值时间对语音信号进行静音检测,得到第一端点信息,以及根据双静音检测模型中的第二阈值时间对语音信号进行静音检测,得到第二端点信息,其中,第一阈值时间小于第二阈值时间。由于第一阈值时间小于第二阈值时间,因此,第一阈值时间对应的vad具有更快的检测速度,第二阈值时间对应的vad具有更准确的检测结果。第一端点信息和第二端点信息可能相同,也可能不同。例如,假设第一阈值时间为2秒,第二阈值时间为5秒,用户流畅地说出“今天天气怎么样”,对于这一段语音信号,这两个vad检测出的第一端点信息和第二端点信息都是“样”这一音节;用户说出“今天”并停顿3秒之后又说出“天气怎么样”,对于这一段语音信号,第一端点信息是“天”这一音节,而第二端点信息是“样”这一音节。可以理解的是,本领域技术人员可以根据本实施例的描述设置其它个数的vad,例如设置为3个、4个等具有不同阈值时间的vad,其操作原理与本实施例相同。s202,根据对应的端点信息和语音信号获取对应的文本信息。具体地,根据操作s201中的第一端点信息和语音信号获取对应的第一文本信息,以及根据操作s201中的第二端点信息和语音信号获取对应的第二文本信息。语音识别处理(automaticspeechrecognition,asr)是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等,其目的是将音频转化为文字。例如对“今天天气怎么样”这一语音内容进行语音识别处理后输出的是“今天天气怎么样”这一文本内容。以对端点信息进行语音识别处理以获取对应的文本信息为例,操作s202中可以根据检测到的第一端点信息对语音信号进行语音识别处理,以获取对应的第一文本信息;以及根据检测到的第二端点信息对语音信号进行语音识别处理,以获取对应的第二文本信息。本公开实施例中,通常将第二时间阈值设置为一个较大的值,使得该第二文本信息是语音信号对应的完整文本。s203,对该对应的文本信息进行分析,得到目标文本信息。操作s203中,对第一文本信息进行分析,当第一文本信息为完整文本信息时,第一文本信息即为目标文本信息,当第一文本信息不是完整文本信息时,第二文本信息为目标文本信息。具体地,根据预置的深度神经网络(deepneuralnetworks,dnn)模型对asr处理后的第一文本信息进行分析,以判断该第一文本信息是否为完整文本信息。深度神经网络属于机器学习领域,其具有很高的识别率,在自然语言处理(naturallanguageprocessing,nlp)和图像领域尤为重要,例如识别asr处理后的文本等。预置的dnn模型,是对大量已知是否为完整文本的训练文本进行训练后得到的一计算模型,该dnn模型具有较高的准确度。该dnn模型的输入为文本,该dnn模型的输出例如为“是”或“否”。相较于基于nlp方法判断asr处理后的文本是否完整,本公开实施例中,基于dnn方法判断asr处理后的文本是否完整,可以在保证判断准确度的基础上,加快计算速度。例如,对于“今天天气怎么样”这一语音信号,若得到的第一文本信息为“今天天气怎么样”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本是一个完整的文本,此时目标文本信息即为该第一文本信息“今天天气怎么样”。仍以“今天天气怎么样”这一语音信号为例,若得到的第一文本信息为“今天”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本不是一个完整的文本,此时目标文本信息为第二文本信息,本公开实施例中,第二文本信息是完整的文本信息,因此,目标文本信息为第二文本信息“今天天气怎么样”。本公开实施例中,还可以在第一文本信息不是完整文本信息时,判断第一文本信息是否为不完整文本信息,当第一文本信息为不完整文本信息时,继续根据第一阈值时间对语音信号进行静音检测,以获取对应的第三文本信息,该第一文本信息和第三文本信息为目标文本信息。进一步地,当第一文本信息为不完整文本信息时继续根据第一阈值时间对语音信号进行静音检测,并在每次检测获得的文本信息均为不完整文本信息时,持续根据第一阈值时间对语音信号进行静音检测,直至最后得到的文本信息为完整文本信息,并输出该每次检测获得的文本信息。本实施例中,不完整文本信息是指能够明确确定该文本信息不完整。以第一阈值时间为1秒、待检测的语音信号为“我想听周杰伦的晴天”,并且“我想听”之后停顿1.5秒,“周杰伦的”之后停顿2秒为例,asr处理后得到的第一文本信息为“我想听”,此时会根据第一阈值时间连续进行3次vad检测,并进行相应的asr处理以得到“我想听周杰伦的晴天”这一文本信息作为目标文本信息。以asr处理后得到的第一文本信息为“拨打1380013”这一文本为例,dnn模型并不能确定“拨打1380013”是一个不完整的语句或是一个完整的语句,此时无需继续根据第一阈值时间对语音信号进行静音检测,只需将第二文本信息作为目标文本信息即可。s204,对目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作。自然语言处理是指使计算机能正确地理解自然语言文本所表达的意义。例如“今天天气怎么样”这一文本中,涉及到多个单词,自然语言处理需要界定该段文本的单词边界,得到“今天”、“天气”、“怎么样”这三个文本,以获得该文本对应的指令,例如自然语言处理后输出表示“查询并播放今天的天气”含义且计算机可以理解的指令。执行相应的操作是对待检测的语音信号所做出的响应。以语音信号为“今天天气怎么样”为例,执行的相应操作例如为播放“今天天气晴朗”的音频。在本公开实施例中,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息,根据对应的端点信息和语音信号获取对应的文本信息,对该对应的文本信息进行分析,得到目标文本信息,对目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作,以便用于不同场景,既可以快速响应用户需求,又不会引入错误截断,提升了准确率,并且节省了计算资源。参阅图3,图3为本公开又一实施例提供的语音处理系统的结构示意图,该系统可内置于电子设备中,该系统主要包括:检测模块301、获取模块302和分析模块303。检测模块301,用于根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。该待检测的语音信号的具体内容例如为“今天天气怎么样”、“我想听周杰伦的晴天”、“拨打13800138000”、“春节的传统习俗有哪些”等,此处对待检测的语音信号的具体内容不做限定。同时,本领域技术人员可以根据本实施例的描述得到其它待检测的语音信号的具体内容。以双静音检测模型包含两个vad为例,这两个vad的阈值时间分别为第一阈值时间和第二阈值时间,检测模块301可以分为第一检测模块和第二检测模块。第一检测模块用于根据双静音检测模型中的第一阈值时间对语音信号进行静音检测,得到第一端点信息;第二检测模块用于根据双静音检测模型中的第二阈值时间对语音信号进行静音检测,得到第二端点信息,其中,第一阈值时间小于第二阈值时间。由于第一阈值时间小于第二阈值时间,因此,第一阈值时间对应的vad具有更快的检测速度,第二阈值时间对应的vad具有更准确的检测结果。第一端点信息和第二端点信息可能相同,也可能不同。例如,假设第一阈值时间为2秒,第二阈值时间为5秒,用户流畅地说出“今天天气怎么样”,对于这一段语音信号,这两个vad检测出的第一端点信息和第二端点信息都是“样”这一音节;用户说出“今天”并停顿3秒之后又说出“天气怎么样”,对于这一段语音信号,第一端点信息是“天”这一音节,而第二端点信息是“样”这一音节。可以理解的是,本领域技术人员可以根据本实施例的描述设置其它个数的vad,例如设置为3个、4个等具有不同阈值时间的vad,相应的设置3个、4个等具有不同阈值时间的检测模块,其原理与本实施例相同。获取模块302,用于根据对应的端点信息和语音信号获取对应的文本信息。具体地,获取模块302分为第一获取模块和第二获取模块。第一获取模块用于根据检测到的第一端点信息对语音信号进行语音识别处理,以获取对应的第一文本信息;第二获取模块用于根据检测到的第二端点信息对语音信号进行语音识别处理,以获取对应的第二文本信息。第一文本信息是该第一端点及其之前的语音信号对应的文本内容,例如为“今天”或“今天天气怎么样”等文本。第二文本信息是该第二端点及其之前的语音信号对应的文本内容。本公开实施例中,通常将第二时间阈值设置为一个较大的值,使得该第二文本信息是语音信号对应的完整文本,例如“今天天气怎么样”这一文本。分析模块303,用于对该对应的文本信息进行分析,得到目标文本信息。进一步地,分析模块303用于对第一文本信息进行分析,分析模块303中还包括判断模块,该判断模块用于判断第一文本信息是否为完整文本信息,当第一文本信息为完整文本信息时,第一文本信息即为目标文本信息,当第一文本信息不是完整文本信息时,第二文本信息为目标文本信息。具体地,分析模块303根据预置的深度神经网络模型对asr处理后的第一文本信息进行分析,以供判断模块判断该第一文本信息是否为完整文本信息。例如,对于“今天天气怎么样”这一语音信号,若得到的第一文本信息为“今天天气怎么样”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本是一个完整的文本,此时目标文本信息即为该第一文本信息“今天天气怎么样”。仍以“今天天气怎么样”这一语音信号为例,若得到的第一文本信息为“今天”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本不是一个完整的文本,此时目标文本信息为第二文本信息,第二文本信息是完整的文本信息,因此,目标文本信息为第二文本信息“今天天气怎么样”。本公开实施例中,分析模块303中还可以包括第三获取模块,用于当第一文本信息为不完整文本信息时,再次根据第一阈值时间对语音信号进行静音检测,以获取对应的第三文本信息,该第一文本信息和第三文本信息为目标文本信息。进一步地,第三获取模块还用于当该第一文本信息为不完整信息时继续根据第一阈值时间对语音信号进行静音检测,并在每次检测获得的文本信息均为不完整文本信息时,持续根据第一阈值时间对语音信号进行静音检测,直至最后得到的文本信息为完整文本信息,并输出该每次检测获得的文本信息。本实施例中,不完整文本信息是指能够明确确定该文本信息不完整。以第一阈值时间为1秒、待检测的语音信号为“我想听周杰伦的晴天”,并且“我想听”之后停顿1.5秒,“周杰伦的”之后停顿2秒为例,第一获取模块得到的第一文本信息为“我想听”,此时第一检测模块会根据第一阈值时间连续进行3次vad检测,并相应地执行第一获取模块以得到“我想听周杰伦的晴天”这一文本信息作为目标文本信息。以第一获取模块得到的第一文本信息为“拨打1380013”这一文本为例,dnn模型并不能确定“拨打1380013”是一个不完整的语句或是一个完整的语句,此时第一检测模块无需继续根据第一阈值时间对语音信号进行静音检测,只需通过分析模块303将第二文本信息作为目标文本信息即可。可以理解的是,本公开实施例中,分析模块303中既可以只包含判断模块和第三获取模块中的一个,也可以为二者的组合。进一步地,本公开实施例中,还应包括处理模块,用于对分析模块303中输出的目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作。执行相应的操作是对待检测的语音信号所做出的响应。以语音信号为“今天天气怎么样”为例,执行的相应操作例如为播放“今天天气晴朗”的音频。本公开实施例中的未描述的技术细节,参见前述图1~图2所示各实施例,此处不再赘述。参阅图4,图4示出了一种电子设备的硬件结构图。本实施例中所描述的电子设备,包括:存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1或图2所示实施例中描述的语音处理方法。进一步地,该电子设备还包括:至少一个输入设备43;至少一个输出设备44。上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。存储器41可以是高速随机存取记忆体(ram,randomaccessmemory)存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图4所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1或图2所示实施例中描述的语音处理方法。进一步地,该计算机可存储介质还可以是u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本公开所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上为对本公开所提供的语音处理方法、系统、设备及介质的描述,对于本领域的一般技术人员,依据本公开实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。当前第1页1 2 3 当前第1页1 2 3 
技术领域:
:,具体地,涉及一种语音处理方法、系统、设备和介质。
背景技术:
::随着语音识别技术和人工智能技术的发展,语音人机交互产品层出不穷,尤其是智能语音音箱类产品。输入用户语音命令时,当语音边界检测(voiceactivedetection,vad)检测到用户语音命令结束后,系统给出相应的用户响应。响应速度是影响人机交互体验的一个重要因素,越快的vad技术,意味着越快的响应速度。现有技术方案中,主要通过判断静音时间长度是否超过允许静音时间长度的阈值来检测语音是否结束。实际应用中,不同人的语速不同,其静音时间并不一致,即使同一人,不同场景下的语速也往往不同。若允许静音时间长度的阈值比较短,检测速度会比较快,但容易造成错误截断,从而给出错误响应;若为了兼容各种场景,选择一个比较宽松的阈值,会极大降低响应速度。技术实现要素:本公开的主要目的在于提供一种语音处理方法、系统、设备及介质,以解决现有技术中,通过单个时间阈值检测语音结束端点时,不能同时保证响应速度和检测准确度的问题。本公开实施例第一方面提供了一种语音处理方法,包括:根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;根据所述对应的端点信息和语音信号获取对应的文本信息;对所述对应的文本信息进行分析,得到目标文本信息。可选地,所述端点信息包括第一端点信息和第二端点信息,所述根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息包括:根据所述双静音检测模型中的第一阈值时间对所述语音信号进行静音检测,得到所述第一端点信息;以及根据所述双静音检测模型中的第二阈值时间对所述语音信号进行静音检测,得到所述第二端点信息,其中所述第一阈值时间小于所述第二阈值时间。可选地,所述端点信息包括第一端点信息和第二端点信息,所述根据所述对应的端点信息和语音信号获取对应的文本信息包括:根据所述第一端点信息和语音信号获取对应的第一文本信息;根据所述第二端点信息和语音信号获取对应的第二文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息包括:对所述第一文本信息进行分析;当所述第一文本信息为完整文本信息时,所述第一文本信息为所述目标文本信息,当所述第一文本信息不是完整文本信息时,所述第二文本信息为所述目标文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息还包括:对所述第一文本信息进行分析;当所述第一文本信息为不完整文本信息时,再次根据所述第一阈值时间对所述语音信号进行静音检测,以获取对应的第三文本信息,所述第一文本信息和第三文本信息为所述目标文本信息。可选地,所述对所述对应的文本信息进行分析,得到目标文本信息包括:根据预置的深度神经网络模型对所述对应的文本信息进行分析,以得到所述目标文本信息。可选地,所述方法还包括:对所述目标文本信息进行自然语言处理,得到所述语音信号对应的指令,以根据所述指令执行相应的操作。本公开实施例第二方面提供了一种语音处理系统,包括:检测模块,用于根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;获取模块,用于根据所述对应的端点信息和语音信号获取对应的文本信息;分析模块,用于对所述对应的文本信息进行分析,得到目标文本信息。可选地,所述端点信息包括第一端点信息和第二端点信息,所述检测模块包括:第一检测模块,用于根据所述双静音检测模型中的第一阈值时间对所述语音信号进行静音检测,得到所述第一端点信息;第二检测模块,用于根据所述双静音检测模型中的第二阈值时间对所述语音信号进行静音检测,得到所述第二端点信息,其中所述第一阈值时间小于所述第二阈值时间。可选地,所述端点信息包括第一端点信息和第二端点信息,所述获取模块包括:第一获取模块,用于根据所述第一端点信息和语音信号获取对应的第一文本信息;第二获取模块,用于根据所述第二端点信息和语音信号获取对应的第二文本信息。可选地,所述分析模块包括:判断模块,用于判断所述第一文本信息是否为完整信息,当所述第一文本信息为完整文本信息时,所述第一文本信息为所述目标文本信息,当所述第一文本信息不是完整文本信息时,所述第二文本信息为所述目标文本信息。可选地,所述分析模块包括:第三获取模块,用于当所述第一文本信息为不完整文本信息时,再次根据所述第一阈值时间对所述语音信号进行静音检测,以获取对应的第三文本信息,所述第一文本信息和第三文本信息为所述目标文本信息。本公开实施例第三方面提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行上述语音处理方法。本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语音处理方法。从上述本公开实施例可知,本公开提供的语音处理方法、系统、设备及介质,当接收到待检测的语音信号时,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息;根据对应的端点信息和语音信号获取对应的文本信息;对该对应的文本信息进行分析,得到目标文本信息,以便于能够用于不同场景,既可以快速响应用户需求,又不会引入错误截断,并节省了计算资源。附图说明为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:图1为本公开一实施例提供的语音处理方法的流程示意图;图2为本公开另一实施例提供的语音处理方法的流程示意图;图3为本公开又一实施例提供的语音处理系统的结构示意图;图4示出了一种电子设备的硬件结构框图。具体实施方式为使得本公开目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。参阅图1,图1为本公开一实施例提供的语音处理方法的流程示意图,该方法可应用于具有利用声音进行人机交互功能的电子设备中,该电子设备例如包括:智能音箱、设置有语音助手的平板电脑(portableandroiddevice,pad)或手机等,该方法主要包括以下操作:s101,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。该待检测的语音信号的具体内容例如为“今天天气怎么样”、“我想听周杰伦的晴天”、“拨打13800138000”、“春节的传统习俗有哪些”等,此处对待检测的语音信号的具体内容不做限定。同时,本领域技术人员可以根据本实施例的描述得到其它待检测的语音信号的具体内容。静音检测是指根据特定规则检测某一段语音的结束端点(也称尾端点),尾端点可以认为是该段语音信号中,检测到的最后一个音节,例如语音信号“今天天气怎么样”中的“样”即为其尾端点。双静音检测是指分别根据两个不同的特定规则检测某一段语音的尾端点。因此,操作s101中得到的端点信息包括两个端点信息,这两个端点信息可能相同,也可能不同。本公开实施例中,双静音检测模型中包含两个静音检测模型,以分别用于不同的场景。例如双静音检测模型中的一个静音检测模型检测速度快,但是准确率较低,另一个静音检测模型检测速度较慢,但是准确率高。s102,根据对应的端点信息和语音信号获取对应的文本信息。即,根据操作s101中得到的两个端点信息和语音信号分别获取这两个端点信息对应的文本信息。因此,操作s102中得到的文本信息包括两个文本信息,这两个文本信息可能相同,也可能不同。文本信息是其对应的端点信息及其之前的语音信号的文本内容。例如其中一个文本信息为“今天”,另一个文本信息为“今天天气怎么样”,或者这两个文本信息都为“今天天气怎么样”。s103,对该对应的文本信息进行分析,得到目标文本信息。即,对操作s102中得到的文本信息进行分析,以得到与待检测的语音信号完全对应的目标文本信息。具体地,对根据检测速度快的静音检测模型检测后获得的文本信息进行准确性分析,若该文本信息准确,该文本信息为目标文本信息,否则,上述根据检测准确率高的静音检测模型检测后获得的文本信息为目标信息。在本公开实施例中,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息,根据对应的端点信息和语音信号获取对应的文本信息,对该对应的文本信息进行分析,得到目标文本信息,以便用于不同场景,既可以快速响应用户需求,又不会引入错误截断,提升了准确率。参阅图2,图2为本公开又一实施例提供的语音处理方法的流程示意图,该方法可应用于具有利用声音进行人机交互功能的电子设备中,该方法主要包括以下操作:s201,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。语音活动检测(voiceactivitydetection,vad)是静音检测中的一种,又称为语音边界检测,用于从语音信号流中识别和消除长时间的静音,以达到在不降低业务质量的情况下节省链路资源的目的。vad依靠阈值时间来检测某一段语音信号的尾端点,具体地,当检测到该段语音信号中连续静音的时间长度超过该阈值时间时,认为该段语音信号已经结束,否则,继续检测该段语音信号,直至连续静音的时间长度超过该阈值时间。以双静音检测模型包含两个vad为例,这两个vad的阈值时间分别为第一阈值时间和第二阈值时间,操作s201具体包括:根据双静音检测模型中的第一阈值时间对语音信号进行静音检测,得到第一端点信息,以及根据双静音检测模型中的第二阈值时间对语音信号进行静音检测,得到第二端点信息,其中,第一阈值时间小于第二阈值时间。由于第一阈值时间小于第二阈值时间,因此,第一阈值时间对应的vad具有更快的检测速度,第二阈值时间对应的vad具有更准确的检测结果。第一端点信息和第二端点信息可能相同,也可能不同。例如,假设第一阈值时间为2秒,第二阈值时间为5秒,用户流畅地说出“今天天气怎么样”,对于这一段语音信号,这两个vad检测出的第一端点信息和第二端点信息都是“样”这一音节;用户说出“今天”并停顿3秒之后又说出“天气怎么样”,对于这一段语音信号,第一端点信息是“天”这一音节,而第二端点信息是“样”这一音节。可以理解的是,本领域技术人员可以根据本实施例的描述设置其它个数的vad,例如设置为3个、4个等具有不同阈值时间的vad,其操作原理与本实施例相同。s202,根据对应的端点信息和语音信号获取对应的文本信息。具体地,根据操作s201中的第一端点信息和语音信号获取对应的第一文本信息,以及根据操作s201中的第二端点信息和语音信号获取对应的第二文本信息。语音识别处理(automaticspeechrecognition,asr)是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等,其目的是将音频转化为文字。例如对“今天天气怎么样”这一语音内容进行语音识别处理后输出的是“今天天气怎么样”这一文本内容。以对端点信息进行语音识别处理以获取对应的文本信息为例,操作s202中可以根据检测到的第一端点信息对语音信号进行语音识别处理,以获取对应的第一文本信息;以及根据检测到的第二端点信息对语音信号进行语音识别处理,以获取对应的第二文本信息。本公开实施例中,通常将第二时间阈值设置为一个较大的值,使得该第二文本信息是语音信号对应的完整文本。s203,对该对应的文本信息进行分析,得到目标文本信息。操作s203中,对第一文本信息进行分析,当第一文本信息为完整文本信息时,第一文本信息即为目标文本信息,当第一文本信息不是完整文本信息时,第二文本信息为目标文本信息。具体地,根据预置的深度神经网络(deepneuralnetworks,dnn)模型对asr处理后的第一文本信息进行分析,以判断该第一文本信息是否为完整文本信息。深度神经网络属于机器学习领域,其具有很高的识别率,在自然语言处理(naturallanguageprocessing,nlp)和图像领域尤为重要,例如识别asr处理后的文本等。预置的dnn模型,是对大量已知是否为完整文本的训练文本进行训练后得到的一计算模型,该dnn模型具有较高的准确度。该dnn模型的输入为文本,该dnn模型的输出例如为“是”或“否”。相较于基于nlp方法判断asr处理后的文本是否完整,本公开实施例中,基于dnn方法判断asr处理后的文本是否完整,可以在保证判断准确度的基础上,加快计算速度。例如,对于“今天天气怎么样”这一语音信号,若得到的第一文本信息为“今天天气怎么样”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本是一个完整的文本,此时目标文本信息即为该第一文本信息“今天天气怎么样”。仍以“今天天气怎么样”这一语音信号为例,若得到的第一文本信息为“今天”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本不是一个完整的文本,此时目标文本信息为第二文本信息,本公开实施例中,第二文本信息是完整的文本信息,因此,目标文本信息为第二文本信息“今天天气怎么样”。本公开实施例中,还可以在第一文本信息不是完整文本信息时,判断第一文本信息是否为不完整文本信息,当第一文本信息为不完整文本信息时,继续根据第一阈值时间对语音信号进行静音检测,以获取对应的第三文本信息,该第一文本信息和第三文本信息为目标文本信息。进一步地,当第一文本信息为不完整文本信息时继续根据第一阈值时间对语音信号进行静音检测,并在每次检测获得的文本信息均为不完整文本信息时,持续根据第一阈值时间对语音信号进行静音检测,直至最后得到的文本信息为完整文本信息,并输出该每次检测获得的文本信息。本实施例中,不完整文本信息是指能够明确确定该文本信息不完整。以第一阈值时间为1秒、待检测的语音信号为“我想听周杰伦的晴天”,并且“我想听”之后停顿1.5秒,“周杰伦的”之后停顿2秒为例,asr处理后得到的第一文本信息为“我想听”,此时会根据第一阈值时间连续进行3次vad检测,并进行相应的asr处理以得到“我想听周杰伦的晴天”这一文本信息作为目标文本信息。以asr处理后得到的第一文本信息为“拨打1380013”这一文本为例,dnn模型并不能确定“拨打1380013”是一个不完整的语句或是一个完整的语句,此时无需继续根据第一阈值时间对语音信号进行静音检测,只需将第二文本信息作为目标文本信息即可。s204,对目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作。自然语言处理是指使计算机能正确地理解自然语言文本所表达的意义。例如“今天天气怎么样”这一文本中,涉及到多个单词,自然语言处理需要界定该段文本的单词边界,得到“今天”、“天气”、“怎么样”这三个文本,以获得该文本对应的指令,例如自然语言处理后输出表示“查询并播放今天的天气”含义且计算机可以理解的指令。执行相应的操作是对待检测的语音信号所做出的响应。以语音信号为“今天天气怎么样”为例,执行的相应操作例如为播放“今天天气晴朗”的音频。在本公开实施例中,根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息,根据对应的端点信息和语音信号获取对应的文本信息,对该对应的文本信息进行分析,得到目标文本信息,对目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作,以便用于不同场景,既可以快速响应用户需求,又不会引入错误截断,提升了准确率,并且节省了计算资源。参阅图3,图3为本公开又一实施例提供的语音处理系统的结构示意图,该系统可内置于电子设备中,该系统主要包括:检测模块301、获取模块302和分析模块303。检测模块301,用于根据双静音检测模型分别对待检测的语音信号进行静音检测,得到对应的端点信息。该待检测的语音信号的具体内容例如为“今天天气怎么样”、“我想听周杰伦的晴天”、“拨打13800138000”、“春节的传统习俗有哪些”等,此处对待检测的语音信号的具体内容不做限定。同时,本领域技术人员可以根据本实施例的描述得到其它待检测的语音信号的具体内容。以双静音检测模型包含两个vad为例,这两个vad的阈值时间分别为第一阈值时间和第二阈值时间,检测模块301可以分为第一检测模块和第二检测模块。第一检测模块用于根据双静音检测模型中的第一阈值时间对语音信号进行静音检测,得到第一端点信息;第二检测模块用于根据双静音检测模型中的第二阈值时间对语音信号进行静音检测,得到第二端点信息,其中,第一阈值时间小于第二阈值时间。由于第一阈值时间小于第二阈值时间,因此,第一阈值时间对应的vad具有更快的检测速度,第二阈值时间对应的vad具有更准确的检测结果。第一端点信息和第二端点信息可能相同,也可能不同。例如,假设第一阈值时间为2秒,第二阈值时间为5秒,用户流畅地说出“今天天气怎么样”,对于这一段语音信号,这两个vad检测出的第一端点信息和第二端点信息都是“样”这一音节;用户说出“今天”并停顿3秒之后又说出“天气怎么样”,对于这一段语音信号,第一端点信息是“天”这一音节,而第二端点信息是“样”这一音节。可以理解的是,本领域技术人员可以根据本实施例的描述设置其它个数的vad,例如设置为3个、4个等具有不同阈值时间的vad,相应的设置3个、4个等具有不同阈值时间的检测模块,其原理与本实施例相同。获取模块302,用于根据对应的端点信息和语音信号获取对应的文本信息。具体地,获取模块302分为第一获取模块和第二获取模块。第一获取模块用于根据检测到的第一端点信息对语音信号进行语音识别处理,以获取对应的第一文本信息;第二获取模块用于根据检测到的第二端点信息对语音信号进行语音识别处理,以获取对应的第二文本信息。第一文本信息是该第一端点及其之前的语音信号对应的文本内容,例如为“今天”或“今天天气怎么样”等文本。第二文本信息是该第二端点及其之前的语音信号对应的文本内容。本公开实施例中,通常将第二时间阈值设置为一个较大的值,使得该第二文本信息是语音信号对应的完整文本,例如“今天天气怎么样”这一文本。分析模块303,用于对该对应的文本信息进行分析,得到目标文本信息。进一步地,分析模块303用于对第一文本信息进行分析,分析模块303中还包括判断模块,该判断模块用于判断第一文本信息是否为完整文本信息,当第一文本信息为完整文本信息时,第一文本信息即为目标文本信息,当第一文本信息不是完整文本信息时,第二文本信息为目标文本信息。具体地,分析模块303根据预置的深度神经网络模型对asr处理后的第一文本信息进行分析,以供判断模块判断该第一文本信息是否为完整文本信息。例如,对于“今天天气怎么样”这一语音信号,若得到的第一文本信息为“今天天气怎么样”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本是一个完整的文本,此时目标文本信息即为该第一文本信息“今天天气怎么样”。仍以“今天天气怎么样”这一语音信号为例,若得到的第一文本信息为“今天”,该第一文本信息输入至dnn模型后,dnn模型判断出该文本不是一个完整的文本,此时目标文本信息为第二文本信息,第二文本信息是完整的文本信息,因此,目标文本信息为第二文本信息“今天天气怎么样”。本公开实施例中,分析模块303中还可以包括第三获取模块,用于当第一文本信息为不完整文本信息时,再次根据第一阈值时间对语音信号进行静音检测,以获取对应的第三文本信息,该第一文本信息和第三文本信息为目标文本信息。进一步地,第三获取模块还用于当该第一文本信息为不完整信息时继续根据第一阈值时间对语音信号进行静音检测,并在每次检测获得的文本信息均为不完整文本信息时,持续根据第一阈值时间对语音信号进行静音检测,直至最后得到的文本信息为完整文本信息,并输出该每次检测获得的文本信息。本实施例中,不完整文本信息是指能够明确确定该文本信息不完整。以第一阈值时间为1秒、待检测的语音信号为“我想听周杰伦的晴天”,并且“我想听”之后停顿1.5秒,“周杰伦的”之后停顿2秒为例,第一获取模块得到的第一文本信息为“我想听”,此时第一检测模块会根据第一阈值时间连续进行3次vad检测,并相应地执行第一获取模块以得到“我想听周杰伦的晴天”这一文本信息作为目标文本信息。以第一获取模块得到的第一文本信息为“拨打1380013”这一文本为例,dnn模型并不能确定“拨打1380013”是一个不完整的语句或是一个完整的语句,此时第一检测模块无需继续根据第一阈值时间对语音信号进行静音检测,只需通过分析模块303将第二文本信息作为目标文本信息即可。可以理解的是,本公开实施例中,分析模块303中既可以只包含判断模块和第三获取模块中的一个,也可以为二者的组合。进一步地,本公开实施例中,还应包括处理模块,用于对分析模块303中输出的目标文本信息进行自然语言处理,以得到上述待检测的语音信号对应的指令,并根据该指令执行相应的操作。执行相应的操作是对待检测的语音信号所做出的响应。以语音信号为“今天天气怎么样”为例,执行的相应操作例如为播放“今天天气晴朗”的音频。本公开实施例中的未描述的技术细节,参见前述图1~图2所示各实施例,此处不再赘述。参阅图4,图4示出了一种电子设备的硬件结构图。本实施例中所描述的电子设备,包括:存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1或图2所示实施例中描述的语音处理方法。进一步地,该电子设备还包括:至少一个输入设备43;至少一个输出设备44。上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。存储器41可以是高速随机存取记忆体(ram,randomaccessmemory)存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图4所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1或图2所示实施例中描述的语音处理方法。进一步地,该计算机可存储介质还可以是u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本公开所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上为对本公开所提供的语音处理方法、系统、设备及介质的描述,对于本领域的一般技术人员,依据本公开实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。当前第1页1 2 3 当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
热门咨询
tips