基于语音识别的问卷调查方法、装置、存储介质及设备与流程

2021-01-28 13:01:02|

268|

起点商标网

本发明涉及语音识别技术领域，尤其涉及一种基于语音识别的问卷调查方法、装置、存储介质及设备。

背景技术：

现有的问卷调查方式一般为纸质问卷调查或者在网页上的问卷调查方式；在纸质问卷调查需要用户收到书写的方式，在网页上的问卷调查方式同样需要用户手动输入，在需要书写或者输入的内容比较多时，大部分的被调查对象均体验不好或者不愿意配合调查，这样导致无法完成问卷调查的任务。

技术实现要素：

本发明的目的在于克服现有技术的不足，本发明提供了一种基于语音识别的问卷调查方法、装置、存储介质及设备，采用语音识别技术，使得调查问卷更加智能化、便捷化；无需被调查问卷对象手动填写，提高用户体验。

为了解决上述技术问题，本发明实施例提供了一种基于语音识别的问卷调查方法，所述方法包括：

启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息；

所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息；

按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果；

将被问卷调查对象的语音识别结果按照调查问卷的问题顺序进行整理，得到整理结果，并将所述整理结果进行数据压缩处理，获得压缩后的语音识别结果；

所述设备终端将所述压缩后的语音识别结果基于https传输协议上传至服务端，并按照对应的编号存储在数据库中。

可选的，所述启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息之前，还包括：

将所述终端上的麦克风设备置于无干扰环境下进行校正处理，获得校正处理信号；

对所述校正处理信号进行傅里叶变换处理，并基于傅里叶变换结果进行增益函数的计算，获得计算后的增益函数。

可选的，所述麦克风设备包括至少两个麦克风；

基于所述麦克风设备接收被问卷调查对象输入的语音信息，包括：

在所述至少两个麦克风上分别设置以缓冲区；

将所述至少两个麦克风采集到的语音信息分别缓存至各自的缓冲区中；

所述设备终端基于预设时间周期内分别在所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息。

可选的，所述设备终端基于预设时间周期内分别在所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息之后，包括：

所述设备终端判断在分别所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息的强度；

将提取相同数量的语音信息中最强的语音信息作为当前麦克风设备降噪处理的主输入语音信息，将提取的相同数量的其他语音信息作为当前麦克风设备降噪处理的副输入语音信息；

基于所述主输入语音信息及所述副输入语音信息进行降噪处理，获得降噪后的语音信息。

可选的，所述基于所述主输入语音信息及所述副输入语音信息进行降噪处理，获得降噪后的语音信息，包括：

基于所述计算后的增益函数对所述主输入语音信息及所述副输入语音信息进行幅度差和相位差计算处理，获得所述主输入语音信息及所述副输入语音信息的幅度差和相位差；

利用所述主输入语音信息及所述副输入语音信息的幅度差和相位差分别对所述主输入语音信息及所述副输入语音信息进行频点分类，获得分类频谱；

对所述分类频谱进行平滑处理，并将平滑处理结果进行滤波处理，获得降噪后的语音信息。

可选的，所述问卷调查问题包括客观问题和主观问题；

所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息，包括：

所述设备终端基于当前的问卷问题为客观问题或主观问题对所述语音信息进行分类，获得分类后的语音信息。

可选的，所述按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果，包括：

在所述语音信息所对应的当前文件调查问题为客观问题时，将所述语音信息转为第一文字内容；

基于所述第一文字内容构建第一特征向量列表，并将构建好的第一特征向量列表输入nlp分析模型中；

在所述nlp分析模型内基于n-gram统计语言算法对所述第一特征向量列表中每个特征向量进行统计，获得第一统计结果；

将所述第一统计结果经过所述nlp分析模型分析处理，获得第一语义信息；

将所述第一语义信息与所述客观问题中的选项语义进行相似度匹配计算，获得相似度匹配最高的选项；

基于相似度匹配最高的选项确定语音识别结果；

在所述语音信息所对应的当前文件调查问题为主观问题时，将所述语音信息转为第二文字内容；

基于所述第二文字内容构建第二特征向量列表，并将构建好的第二特征向量列表输入nlp分析模型中；

在所述nlp分析模型内基于n-gram统计语言算法对所述第二特征向量列表中每个特征向量进行统计，获得第二统计结果；

将所述第二统计结果经过所述nlp分析模型分析处理，获得第二语义信息；

将所述第二语义信息作为语音识别结果。

另外，本发明实施例还提供了一种基于语音识别的问卷调查装置，所述装置包括：

接收模块：用于启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息；

分类模块：用于所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息；

识别处理模块：用于按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果；

整理压缩模块：用于将被问卷调查对象的语音识别结果按照调查问卷的问题顺序进行整理，得到整理结果，并将所述整理结果进行数据压缩处理，获得压缩后的语音识别结果；

上传存储模块：用于所述设备终端将所述压缩后的语音识别结果基于https传输协议上传至服务端，并按照对应的编号存储在数据库中。

另外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述中任意一项所述的问卷调查方法。

另外，本发明实施例还提供了一种设备终端，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据上述中任意一项所述的问卷调查方法。

在本发明实施例中，通过设备终端上的麦克风设备即可实现对被问卷调查对象的语音信息的采集；在对语音信息分类、识别、按顺序整理之后压缩上传至服务端存储，即可实现在问卷调查是，直接实现被调查对象的语音回答方式，无需被调查对象手动书写或者手动输入的方式，给被调查对象良好的调查体验，使得被调查对象更易于接受问卷调查；并且采用语音识别技术，使得调查问卷更加智能化、便捷化；无需被调查问卷对象手动填写，提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于语音识别的问卷调查方法的流程示意图；

图2是本发明实施例中的基于语音识别的问卷调查装置的结构组成示意图；

图3是本发明实施例中的设备终端的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施例中的基于语音识别的问卷调查方法的流程示意图。

如图1所示，一种基于语音识别的问卷调查方法，所述方法包括：

s11：启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息；

在本发明具体实施过程中，所述启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息之前，还包括：将所述设备终端上的麦克风设备置于无干扰环境下进行校正处理，获得校正处理信号；对所述校正处理信号进行傅里叶变换处理，并基于傅里叶变换结果进行增益函数的计算，获得计算后的增益函数。

进一步的，所述麦克风设备包括至少两个麦克风；基于所述麦克风设备接收被问卷调查对象输入的语音信息，包括：在所述至少两个麦克风上分别设置以缓冲区；将所述至少两个麦克风采集到的语音信息分别缓存至各自的缓冲区中；所述设备终端基于预设时间周期内分别在所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息。

进一步的，所述设备终端基于预设时间周期内分别在所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息之后，包括：所述设备终端判断在分别所述至少两个麦克风中的各自缓冲区内提取相同数量的语音信息的强度；将提取相同数量的语音信息中最强的语音信息作为当前麦克风设备降噪处理的主输入语音信息，将提取的相同数量的其他语音信息作为当前麦克风设备降噪处理的副输入语音信息。基于所述主输入语音信息及所述副输入语音信息进行降噪处理，获得降噪后的语音信息。

进一步的，所述基于所述主输入语音信息及所述副输入语音信息进行降噪处理，获得降噪后的语音信息，包括：基于所述计算后的增益函数对所述主输入语音信息及所述副输入语音信息进行幅度差和相位差计算处理，获得所述主输入语音信息及所述副输入语音信息的幅度差和相位差；利用所述主输入语音信息及所述副输入语音信息的幅度差和相位差分别对所述主输入语音信息及所述副输入语音信息进行频点分类，获得分类频谱；对所述分类频谱进行平滑处理，并将平滑处理结果进行滤波处理，获得降噪后的语音信息。

具体的，需要先将设备终端上的麦克风设备进行校正，其中，校正的方式是把该设备终端上的麦克风设备置于无干扰环境下进行校正，并得到校正处理信号；并且需要对校正处理信号进行傅里叶变换处理，并且还需要确定增益函数，该增益函数主要是根据校正处理是的损失值来确定的；然后利用傅里叶变换结果进行计算，从而得到计算后的增益函数；在校正处理信号进行傅里叶变换后得到的变换结果对应的一个个频点；然后根据损失函数得到增益函数，即通过将傅里叶变换结果代入损失函数中，计算即可得到最佳的增益函数。

在本发明实施过程中，该麦克风设备中包括至少两个麦克风，即两个或以上的麦克风，用于采集语音信息；并且在至少两个麦克风上分别设置以缓冲区，并且将至少两个麦克风采集到的语音信息分别缓存至各自的缓冲区中；然后设备终端根据预设时间周期内分别在至少两个麦克风中的各自缓冲区内提取相同数量的语音信息，即至少两个麦克风采集的语音信息的同步问题，并且缓冲区内缓存的数据量一般为提取数据量的两倍以上；预设时间周期一般为麦克风内置芯片所提供的一个时钟周期；并且缓存区内缓存的语音信息的数据具有时序性；即设备终端所提取的数据是按照时序提取的，不至于产生混乱；并且麦克风设备内置芯片每隔一段时间访问一次缓冲区内的数据，并且根据缓冲区内缓存的数据调整语音信息的采集速率，使得至少两个麦克风所采集的语音信息的同步。

在设备终端提取至少两个麦克风中的各自缓冲区内相同数量的语音信息之后，该设备终端判断在分别至少两个麦克风中的各自缓冲区内提取相同数量的语音信息的强度；该强度为语音信息的信号幅值的平均强度；并且将提取相同数量的语音信息中最强的语音信息作为当前麦克风设备降噪处理的主输入语音信息；将提取的相同数量的其他语音信息作为当前麦克风设备降噪处理的副输入语音信息；然后根据主输入语音信息及副输入语音信息进行降噪处理，即可获得降噪后的语音信息。

具体的降噪处理过程为根据计算后的增益函数对主输入语音信息及副输入语音信息进行幅度差和相位差计算处理，并且分别获得主输入语音信息及副输入语音信息的幅度差和相位差；然后在利用分别获得主输入语音信息及副输入语音信息的幅度差和相位差分别对主输入语音信息及副输入语音信息进行频点分类，获得分类频谱；然后对分类频谱进行平滑处理，该平滑处理可以为汉明窗法，在平滑处理之后，在经过滤波处理，即可实现对语音信息的降噪，从而得到降噪后的语音信息。

s12：所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息；

在本发明具体实施过程中，所述问卷调查问题包括客观问题和主观问题；所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息，包括：所述设备终端基于当前的问卷问题为客观问题或主观问题对所述语音信息进行分类，获得分类后的语音信息。

具体的，在该问卷调查问题中一般包括主观问题和客观问题；因此，在设备终端中，需要根据当前的问卷问题为客观问题或主观问题来对语音信息进行分类，获得分类后的语音信息；通过该分类，方便后续对语音信息的识别处理，因为不同的问题，后续所涉及的识别处理方式是有所区别的。

s13：按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果；

在本发明具体实施过程中，所述按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果，包括：在所述语音信息所对应的当前文件调查问题为客观问题时，将所述语音信息转为第一文字内容；基于所述第一文字内容构建第一特征向量列表，并将构建好的第一特征向量列表输入nlp分析模型中；在所述nlp分析模型内基于n-gram统计语言算法对所述第一特征向量列表中每个特征向量进行统计，获得第一统计结果；将所述第一统计结果经过所述nlp分析模型分析处理，获得第一语义信息；将所述第一语义信息与所述客观问题中的选项语义进行相似度匹配计算，获得相似度匹配最高的选项；基于相似度匹配最高的选项确定语音识别结果；在所述语音信息所对应的当前文件调查问题为主观问题时，将所述语音信息转为第二文字内容；基于所述第二文字内容构建第二特征向量列表，并将构建好的第二特征向量列表输入nlp分析模型中；在所述nlp分析模型内基于n-gram统计语言算法对所述第二特征向量列表中每个特征向量进行统计，获得第二统计结果；将所述第二统计结果经过所述nlp分析模型分析处理，获得第二语义信息；将所述第二语义信息作为语音识别结果。

具体的，需要分客观问题或者主观问题的情况，即在该语音信息所对应的当前文件调查问题为客观问题时，将语音信息转为第一文字内容；然后根据该第一文字内容构建第一特征向量列表，并将构建好的第一特征向量列表输入nlp分析模型中；在该nlp分析模型内根据n-gram统计语言算法对该第一特征向量列表中每个特征向量进行统计，获得第一统计结果；然后将该第一统计结果经过nlp分析模型分析处理，获得第一语义信息；，因为客观问题，在会给出对应的至少两个以上的选项，则需要将第一语义信息与该客观问题中的选项语义进行相似度匹配计算，获得相似度匹配最高的选项；然后根据相似度匹配最高的选项确定语音识别结果。

在语音信息所对应的当前文件调查问题为主观问题时，将该语音信息转为第二文字内容；然后根据该第二文字内容构建第二特征向量列表，并将构建好的第二特征向量列表输入nlp分析模型中；在该nlp分析模型内根据n-gram统计语言算法对该第二特征向量列表中每个特征向量进行统计，获得第二统计结果；将该第二统计结果经过该nlp分析模型分析处理，获得第二语义信息；最后将该第二语义信息作为语音识别结果。

在此，构建特征向量列表是通过然语言处理领域的词袋模型（bof）与n-gram特征相结合，既能准确分词又能调整分词后的顺序。词袋模型（bof）由特征提取、特征聚类、特征编码、特征汇聚和分类器分类４部分组成的标准目标分类框架。n-gram特征是根据统计语言模型的算法，又被称为一阶马尔科夫链，是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列；每一个字节片段称为gram，对所有的gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文字内容的向量特征空间；列表中的每一种gram就是一个特征向量维度；具体是，首先对文字内容进行语段序列粗分处理；然后在进行bi-gram切割处理；最后进行过滤处理，获取特征向量列表。

该nlp分析模型架构采用，输入，映射（隐藏），输出的架构，其中x(1)到x(n)表示文本中每个词的特征向量，段落则可以用所有词的嵌入累加后的均值表示，最后从隐层再经过一次的非线性变换得到输出层的标签。nlp分析模型输入一段文本或者一句话时，输出这段文本或者句话属于不同类别的概率；隐层是由输入层求和并平均，乘以权重矩阵a得到的。输出层是由隐层乘以权重矩阵b得到的。为了改善运算时间，为了改善运行时间，该模型使用了层次softmax技巧，建立在哈弗曼编码的基础上，对标签进行编码，能够极大地缩小模型预测目标的数量。

具体的，输出层是由隐层乘以权重矩阵b的公式如下：

;

其中，表示truelabel（真标签），表示特征向量列表（文档n归一化后的n-gram特征），a和b分别表示权重矩阵；，n为正整数。

s14：将被问卷调查对象的语音识别结果按照调查问卷的问题顺序进行整理，并将所述整理结果进行数据压缩处理，获得压缩后的语音识别结果；

在本发明具体实施过程中，将被问卷调查对象的语音识别结果按照调查问卷的问题顺序进行整理，即按照调查文件的问题顺序排序该语音识别结果，在整理之后，得到整理结果，为了数据的安全以及后续数据在发送是增加发送速度，则需要对整理结果进行数据压缩处理，在压缩之前，首先进行加密处理，在此采用md5（信息摘要算法）进行加密，并对加密结果进行压缩处理，获得压缩后的语音识别结果。

s15：所述设备终端将所述压缩后的语音识别结果基于https传输协议上传至服务端，并按照对应的编号存储在数据库中。

在本发明具体实施过程中，在该设备终端上获得压缩后的语音识别结果之后，将该压缩后的语音识别结果利用https传输协议上传至服务端，并按照对应的编号存储在数据库中；方便后续对该调查问卷的调查结果进行对应的分析处理。

实施例

请参阅图2，图2是本发明实施例中的基于语音识别的问卷调查装置的结构组成示意图。

如图2所示，一种基于语音识别的问卷调查装置，所述装置包括：

接收模块21：用于启动设备终端上的麦克风设备，基于所述麦克风设备接收被问卷调查对象输入的语音信息；

分类模块22：用于所述设备终端基于当前的问卷调查问题对所述语音信息进行分类，获得分类后的语音信息；

识别处理模块23：用于按照分类后的语音信息所对应的当前文件调查问题进行语音识别处理，获得语音识别结果；

具体的，输出层是由隐层乘以权重矩阵b的公式如下：

;

其中，表示truelabel（真标签），表示特征向量列表（文档n归一化后的n-gram特征），a和b分别表示权重矩阵；，n为正整数。

整理压缩模块24：用于将被问卷调查对象的语音识别结果按照调查问卷的问题顺序进行整理，并将所述整理结果进行数据压缩处理，获得压缩后的语音识别结果；

上传存储模块25：用于所述设备终端将所述压缩后的语音识别结果基于https传输协议上传至服务端，并按照对应的编号存储在数据库中。

实施例

本发明实施例提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现任一项技术方案所述的问卷调查方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、cd-rom、和磁光盘）、rom（read-onlymemory，只读存储器）、ram（randomaccessmemory，随即存储器）、eprom（erasableprogrammableread-onlymemory，可擦写可编程只读存储器）、eeprom（electricallyerasableprogrammableread-onlymemory，电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备（例如，计算机、手机）以能够读的形式存储或传输消息的任何介质，可以是只读存储器，磁盘或光盘等。

请参阅图3，图3是本发明实施例中的设备终端的结构组成示意图。

如图3所示，一种设备终端，处理器302、存储器303、输入单元304以及显示单元305等器件。图3所示的结构器件并不构成对所有设备终端的限定，可以比图3更多或更少部件，或组合某些部件。

存储器303可用于存储应用程序301以及各功能模块，处理器302运行存储在存储器303的应用程序301，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、zip盘、u盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元304用于接收信号的输入，以及接收用户输入的信息。输入单元304可包括麦克风设备、触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键（比如播放控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是终端设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

作为一个实施例，所述设备终端包括：一个或多个处理器302，存储器303，一个或多个应用程序301，其中所述一个或多个应用程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行，所述一个或多个程序301配置用于执行上述实施例中的问卷调查方法。

本发明实施例提供的服务器可实现上述提供的问卷调查方法的实施例，具体功能实现请参详方法实施例中的说明，在此不再赘述。

另外，以上对本发明实施例所提供的了一种基于语音识别的问卷调查方法、装置、存储介质及设备进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。