一种基于语音信号处理的说话人心理阻抗现象识别方法与流程

2021-01-28 14:01:39|

352|

起点商标网

本发明涉及语音识别领域，尤其涉及一种基于语音信号处理的说话人心理阻抗现象识别方法。

背景技术：

心理阻抗是指说话人在心理咨询过程中，以公开或者隐蔽的方式否定咨询师的分析，拖延、对抗咨询师的要求，从而影响咨询的进展，甚至使咨询难以进行的一种现象。心理阻抗现象在我们的工作生活中随处可见，针对该现象的解读分析与消解对策当前也已有一些研究，其涉及方面大多集中于学生思想政治教育、心理咨询以及基于数据的精神社会分析，甚至在军队训练和中医脉诊中也可以通过分析心理阻抗现象而采取对应的措施以达到更好的效果。由此可以看出心理阻抗现象的相关数据已成为了一个解决对应问题的关键数据，然而目前在自动化、人工智能和情感计算领域对心理阻抗的系统研究比较少，在目前已有的相关设计中也尚未考虑心理阻抗的因素带来的影响。

目前存在的应用于心理疏导领域的语音信号处理方案可以结合说话人的语音信息完成基本的人机交流并有一定的共情效果。在心理疏导中使用语音信号处理的最终目的都是使技术搭载的载体尽可能拟人化地、真实地扮演“心理咨询师”这一角色。在现实的心理咨询过程中，心理咨询师往往会判断说话人所表现出的心理阻抗现象，并根据这些现象不断进行心理咨询方法的动态调整，以降低心理阻抗现象对心理咨询效果造成的负面影响。而现有相关方案中并未考虑心理阻抗现象这一重要因素，它们无法识别说话人是否出现了心理阻抗现象，更无法辨别出现了哪种心理阻抗现象，因此其无法对自己的共情效果进行动态调整，这就可能使得对说话人的心理咨询效果大打折扣，从而导致相关发明失去了普适性。

技术实现要素：

有鉴于此，本发明以心理阻抗量表——“当事人阻抗编码”为基础，从语言频率、说话人情感倾向性、说话人语义三个方面的数字化入手，提出了一套基于语音信号处理的说话人心理阻抗现象识别方法。通过识别心理阻抗现象可以避免由于其而影响心理疏导效果，且识别过程中说话人的心理阻抗数据也可以被用于相应现象的应对方法中，为心理疏导师提供制定疏导方案所必须的数据支撑；

本发明提出的一种基于语音信号处理的说话人心理阻抗现象识别方法，包括如下步骤：

s101：心理咨询师与说话人进行交谈，并利用录音设备实时记录说话人语音；

s102：将所述说话人语音输入至说话人语言频率检测模块，判断说话人语音频率范围，并根据说话人语音频率范围对说话人的反应状态进行检测，当说话人语音频率范围处于预设值时，得到说话人的反应状态为反应，进入步骤s103；否则，得到说话人的反应状态为不反应，进入步骤s105；

s103：在说话人反应状态为反应的情况下，采用说话人情感倾向性检测模块对说话人的讲话内容进行检测，判断说话人的情感倾向性；所述说话人的情感倾向性包括合作和抵抗；

s104：根据说话人的情感倾向性，调用对应的语料库，并采用语义相似度计算模块，计算得到文本语义相似度；

s105：输出结果，结束。

进一步地，步骤s102中，所述说话人语言频率检测模块，具体包括如下处理过程：

s201：将所述说话人语音的语句j中的音子i的持续时间ai作为随机变量；

s202：采用非对称高斯分布对所述持续时间ai进行逼近，得到逼近后的持续时间ai；

s203：根据逼近后的持续时间ai，计算得到音子i的说话频率，如式(1)所示：

式(1)中，sri表示音子的说话频率，μi是对音子i采用非对称高斯分布逼近时的高斯分布的均值；σi-表示对音子i采用非对称高斯分布逼近时的高斯分布曲线峰值左侧的方差；σi+表示对音子i采用非对称高斯分布逼近时的高斯分布曲线峰值右侧的方差；

s204：根据音子i的说话频率，计算得到语句j的说话频率，如式(2)所示：

进一步地，步骤s103中，采用说话人情感倾向性检测模块判断说话人情感倾向性，具体如下：

s301：对说话人讲话内容进行语音文本识别抽取，得到说话人讲话内容中主观性语句集合；

s302：根据式(3)计算所述说话人讲话内容中主观性语句集合中句子ki的情感倾向值l(ki)：

式(3)中，γ(φj)为句子中程度副词对φj的情感倾向影响因子值，β(ki)为否定词的影响因子值，为句子ki经过识别分词后的所有情感词词语的集合，φj为词集合中的词，α(φj)为情感词语的置信度；

s303：通过句子ki的情感倾向值l(ki)计算谈话轮中的情感倾向值l(totel)，如式(4)：

式(4)中，n为谈话轮中语句的总个数；

s304：判断情感倾向值l(totel)是否处于预设的情感倾向值范围内，若是，则表明说话人情感倾向性为合作，否则表明说话人情感倾向性为抵抗。

进一步地，步骤s301中，对说话人讲话内容进行语音文本识别提取，具体为：

s401：获取说话人讲话内容的文本特征词序列集合；

s402：根据所述文本特征词序列集合建立词表统计特征词语，获取特征词集合；

s403：根据所述特征词集合，统计特征词出现的次数，并计算特征词出现的频率；

s404：构造朴素贝叶斯分类器；利用文本向量化后的文本数据集训练所述朴素贝叶斯分类器，得到贝叶斯分类模型；

s405：将说话人讲话内容输入至所述贝叶斯分类模型，得到所述说话人讲话内容中的主观性语句集合。

进一步地，步骤s104具体为：

s501：根据说话人的情感倾向性，调用合作语料库或者抵抗语料库；

s502：将所述合作语料库或者抵抗语料库中的句子变化成单词组合形式；

s503：去除所述单词组合中的停用词，得到筛选后的单词集合；其中去除的停用词根据中文停用词表获取；

s504：计算筛选后的单词集合中两个抽象知识点的语义距离，如式(5)所示：

式(5)中，β为可调节参数；a、b、c分别代表第一抽象知识点的层数、第二抽象知识点的层数、第一抽象知识点与第二抽象知识点的最近的共同抽象知识点父类的层数；

s505：从筛选后的单词集合中，选择k1、k2分别作为说话人不同语句的中心词集合，计算k1中的第x个中心词和k2中第y个中心词之间的相似度为sim(x,y)；

s506：取中心词x和中心词y的最大相似度，如式(6)：

式(6)中，x表示k1中中心词的总个数；y表示k2中中心词的总个数；

s507：计算中心词集合k1、k2之间的相似度，如式(7)：

s508：根据中心词集合k1、k2之间的相似度和两个抽象知识点的语义距离，计算得到文本语义相似度，如式(8)所示：

sim(sen1,sen2)＝θ×sim(k1,k2)+(1-θ)×sim(w1,w2)(8)

式(8)中，θ取值范围为[0,1]；sen1和sen2分别为所述合作语料库或者抵抗语料库中对应中心词集合k1、k2和第一抽象知识点、第二抽象知识点的两个语句。

进一步地，步骤s105具体为：

s601：根据式(8)计算说话人语音文本与语料库中各现象的文本语义相似度，具体如式(9)所示：

sim(text,ci)＝max(sim(text,senj))(9)

式(9)中，text表示说话人语音文本；ci为语料库中的现象类别；senj为语料库中对应ci现象类别的已知文本；max(sim(text,senj))表示说话人语音文本与ci类别的最大语义相似度；

s602：当sim(text,ci)超过预设的阈值时，表明说话人语音文本与ci现象类别相似度高，输出该现象类别的具体反映现象。

步骤s602中，所述现象类别的具体反映现象，具体为：

当说话人的情感倾向性为合作时，具体反映现象包括：助益性反应和非阻抗反应；当说话人的情感倾向性为抵抗时，具体反映现象包括：挑战、不同意、无望、责备、防卫他人、自我防卫、自我议程、跑题、不回答和不合格。

一种存储设备，所述存储设备存储指令及数据用于实现一种基于语音信号处理的说话人心理阻抗现象识别方法。

一种基于语音信号处理的说话人心理阻抗现象识别设备，包括：处理器及所述存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现一种基于语音信号处理的说话人心理阻抗现象识别方法。

本发明提供的有益效果是：结合三个模块将说话人的语音信号和语音内容进行数字化检测识别，提高识别的准确性，同时提高心理疏导效率与成功率。

附图说明

图1是本发明一种基于语音信号处理的说话人心理阻抗现象识别方法的流程示意图；

图2是语言频率检测的流程图；

图3是判断说话人情感倾向性流程图；

图4是语音文本识别的流程图；

图5是语义相似度计算流程图；

图6是本发明实施例的硬件设备工作示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明一种基于语音信号处理的说话人心理阻抗现象识别方法的流程示意图，具体如下：

s101：心理咨询师与说话人进行交谈，并利用录音设备实时记录说话人语音；

s104：根据说话人的情感倾向性，调用对应的语料库，并采用语义相似度计算模块，计算得到文本语义相似度；

s105：输出结果，结束。

请参考图2，图2是语言频率检测的流程图；步骤s102中，所述说话人语言频率检测模块，具体包括如下处理过程：

s201：将所述说话人语音的语句j中的音子i的持续时间ai作为随机变量；

s202：采用非对称高斯分布对所述持续时间ai进行逼近，得到逼近后的持续时间ai；

s203：根据逼近后的持续时间ai，计算得到音子i的说话频率，如式(1)所示：

s204：根据音子i的说话频率，计算得到语句j的说话频率，如式(2)所示：

请参考图3，图3是判断说话人情感倾向性流程图；步骤s103中，采用说话人情感倾向性检测模块判断说话人情感倾向性，具体如下：

s301：对说话人讲话内容进行语音文本识别抽取，得到说话人讲话内容中主观性语句集合；文本抽取主要选取情感词、感叹词、关联词、程度副词以及指示性动词等五种主观线索特征作为主观性文本识别依据，这五种主观线索特征词由hownet情感分析用词语集中中文词语选定。

s302：根据式(3)计算所述说话人讲话内容中主观性语句集合中句子ki的情感倾向值l(ki)：

s303：通过句子ki的情感倾向值l(ki)计算谈话轮中的情感倾向值l(totel)，如式(4)：

式(4)中，n为谈话轮中语句的总个数；

s304：判断情感倾向值l(totel)是否处于预设的情感倾向值范围内，若是，则表明说话人情感倾向性为合作，否则表明说话人情感倾向性为抵抗。

请参考图4，图4是语音文本识别的流程图；步骤s301中，对说话人讲话内容进行语音文本识别提取，具体为：

s401：获取说话人讲话内容的文本特征词序列集合；

对说话人讲话内容的文本n的分句、分词并进行词语标注处理后，得到文本特征词序列集合n如下：

n＝{t1/pos1,t2/pos2,…,tn/posn}

其中ti是文本的特征词，posi是特征词的词性，且i＝1,2,...,n；

s402：根据所述文本特征词序列集合建立词表统计特征词语，获取特征词集合；

利用hownet情感分析用词集中中文词语建立词表s如下：

s＝{s1,s2,…,sn}

利用建立好的情感词表s统计用户语料库中的文本n中的特征词语，得到特征词语集合s如下：

s＝{s1,s2,…,sn|si∈s∩si∈n}

s403：根据所述特征词集合，统计特征词出现的次数，并计算特征词出现的频率；

所述特征词集合包括情感词集合p，指示性动词集合c，感叹词集合u，程度副词集合a和关联词集合g；建立一个主观特征词表z如下：

z＝{pi,ci,ui,ai,gi,}

得到的主观特征词表后再统计文本中各个特征词出现的次数，得到主观特征集合y如下；

y＝{pi:bi,ci:di,ui:ei,ai:fi,gi:hi,}

其中i＝1,2,...,n；bi,di,ei,fi,hi分别表示特征词语qi,ci,ui,ai,gi出现的次数；

采用文档频率的方法分别计算出p(qi),p(ci),p(ui),p(ai),p(gi),计算如下式：

其中n为文本中所有特征数总和，计算p(qi),p(ci),p(ui),p(ai),p(gi)时把上式分子替换为其他主观特征词语出现的次数；

s404：构造朴素贝叶斯分类器；利用文本向量化后的文本数据集训练所述朴素贝叶斯分类器，得到贝叶斯分类模型；

把文本向量化得到如下式所示：

s405：将说话人讲话内容输入至所述贝叶斯分类模型，得到所述说话人讲话内容中的主观性语句集合。

步骤s104具体为：

s501：根据说话人的情感倾向性，调用合作语料库或者抵抗语料库；

s502：将所述合作语料库或者抵抗语料库中的句子变化成单词组合形式；

s503：去除所述单词组合中的停用词，得到筛选后的单词集合；其中去除的停用词根据中文停用词表获取；

请参考图5，图5是语义相似度计算流程图；

s504：计算筛选后的单词集合中两个抽象知识点的语义距离，如式(5)所示：

s505：从筛选后的单词集合中，选择k1、k2分别作为说话人不同语句的中心词集合，计算k1中的第x个中心词和k2中第y个中心词之间的相似度为sim(x,y)；

s506：取中心词x和中心词y的最大相似度，如式(6)：

式(6)中，x表示k1中中心词的总个数；y表示k2中中心词的总个数；

s507：计算中心词集合k1、k2之间的相似度，如式(7)：

s508：根据中心词集合k1、k2之间的相似度和两个抽象知识点的语义距离，计算得到文本语义相似度，如式(8)所示：

sim(sen1,sen2)＝θ×sim(k1,k2)+(1-θ)×sim(w1,w2)(8)

式(8)中，θ取值范围为[0,1]；sen1和sen2分别为所述合作语料库或者抵抗语料库中对应中心词集合k1、k2和第一抽象知识点、第二抽象知识点的两个语句。

步骤s105具体为：

s601：根据式(8)计算说话人语音文本与语料库中各现象的文本语义相似度，具体如式(9)所示：

sim(text,ci)＝max(sim(text,senj))(9)

s602：当sim(text,ci)超过预设的阈值时，表明说话人语音文本与ci现象类别相似度高，输出该现象类别的具体反映现象。

步骤s602中，所述现象类别的具体反映现象，具体为：

请参见图6，图6是本发明实施例的硬件设备工作示意图，所述硬件设备具体包括：一种基于语音信号处理的说话人心理阻抗现象识别设备401、处理器402及存储设备403。

一种基于语音信号处理的说话人心理阻抗现象识别设备401：所述一种基于语音信号处理的说话人心理阻抗现象识别设备401实现所述一种a方法。

处理器402：所述处理器402加载并执行所述存储设备403中的指令及数据用于实现所述一种基于语音信号处理的说话人心理阻抗现象识别方法。

存储设备403：所述存储设备403存储指令及数据；所述存储设备403用于实现所述一种基于语音信号处理的说话人心理阻抗现象识别方法。

本发明各模块输出结果判定具体如下：

(1)若srj＜m(m>0且极小),表示测得的音子数几乎为零，认为说话人此时的心理阻抗现象为“不反应”；当srj≥m时，定义为有反应,转到其他类进行判断。(2)根据说话人情感倾向性检测模块的流程，同时可以算出对话轮情感倾向值l(k)。

①如果谈话轮情感倾向值l(k)在(0,3.5)的区间范围中，则可以认为说话人对心理咨询有合作的情感倾向性。依照上文的心理阻抗现象的多层分类，合作的情感倾向性下的现象有助益性反应和非阻抗性反应。

②如果谈话轮情感倾向值l(k)在(-3.5,0)的区间范围中，则认为说话人对当前的心理咨询存在抵抗的情感倾向性。依照上文的心理阻抗现象的多层分类，抵抗的情感倾向性下的心理阻抗现象有挑战、不同意、无望、责备、防卫他人、自我防卫、自我议程、跑题、不回答、不合格十种。可以通过确定对话轮情感倾向值l(k)处于“抵抗”区间中的细类区间来判断出说话人存在哪种抵抗的情感倾向性下的心理阻抗现象。

(3)通过情感倾向分析确定了合作/抵抗分类后，具体确定属于哪种现象需要用具体的语义相似度计算来识别：

求得用户文本与具体现象的语义相似度后，可以认为该相似度大于0.5的现象为对应文本的潜在可能现象；若有多个相似度大于0.5的现象存在，则认为相似度最高的现象为对应文本的最可能现象。若用户文本与每个现象之间的相似度都小于0.5，认为用户没有表现出明显的具体反应现象。

本发明考虑到实际中的心理疏导状况及现有相关发明的缺陷，首次提出了一种基于语音信号处理的说话人心理阻抗现象识别方法。先进行语音频率分析，再利用说话人情感倾向性分析进行粗分类，最后进行语义相似度计算输出细类现象，而不是所有因素同时考虑。这样可以提高识别的准确性，从而提高心理疏导效率与成功率；

本发明弥补了目前相关产品方案存在的不足。及时发现说话人的心理阻抗现象有利于更好地做出心理疏导方案的动态调整，从而避免由于未能识别心理阻抗现象而影响心理疏导效果。

本发明实施的有益效果是：结合三个模块将说话人的语音信号和语音内容进行数字化检测识别，提高识别的准确性，同时提高心理疏导效率与成功率。

在实现同样功能的前提下，本发明提到的相关算法均可以用其他算法替代。具体为：

(1)说话人语言频率检测模块”使用到“语言频率”计算方法。其输入为“说话人语音”，输出为“反应”或“不反应”；

(2)“说话人情感倾向性检测模块”使用到的的“情感倾向性”计算方法。其输入为“反应”信号与“说话人语音”，输出为“合作”或“抵抗”；

(3)“语义相似度计算模块”使用到的“语义相似度”计算方法。其输入为“合作”或“抵抗”与“说话人语音”，输出为“心理阻抗现象”。

本发明使用的心理阻抗量表为“当事人阻抗编码”，“情感倾向性”的分类是按照该量表的定义所分的。更换不同的量表、使用量表对应的不同的分类方法也可能实现本发明，故使用其他心理阻抗量表及其对应的情感倾向性分类方法可以成为替代方案。

在不冲突的情况下，本发明中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。