语音识别纠错方法、装置以及存储介质与流程
2021-01-28 17:01:34|306|起点商标网
本公开涉及计算机
技术领域:
,尤其涉及一种语音识别纠错方法、装置以及存储介质。
背景技术:
:在语音自动应答系统中使用语音识别技术,用以将用户输入的语音转换为文本。例如,在电商的售后场景下,在用户拨入进行售后咨询时候,通过语音识别技术,实现自动应答,自动转接特定品类人工电话客服等功能。目前,可以使用语音识别模型对语音进行转换。技术实现要素:发明人发现目前的语音识别方案具有下述问题:模型训练完成之后,识别能力相对固定,出现新的高频热词时,模型的识别准确率低,并且重新训练模型周期长,当需要恢复原有识别模型时则要重新部署上线。有鉴于此,本公开要解决的一个技术问题是提供一种语音识别纠错方法、装置以及存储介质。根据本公开的一个方面,提供一种语音识别纠错方法,包括:基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;对语音信息进行识别,获得语音识别文本;将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。可选地,所述建立热词场景关联关系信息包括:获得与所述热词相对应的第一拼音信息、与所述场景关键词相对应的第二拼音信息;根据所述对应关系确定所述热词与所述场景关键词拼连后的热点拼连语句;基于所述第一拼音信息、所述第二拼音信息以及所述热点拼连语句建立所述热词场景关联关系信息。可选地,所述将所述热词场景关联关系信息与所述语音识别文本进行匹配处理包括:获得与所述语音识别文本相对应的第三拼音信息;将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理。可选地,所述热词场景关联关系信息包括:热词场景无向图;所述建立所述热词场景关联关系信息包括:将所述第一拼音信息和所述第二拼音信息的每个对应于不同字符的拼音作为节点;其中,所述字符包括:汉字或其他符号;根据所述热词和所述场景关键词的字符组成以及所述热点拼连语句的拼连关系,获得所述节点之间的连线;基于所述节点和所述连线生成所述热词场景无向图。可选地,所述将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理包括:获得与所述第三拼音信息相对应的识别文本拼音序列;在所述热词场景无向图中确定与所述热点拼连语句相对应的热点拼连语句路径;将所述识别文本拼音序列中的各个第一拼音顺序地与所述热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定所述语音识别文本中是否有错误信息。可选地,所述识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列;所述进行一一对应匹配处理包括:将所述正向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理;将所述反向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理;如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的第一拼音与所述第二拼音的匹配不成功都对应于所述热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。可选地,所述进行一一对应匹配处理包括:如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的全部第一拼音都与所述第二拼音一一匹配成功,则判断所述第一拼音与所述第二拼音对应的字符是否相同;如果否,则使用所述第二拼音对应的字符替换所述第一拼音对应的字符。可选地,建立热词拼音词典,使用所述热词拼音词典保存的热词场景拼音信息包括:所述热词、场景关键词、所述第一拼音信息和所述第二拼音信息;对每一个热词场景拼音信息建立对应的热词场景无向图。可选地,对所述语音信息进行的语音识别包括:asr识别。根据本发明的另一方面,提供一种语音识别纠错装置,包括:关联信息建立模块,用于基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息;语音文本获得模块,用于对语音信息进行识别,获得语音识别文本;文本匹配处理模块,用于将所述热词场景关联关系信息与所述语音识别文本进行匹配处理;匹配结果处理模块,用于基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。根据本发明的又一方面,提供一种语音识别纠错装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。本公开的语音识别纠错方法、装置以及存储介质,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理;能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型,可通过动态调整配置实现动态热词的修改,能够提高识别准确率,提高用户的使用感受度。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本公开的语音识别纠错方法的一个实施例的流程示意图;图2为根据本公开的语音识别纠错方法的一个实施例中的生成热词场景无向图的流程示意图;图3为生成的热词场景无向图的示意示意图;图4为根据本公开的语音识别纠错方法的一个实施例中的进行双向匹配处理的流程示意图;图5为基于热词场景无向图进行的双向匹配处理的流程示意图;图6为根据本公开的语音识别纠错装置的一个实施例的模块示意图;图7为根据本公开的语音识别纠错装置的一个实施例中的关联信息建立模块的模块示意图;图8为根据本公开的语音识别纠错装置的一个实施例中的文本匹配处理模块的模块示意图;图9为根据本公开的语音识别纠错装置的另一个实施例的模块示意图。具体实施方式下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。下文中的“第一”、“第二”等仅用于描述上相区别,并没有其他特殊的含义。语音模型训练在训练初期,使用通用语音语料训练,所以识别结果相对固定。但是,在特定商品促销期间,特定商品词会在短时间内会频繁出现,识别错误率也会提高。例如,“小米8”在大促期间,成为高频热词,由于模型的相对固定,导致热词被大量错误识别。新的商品不断涌现,模型对于新的热销商品名称识别率很低。例如“全面屏”,“柔性屏”等最新的技术产品词,热度高且更新频率快,但是,模型识别准确率和召回率很低。此时,模型的识别需要针对性的调整,此时无法动态调整,只有重新训练模型。重新训练模型需要大量的标注语料,周期长,而促销周期短,促销热词会频繁变化,重新训练模型不容易实现。促销周期过后,这些具有偏向性的识别,需要调整并恢复原有识别模型,而恢复模型,需要重新部署上线。例如,“小米8”促销期间,用户咨询的接近或类似“小米8”的音频特征90%以上都应该识别为“小米8”,但是由于模型相对固定,无法动态调整;而新的“小米note”促销期间,热词又发生变更,此时识别应该偏向“小米note”而不是“小米8”。图1为根据本公开的语音识别纠错方法的一个实施例的流程示意图,如图1所示:步骤101,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息。热词即热门词汇,当一个词汇的词频数达到一定阈值后即称之为热词,例如商品名称、新闻热点等。场景关键词为各个场景中的关键词,场景可以为售后、咨询等场景,关键词可以为没有货、没有上市等。热词场景关联关系信息为反映热词与场景关键词之间的关联关系的信息,可以为文本,也可以为图、树等数据结构形式。热词、场景关键词以及热词与场景关键词之间的对应关系可以动态配置,热词场景关联关系信息可以动态生成,建立热词场景关联关系信息可以有多种方式。步骤102,对语音信息进行识别,获得语音识别文本。可以采用多种技术对语音信息进行识别。例如,对语音信息进行的语音识别包括asr识别等。asr(automaticspeechrecognition)自动语音识别技术,是为了在自动语音交互中,将用户音频识别为文字的技术。自动语音识别的流程为:语音采集,语音特征标注,训练基于深度学习的算法(rnn、cnn)训练模型,部署模型并通过模型实时识别,将语音转为文字。步骤103,将热词场景关联关系信息与语音识别文本进行匹配处理。例如,热词场景关联关系信息为图数据结构,图中的节点可以为热词、场景关键词等,可以将语音识别文本与图进行匹配处理,匹配处理可以使用现有的多种方法,获得匹配结果。步骤104,基于匹配结果确定语音识别文本中是否有错误信息,如果有,则基于热词场景关联关系信息获得与错误信息相对应的替换信息,用以对错误信息进行替换处理。在一个实施例中,可以建立热词拼音词典,使用热词拼音词典保存的热词场景拼音信息包括:热词、场景关键词、热词的拼音信息、场景关键词信息的拼音信息。场景关键词信息的拼音信息也可以不保存,在使用时实时获得。例如,热词场景拼音信息如下表1所示,热词场景拼音信息可以配置,热词场景拼音信息可以动态修改或删除。热词拼音热词场景关键词xiaomiba小米8没到,送货,到哪了aifengchaiphonex没到,送货,到哪了表1-热词拼音词典保存的热词场景拼音信息表获得与热词相对应的第一拼音信息、与场景关键词相对应的第二拼音信息。根据对应关系确定热词与场景关键词拼连后的热点拼连语句。例如,热词为“华为手机”,对应的场景关键词为“收货”,则热点拼连语句为“华为手机收货”。基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景关联关系信息,热词场景关联关系信息可以为热词场景无向图等。例如,获得与热词“小米8”相对应的第一拼音信息、与场景关键词“没到,送货,到哪了”相对应的第二拼音信息。根据对应关系确定热词与场景关键词拼连后的热点拼连语句:“小米8没到”、“小米8送货”、“小米8到哪了”。基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景无向图等。图2为根据本公开的语音识别纠错方法的一个实施例中的生成热词场景无向图的流程示意图,如图2所示:步骤201,将第一拼音信息和第二拼音信息的每个对应于不同字符的拼音作为节点。字符包括:汉字或其他符号,其他符号包括日文、德文等字符,或者希腊文、罗马数字等。步骤202,根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线。步骤203,基于节点和连线生成热词场景无向图。边没有方向的图称为无向图,对热词拼音词典保存的每一个热词场景拼音信息都建立对应的热词场景无向图。例如,如图3所示,在已配置的热词拼音词典中,利用热词的拼音和场景关键词的拼音进行组合,将热词和场景关键词中不同的单个字符的拼音作为节点,将热词的拼音和场景关键词的拼音拼接的拼音短句(热点拼连语句的拼音),按正向顺序构建热词场景无向图。热词拼音词典中的每一行都会新建热词场景无向图并存储在内存中,构建热词场景无向图可以使用现有的多种方法。例如,热词对应的第一拼音信息为“xiaomiba”,该热词对应的场景关键词有“没到”(meidao)、“到没”(daomei)、“送货”(songhuo)、“到哪了”(daonale),“没了”(meile),“没货”(meihuo),“没送”(meisong),“送没”(songmei)等。不同的单个字符的拼音作为节点,根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线,基于节点和连线生成所图3所示的热词场景无向图。在一个实施例中,获得与语音识别文本相对应的第三拼音信息,将热词场景关联关系信息与第三拼音信息进行匹配处理,获得与第三拼音信息相对应的识别文本拼音序列。在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径,可以采用现有的多种搜索算法,在在热词场景无向图中确定热点拼连语句路径。将识别文本拼音序列中的各个第一拼音顺序地与热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定语音识别文本中是否有错误信息。图4为根据本公开的语音识别纠错方法的一个实施例中的进行双向匹配处理的流程示意图,如图4所示:步骤401,获得与语音识别文本相对应的第三拼音信息。步骤402,获得与第三拼音信息相对应的识别文本拼音序列,识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列。步骤403,在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径。步骤404,将正向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理。步骤405,将反向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理。步骤406,如果正向识别文本拼音序列和反向识别文本拼音序列中的第一拼音与第二拼音的匹配不成功都对应于热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。如果正向识别文本拼音序列和反向识别文本拼音序列中的全部第一拼音都与第二拼音一一匹配成功,则判断第一拼音与第二拼音对应的字符是否相同,如果否,则使用第二拼音对应的字符替换第一拼音对应的字符。例如,使用文字转拼音库,获得与语音识别文本相对应的第三拼音信息。语音识别文本“笑眯吧没到”转为第三拼音“xiaomibameidao”,语音识别文本“小米博到哪了”转为第三拼音“xiaomibodaonale”。上述的两个语音识别文本存在两种错误情况,一种时识别到同音字,一种是部分音频识别错误。获得与第三拼音信息相对应的识别文本拼音序列,可以将识别文本拼音序列按照双向匹配算法依次遍历所有的热词场景无向图,可以采用现有的多种搜索算法进行遍历。通过纠错和反复匹配的方式,将完全匹配的结果返回,并将匹配到的拼音序列对应的文字替换为热词场景无向图中的文字序列。如图5所示,获得与第三拼音信息“xiaomibameidao”相对应的正向识别文本拼音序列{xiao,mi,ba,mei,dao}和反向识别文本拼音序列{dao,mei,ba,mi,xiao}。在热词场景无向图中确定与全部热点拼连语句相对应的热点拼连语句路径,热点拼连语句包括“小米8没到”。采用双向匹配,同时从正向识别文本拼音序列{xiao,mi,ba,mei,dao}的开头拼音“xiao”开始在图中对全部热点拼连语句路径进行一一对应正向匹配,从反向识别文本拼音序列{dao,mei,ba,mi,xiao}的开头拼音“dao”开始在图中对全部热点拼连语句路径进行一一对应反向匹配。正向匹配和反向匹配都匹配到图中的热点拼连语句“小米8没到”,返回匹配结果。由于语音识别文本“笑眯吧没到”的三个字符“笑眯吧”与“小米8没到”中的“小米8”不相同,则使用“小米8”替换“笑眯吧”,将语音识别文本替换为无向图匹配到图中的热点拼连语句“小米8没到”。获得与第三拼音信息“xiaomibodaonale”相对应的正向识别文本拼音序列{xiao,mi,bo,dao,na,le}和反向识别文本拼音序列{le,na,dao,bo,mi,xiao}。在热词场景无向图中确定与全部热点拼连语句相对应的热点拼连语句路径,热点拼连语句包括“小米8到哪了”。采用双向匹配,分别从正向识别文本拼音序列{xiao,mi,bo,dao,na,le}的开头拼音“xiao”开始在图中对全部热点拼连语句路径进行一一对应正向匹配,从反向识别文本拼音序列{le,na,dao,bo,mi,xiao}的开头拼音“le”开始在图中对全部热点拼连语句路径进行一一对应反向匹配。正向匹配在匹配了xiao-mi-bo后结束,反向匹配在匹配了le-na-dao-bo后结束,此时正、反向匹配不正确的节点都是“ba”对应的节点,将“bo”替换为与此节点对应的拼音“ba”并重新匹配。如果正向匹配和反向匹配都匹配到图中的热点拼连语句“小米8到哪了”,则将语音识别文本替换为无向图匹配到图中的热点拼连语句“小米8到哪了”。基于热词拼音词典构建的无向图,可以使用了双向匹配算法进行匹配,如果能完全匹配到或纠错后能完全匹配,就替换原文字为匹配结果映射的文字,否则不替换。正、反向匹配在同一个节点处不正确并结束,可直接将匹配不正确的拼音与此节点对应的拼音进行替换。只有一个纠错层级,例如,“bo”被替换后正、反向匹配仍出现不匹配,则结束对此热点拼连语句的匹配。在一个实施例中,如图6所示,本公开提供一种语音识别纠错装置60,包括:关联信息建立模块61、语音文本获得模块62、文本匹配处理模块63和匹配结果处理模块64。关联信息建立模块61基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息。关联信息建立模块61可以建立热词拼音词典,使用热词拼音词典保存的热词场景拼音信息包括:热词、场景关键词、第一拼音信息和第二拼音信息等。语音文本获得模块62对语音信息进行识别,获得语音识别文本。文本匹配处理模块63将热词场景关联关系信息与语音识别文本进行匹配处理。匹配结果处理模块64基于匹配结果确定语音识别文本中是否有错误信息,如果有,则匹配结果处理模块64基于热词场景关联关系信息获得与错误信息相对应的替换信息,用以对错误信息进行替换处理。在一个实施例中,如图7所示,关联信息建立模块61包括:拼音获得单元611、拼接确定单元612和关联生成单元613。拼音获得单元611获得与热词相对应的第一拼音信息、与场景关键词相对应的第二拼音信息。拼接确定单元612根据对应关系确定热词与场景关键词拼连后的热点拼连语句。关联生成单元613基于第一拼音信息、第二拼音信息以及热点拼连语句建立热词场景关联关系信息。文本匹配处理模块63获得与语音识别文本相对应的第三拼音信息,将热词场景关联关系信息与第三拼音信息进行匹配处理。热词场景关联关系信息包括:热词场景无向图。关联生成单613将第一拼音信息和第二拼音信息的每个对应于不同字符的拼音作为节点,字符包括:汉字或其他符号等。关联生成单613根据热词和场景关键词的字符组成以及热点拼连语句的拼连关系,获得节点之间的连线。关联生成单613基于节点和连线生成热词场景无向图。关联生成单元613对每一个热词场景拼音信息建立对应的热词场景无向图。在一个实施例中,如图8所示,文本匹配处理模块63包括:拼音序列获得单元631、匹配路径确定单元632和拼音匹配单元633。拼音序列获得单元631获得与第三拼音信息相对应的识别文本拼音序列。匹配路径确定单元632在热词场景无向图中确定与热点拼连语句相对应的热点拼连语句路径。拼音匹配单元633将识别文本拼音序列中的各个第一拼音顺序地与热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定语音识别文本中是否有错误信息。识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列。拼音匹配单元633将正向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理。拼音匹配单元633将反向识别文本拼音序列中的各个第一拼音分别顺序地与语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理,如果正向识别文本拼音序列和反向识别文本拼音序列中的第一拼音与第二拼音的匹配不成功都对应于热点拼连语句路径中的同一节点,则匹配结果处理模块64获得此节点对应的字符替换此第一拼音所对应的字符。如果正向识别文本拼音序列和反向识别文本拼音序列中的全部第一拼音都与第二拼音一一匹配成功,则匹配结果处理模块64判断第一拼音与第二拼音对应的字符是否相同,如果否,则匹配结果处理模块64使用第二拼音对应的字符替换第一拼音对应的字符。图9为根据本公开的语音识别纠错系统的另一个实施例的模块示意图。如图9所示,该装置可包括存储器91、处理器92、通信接口93以及总线94。存储器91用于存储指令,处理器92耦合到存储器91,处理器92被配置为基于存储器91存储的指令执行实现上述的语音识别纠错方法。存储器91可以为高速ram存储器、非易失性存储器(non-volatilememory)等,存储器91也可以是存储器阵列。存储器91还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器92可以为中央处理器cpu,或专用集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本公开的语音识别纠错方法的一个或多个集成电路。根据本公开的再一方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上的方法。上述实施例中的语音识别纠错方法、装置以及存储介质,基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为热词场景无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理;能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型;针对热词的变化,可通过动态调整配置实现动态热词的修改;对于同音错字和单个错音错字等错误,采用无向图和双向匹配的算法,能够提高识别准确率和算法的效率、性能,可以提高用户的使用感受度。可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。当前第1页1 2 3 
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除
相关标签: 语音识别技术
热门咨询
tips