一种语音识别方法以及装置与流程

2021-01-28 15:01:02|

369|

起点商标网

本发明涉及语音识别
技术领域：
：，尤其涉及一种语音识别方法以及装置。
背景技术：
：：在语音识别系统中，语言模型会因训练语料不足而导致语音识别系统所识别得到的结果的准确度下降。技术实现要素：本发明实施例提供了一种语音识别方法以及装置，具有利用与讲述内容相关联的影像信息提高语音识别系统的识别准确率的效果。本发明一方面提供一种语音识别方法，所述方法包括：根据影像信息，识别得到用于表征所述影像信息的信息数据；判断讲述者的讲述内容与所述影像信息是否相关联；若判定讲述者的讲述内容与所述影像信息相关联，则使语音识别系统在语音识别所述讲述内容时输出所述信息数据。在一可实施方式中，所述信息数据为文字信息；所述根据影像信息，识别得到用于表征所述影像信息的信息数据，包括：对所述影像信息中的文字进行文字识别，得到对应于所述文字的文字信息；或，对所述影像信息中的物体进行物体识别，得到对应于所述物体的文字信息；或，对所述影像信息中的内容进行情景识别，得到对应于所述情景的文字信息。在一可实施方式中，在识别得到用于表征所述影像信息的信息数据的过程中，所述方法还包括：判断所述影像信息中是否包含特定识别区域；若判定所述影像信息中包含特定识别区域，则对所述特定识别区域内的影像信息进行识别。若判定所述影像信息中未包含特定识别区域，则整个影像信息进行识别。在一可实施方式中，所述特定识别区域包括所述影像信息中下述至少之一：光标所对应的内容区域、光标所框选的框选区域、根据光标位置所设定的区域范围、所述讲述者目光焦点区域或者语音描述的焦点区域。在一可实施方式中，在所述对影像信息中的内容进行情景识别，得到对应于所述文字的文字信息之后，所述方法还包括：根据所述讲述内容与所述影像信息，从所述影像信息中提取第一关键词信息；或者，通过所述语音识别系统对所述讲述内容进行语音预识别，得到若干备用识别结果；根据所述影像信息与所述若干备用识别结果，从所述影像信息中提取第二关键词信息；若所提取到的第二关键词信息未与所述若干备用识别结果中的至少一个相匹配，则降低所述语音识别系统中针对所述若干备用识别结果的置信度，并重复上述步骤，直至所述第二关键词信息与所述若干备用识别结果中的至少一个相匹配；在所述文字信息的基础上增加所提取的第一关键词信息或者第二关键词信息。在一可实施方式中，所述判断讲述者的讲述内容与所述影像信息是否相关联，包括下述至少之一：若所述影像信息的识别时间点和所述讲述内容的讲述时间点位于设定时间间隔内；识别得到的至少部分信息数据与所述至少部分讲述内容的语义和/或语音相似度超过设定阈值；所述影像信息的识别地点和所述讲述内容的讲述地点位于设定区域范围内；则判定所述讲述内容与影像信息相关联。在一可实施方式中，所述语音识别系统包括语言模型；所述使语音识别系统在语音识别所述讲述内容时输出所述信息数据，包括：对所识别得到的信息数据进行实体识别，得到对应的命名实体；根据所得到的命名实体，提高所述语言模型中对应于所述命名实体的概率值。在一可实施方式中，所述使语音识别系统在语音识别所述讲述内容时输出所述信息数据，包括：获取经所述语音识别系统对于所述讲述内容的识别结果；对所识别得到的信息数据进行实体识别，得到对应的命名实体；根据所述命名实体和识别结果，更新所述识别结果。在一可实施方式中，所述根据所述命名实体和识别结果，更新所述识别结果，包括：对所述识别结果进行分词处理，得到分词结果；若所述分词结果中存在与所述命名实体文字不同但音素相同的分词，则将所述命名实体对应替换所述识别结果中的所述分词。本发明实施例另一方面提供一种语音识别装置，所述装置包括：信息数据获取模块，用于根据影像信息，识别得到用于表征所述影像信息的信息数据；关联判断模块，用于判断讲述者的讲述内容与所述影像信息是否相关联；信息数据输出模块，用于若判定讲述者的讲述内容与所述影像信息相关联，则使语音识别系统在语音识别所述讲述内容时输出所述信息数据。在本发明实施例中，在语音识别讲述者的讲述内容时，通过利用与讲述内容相关联的影像信息，使得语音识别系统输出对应于影像信息的信息数据，进而提高了语音识别准确率。附图说明通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：在附图中，相同或对应的标号表示相同或对应的部分。图1为本发明实施例一种语音识别方法的实现流程示意图；图2为本发明实施例一种语音识别方法中包含图文信息的影像信息示意图；图3为本发明实施例一种语音识别方法中包含情景信息的影像信息示意图；图4为本发明实施例一种语音识别方法中输出文字结合图像信息的示意图；图5为本发明实施例一种语音识别方法中对影像信息框选后的特定识别区域示意图；图6为本发明实施例一种语音识别方法中以光标为中心时的特定识别区域示意图；图7为本发明实施例一种语音识别方法中应用于文本框时的特定识别区域示意图；图8为本发明实施例一种语音识别装置的结构组成示意图。具体实施方式为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。图1为本发明实施例一种语音识别方法的实现流程示意图；图2为本发明实施例一种语音识别方法中包含图文信息的影像信息示意图；图3为本发明实施例一种语音识别方法中包含情景信息的影像信息示意图。如图1所示，本发明一方面提供一种语音识别方法，方法包括：步骤101，根据影像信息，识别得到用于表征影像信息的信息数据；步骤102，判断讲述者的讲述内容与影像信息是否相关联；步骤103，若判定讲述者的讲述内容与影像信息相关联，则使语音识别系统在语音识别讲述内容时输出信息数据。本实施例中，首先根据影像信息，识别得到用于表征影像信息的信息数据，其中影像信息包括但不限于视频格式信息、图像格式信息以及动图格式的信息，可以是文件，比如一张照片，也可以是数据流信息，比如拍照的预览画面，也可以是ar、vr或mr图像中虚拟的或者现实的影像部分。如图2和图3所示，影像信息中可以但不限于包含文字信息、物品信息(图2中圆桌的图案和“圆桌”文字)和情景信息(图3中表示为幽静的林荫小道)，以及包括文字信息、物品信息和情景信息中的任意一种或多种所组合的影像信息。判断讲述者的讲述内容与影像信息是否相关联，其中讲述者包括但不限于人、动物和具有发声功能的机器设备；相关联表示讲述内容与影像信息之间存在一定联系，该联系可以但不限于是时间维度上的联系，空间位置维度上的联系以及内容相似度上的联系。若判定讲述者的讲述内容与影像信息相关联，则使语音识别系统在语音识别讲述内容时输出信息数据，其中输出包括全部或者部分内容的输出，以图2为例，输出的信息数据可以是“圆桌”，以图3为例，输出的信息数据可以是“幽静的林荫小道”中的“林荫小道”。该方法可以应用于课件演讲场景中，语音识别系统借助课件(如幻灯片)将讲述者的讲述内容进行语音识别。该方法还可以应用于聊天或者会议场景中，语音识别系统借助讲述者近些天内或者当前所获取到的相关影像信息对讲述者的讲述内容进行语音识别。该方法还可以应用于教学场景中，例如教师在文本框中输入文字信息或者在画图设备上作画，利用设备自带的截图或者图像捕捉的方式获取到图像信息，语音识别系统借助所获取到的图像信息对教师的讲述内容进行语音识别。由此，在语音识别讲述者的讲述内容时，通过利用与讲述内容相关联的影像信息，使得语音识别系统输出对应于影像信息的信息数据，进而提高了语音识别准确率。在一可实施方式中，信息数据为文字信息；根据影像信息，识别得到用于表征影像信息的信息数据，包括：对影像信息中的文字进行文字识别，得到对应于文字的文字信息；或，对影像信息中的物体进行物体识别，得到对应于物体的文字信息；或，对影像信息中的内容进行情景识别，得到对应于情景的文字信息。本实施例中，步骤101的具体过程为：若影像信息中包含文字信息，则利用现有的文字识别技术(例如ocr，opticalcharacterrecognition，光学字符识别)对影像信息上的文字信息进行识别，从而得到对应的文字信息；以图2为例，利用文字识别技术对图2中的文字进行识别后所得到的文字信息为“圆桌”。其中文字信息还可以是图像文字的近义词、同义词，以图2为例，对图2中的文字进行识别后所得到的文字信息可以为“桌子”；文字信息还可以以不同语言种类进行展现，以图2为例，识别得到的文字信息可以为“圆桌roundtable”。若影像信息中包含物体信息，则利用现有的图像识别技术来对物体进行物体识别，得到对应于物体的文字信息，以图2和图3为例，利用图像识别技术对图2中圆桌图案进行识别后所得到的文字信息为“圆桌”；对图3中的小树图案进行识别后所得到的文字信息为“小树”或者“树”。其中文字信息还可以物体信息的专业名称、别名，以图2为例，识别得到的文字信息可以是“树”或者“案几”。也可以对影像信息进行情景识别，比如根据风景图案识别得到一段描述该风景的话语或者影像所处场景的描述，以图2为例，利用神经网络模型对图3中的情景进行识别后所得到的文字信息为“幽静的林荫小道”。此技术可以通过基于深度学习的神经网络模型得到，其中神经网络模型需事先以大量影像信息和对应的语句作为训练语料进行训练得到。实现此技术还可以通过在数据库中存储大量的影像信息和对应的文字信息，识别时，将待识别影像信息与数据库中的影像信息逐一进行相似度比较，从数据库中获取相似值最高的或者相似值高于预设值的影像信息，接着对应获取该影像信息的文字信息。图4为本发明实施例一种语音识别方法中输出文字结合图像信息的示意图。进一步地，信息数据还可以为图像信息；根据影像信息，识别得到用于表征影像信息的信息数据，包括：利用现有的图像识别技术对影像信息进行图像识别或者对影像信息进行部分截取，获取图像信息；相应的，在语音识别系统在语音识别讲述内容时输出所获取的图像信息，以图3为例，假设当前讲述内容为“这是一棵树”并且该讲述内容与图3相关联，则其中一种输出结果见图4所示。在一可实施方式中，在对影像信息中的内容进行情景识别，得到对应于文字的文字信息之后，方法还包括：根据讲述内容与影像信息，从影像信息中提取第一关键词信息；或者，通过语音识别系统对讲述内容进行语音预识别，得到若干备用识别结果；根据影像信息与若干备用识别结果，从影像信息中提取第二关键词信息；若所提取到的第二关键词信息未与若干备用识别结果中的至少一个相匹配，则降低语音识别系统中针对若干备用识别结果的置信度，并重复上述步骤，直至第二关键词信息与若干备用识别结果中的至少一个相匹配；在文字信息的基础上增加所提取的第一关键词信息或者第二关键词信息。本实施例中，根据讲述内容与影像信息，从影像信息中提取第一关键词信息，具体为将讲述内容与影像信息共同作为特定神经网络模型的输入，输出影像信息中的第一关键词信息，该特定神经网络模型需事先进行语料训练，训练时，模型输入语料为影像信息和语音信息，输出为影像信息中的关键词信息。在原有文字信息的基础上增加所提取的第一关键词信息。该方法有利于进一步提高后续语音识别的准确度，例如：以图3为例，假设通过对图3进行情景识别所得到的文字信息为“幽静的林荫小道”，并且讲述内容中包含类似“shu”的读音，则将该讲述内容与文字信息进行模型关键词识别，从影像信息中再次获取文字信息“树”，如此一来，在后续进行语音识别时，会将讲述内容中的读音“shu”识别为“树”，而不会是其他的“书”之类的。或者，还可以通过语音识别系统对讲述内容进行语音预识别，得到若干备用识别结果，假设语音识别系统对于讲述内容中的“shu“读音所识别得到的备用识别结果为“熟”、“属”、“输”。根据影像信息与若干备用识别结果，从影像信息中提取第二关键词信息，具体为将所得到的备用识别结果与影像信息作为特定神经网络模型的输入，输出影像信息中的第二关键词信息，该特定神经网络模型需事先进行语料训练，训练时，模型输入语料为影像信息和文字信息，输出为影像信息中的关键词信息。假设所提取的第二关键词信息为“树”，未与备用识别结果的任何一个相匹配，则降低语音识别系统中针对“熟”、“属”、“输”的置信度，以至在后续的再次对讲述内容进行语音预识别时不会优先输出“熟”、“属”、“输”，在第二次的语音预识别可能输出“树”、“叔”、“鼠”的备用识别结果，再重复上述步骤，若此时所提取的第二关键词仍为“树”，则说明第二关键词“树”以匹配。进一步地，上述所提到的匹配方式是根据文字是否相同进行匹配，也可以是相互关联的两个文字进行匹配，包括上下位关系如“长颈鹿”对应“素食动物”、形状类似关系如“椭圆”对应“圆”。在文字信息的基础上增加所提取的第二关键词信息。在一可实施方式中，在识别得到用于表征影像信息的信息数据的过程中，方法还包括：判断影像信息中是否包含特定识别区域；若判定影像信息中包含特定识别区域，则对特定识别区域内的影像信息进行识别。若判定影像信息中未包含特定识别区域，则整个影像信息进行识别。本实施例中，讲述者可以在影像信息中设置特定识别区域，其中特定识别区域具体可以是显示在影像信息中的闭环线条所包围的区域。在后续识别过程中，首先判断影像信息中是否包含特定识别区域，其判断方法可以是在讲述者框定特定识别区域之后，系统记录特定识别区域的起点坐标、路径、终点坐标等位置信息。在判断过程中，查找是否存在记录信息，若存在记录信息，则表示影像信息中包含特定识别区域，接着根据记录信息中的位置信息对特定识别区域进行识别；也可以通过图像识别技术对特定识别区域进行识别，以判定影像信息中是否存在特定识别区域。若判定影像信息中未包含特定识别区域，默认将整个影像信息进行识别。由此，若影像信息中包含多种信息，讲述者可以从影像信息中自定义设定所需识别的特定识别区域，以在识别时只对特定识别区域进行识别，可以减少后台的数据运算量，加快语音识别效率，同时也提高后续语音识别时的准确率。图5为本发明实施例一种语音识别方法中对影像信息框选后的效果示意图；图6为本发明实施例一种语音识别方法中以光标为中心时的特定识别区域示意图；图7为本发明实施例一种语音识别方法中应用于文本框时的特定识别区域示意图。在一可实施方式中，特定识别区域包括在影像信息中下述至少之一：光标所对应的内容区域、光标所框选的框选区域和、根据光标位置所设定的区域范围、讲述者目光焦点区域或者语音描述的焦点区域。本实施例中，讲述者可以利用光标在影像信息中进行移动，将光标所指向的文字、物体或影像情景设为特定识别区域；也可以利用光标在影像信息上进行区域框选，将框选部分设为特定识别区域，可参考图5，其中框选大小以及形状不限定；也可以是根据光标位置所对应的区域范围作为特定识别区域，具体可以是以光标当前位置为中心，将光标附近的区域范围设为特定识别区域，可参考图6该方式可以应用在文本框中输入文字时的场景，可参考图7，一般在文本框中输入文字时，文字会出现在光标附近，因此此方法可对所输入的所有文字进行识别。还可以通过讲述者的目标焦点区域设为特定识别区域，其中目标焦点区域的获取方式具体为：若讲述者为人或者动物，则可以通过实时监测人或者而动物眼球的瞳孔位置，以确定讲述者的视线方向，并结合眼球与影像之间的距离确定目标焦点区域；若讲述者为机器人时，可以将机器人中拍摄设备(如摄像机、相机)在影像信息中所拍摄到的区域作为目标焦点区域。还可以通过讲述者的语音描述焦点区域设为特定识别区域，其中语音描述焦点区域的其中一种获取方式为：利用语音识别技术ocr从语音描述转换为对应的文字信息，再将文字信息以及影像信息作为特定神经网络模型的输入进行训练，得到语音描述焦点区域。其中，该特定神经网络模型需要事先进行语料训练，训练时的模型输入为文字信息和影像信息，输出为语音描述焦点区域。在一可实施方式中，判断讲述者的讲述内容与影像信息是否相关联，包括下述至少之一：若影像信息的识别时间点和讲述内容的讲述时间点位于设定时间间隔内；识别得到的至少部分信息数据与至少部分讲述内容的语义和/或语音相似度超过设定阈值；影像信息的识别地点和讲述内容的讲述地点位于设定区域范围内；则判定讲述内容与影像信息相关联。本实施例中，步骤102的具体过程为：在对影像信息进行识别之后，记录对应该影像信息的识别时间点，记录讲述者在讲述时的讲述时间点，判断讲述内容的讲述时间点与该影像信息的识别时间点是否在同一个设定时间间隔内，具体为识别时间点和讲述时间点的时间差是否在设定时间范围内。若影像信息的识别时间点和讲述内容的讲述时间点位于同一个设定时间间隔内，则判定讲述者的讲述内容与影像信息在时间维度上相关联，其中时间间隔的设定可以根据实际需求任意调整。例如：讲述者在第一天看到一张海报，在第二天参加了一场讨论会，假定设定时间间隔为2天，则讨论内容与海报在时间维度上相关联。或者，判断所识别得到的至少部分信息数据与至少部分讲述内容是否语义和/或语音相似，语义相似的判定方法可以是将至少部分信息数据和至少部分讲述内容以文本的形式作为用于语义相似度判断的神经网络模型的输入，输出得到语义相似度。语音相似的判定方法可以是利用现有的文本转音素技术或者语音转音素技术将至少部分信息数据和至少部分讲述内容均转换至音素形式，将音素形式的信息数据和讲述内容作为用于语音相似度判定的神经网络模型的输入，输出得到语音相似度值。其中，上述神经网络模型可以是基于dssm、cnn-dssm、lstm-dssm的神经网络模型，事先均需要经过语料训练，训练时，输入语料为信息数据和讲述内容，输出为两者的相似度。若识别得到的语义相似度超过设定阈值，表明两者的语义相似度较高，判定讲述内容与影像信息在语义相似度上相关联。或，在对影像信息进行识别之后，利用全球定位系统记录影像信息的识别地点和讲述时的讲述地点，判断影像信息的识别地点和讲述内容的讲述地点是否位于设定区域范围内，若判定影像信息的识别地点和讲述内容的讲述地点位于设定区域范围内，则判定讲述者的讲述内容与影像信息在空间维度上相关联，其中区域范围可以根据实际需求任意改变。例如：讲述者在一间房屋内的客厅看到一张海报，之后在该房屋内的会议室参加了一场讨论会，假定设定区域范围为该房屋所占的地理区域，则讨论内容与海报在空间维度上相关联。在一可实施方式中，语音识别系统包括语言模型；使语音识别系统在语音识别讲述内容时输出信息数据，包括：对所识别得到的信息数据进行实体识别，得到对应的命名实体；根据所得到的命名实体，提高语言模型中对应于命名实体的概率值。本实施例中，语音识别系统包括语言模型，语言模型中存有大量的命名实体和对应的概率值，步骤103的具体过程为：利用现有的命名实体识别(ner，namedentityrecognition)技术以及语义分析技术，对信息数据中的人名、地名、组织机构名、专有名词等进行识别，得到对应的命名实体。接着具体判断语言模型中是否事先存在所得到的命名实体和对应的概率值，若语言模型中存在所得到的命名实体和对应的概率值，则提高该命名实体所对应的概率值，提高方式可以在原基础上增加一定量的概率值，或者将该命名实体的概率值相比较于其他同音素的词调至最大，以使语言模型输出所识别得到的命名实体。若语言模型中不存在所得到的命名实体和对应的概率值，则在语言模型中增加该命名实体并指定概率值，该指定的概率值相比较于其他同因素为最大概率值，同样以使语言模型输出所识别得到的命名实体。由此，通过新增或者提高语言模型中针对所识别命名实体的概率值，便可使语音识别系统在识别讲述内容时输出所识别得到的信息数据，进而提高语音识别的准确率。在一可实施方式中，在得到对应的命名实体之后，方法还包括：根据所得到的命名实体，得到对应的音素；将命名实体和音素加入到语音识别系统中的词典内。本实施例中，语音识别系统内还包括词典，其目的是根据声学模型识别出来的音素，来找到对应的汉字(词)或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来。方法还包括：根据所得到的命名实体，得到对应的音素；具体为将所得到的命名实体通过单词到音素(g2p，graphemetophoneme)技术生成这些词对应的音素。接着将命名实体和对应的音素加入到语音识别系统中的词典内，使在语音识别过程中词典与语言模型配合，以进一步提升语音识别的准确度。在一可实施方式中，使语音识别系统在语音识别讲述内容时输出信息数据，包括：获取经语音识别系统对于讲述内容的识别结果；对所识别得到的信息数据进行实体识别，得到对应的命名实体；根据命名实体和识别结果，更新识别结果。本实施例中，此方法可以用在屏幕上输出识别结果之前，对识别结果进行进一步校正，因此步骤103具体包括：获取经语音识别系统对于讲述内容的识别结果；利用现有的命名实体识别(ner，namedentityrecognition)技术以及语义分析技术，对信息数据中的人名、地名、组织机构名、专有名词等进行识别，得到对应的命名实体；然后根据命名实体和识别结果，更新识别结果；最后输出更新后的识别结果，输出方式可以是将识别结果以文本形式、图像形式或者两者结合的形式在文本编辑区或者超文本编辑区内进行显示输出，还可以是将其转换为对应的语音信息并借助语音助手进行播报输出。由此，通过将命名实体和识别结果进行校正的这一步骤，能进一步提高语音识别系统的识别准确率。在一可实施方式中，根据命名实体和识别结果，更新识别结果，包括：对识别结果进行分词处理，得到分词结果；若分词结果中存在与命名实体文字不同但音素相同的分词，则将命名实体对应替换识别结果中的分词。本实施例中，步骤“根据命名实体和识别结果，更新识别结果”的具体过程为：借用现有的分词词典或者基于统计的机器学习算法，对识别结果进行分词处理，得到分词结果，分词结果中可能包含多个分词，例如“北京是中国的首都”所得到分词结果可能为“北京”、“是”、“中国”、“的”、“首都”。接着利用单词到音素(g2p，graphemetophoneme)技术将命名实体和分词结果生成对应的音素信息；将分词结果、分词音素信息与命名实体、实体音素信息进行两两比较，在两两比较过程中判断对应两者间中是否存在文字不同但音素相同的词，若判定对应两者间中存在文字不同但音素相同的词，说明语音识别系统所识别的结果有误，则将对应比较的命名实体替换识别结果中的分词。图8为本发明实施例一种语音识别装置的结构组成示意图。如图8所示，基于上文提供的一种语音识别方法，本发明另一方面提供一种语音识别装置，装置包括：信息数据获取模块201，用于根据影像信息，识别得到用于表征影像信息的信息数据；关联判断模块202，用于判断讲述者的讲述内容与影像信息是否相关联；信息数据输出模块203，用于若判定讲述者的讲述内容与影像信息相关联，则使语音识别系统在语音识别讲述内容时输出信息数据。本实施例中，首先通过信息数据获取模块201根据影像信息，识别得到用于表征影像信息的信息数据，其中影像信息包括但不限于视频格式信息、图像格式信息以及动图格式的信息，可以是文件，比如一张照片，也可以是数据流信息，比如拍照的预览画面，也可以是ar、vr或mr图像中虚拟的或者现实的影像部分。如图2和图3所示，影像信息中可以但不限于包含文字信息、物品信息(图2中圆桌的图案和“圆桌”文字)和情景信息(图3中表示为幽静的林荫小道)，以及包括文字信息、物品信息和情景信息中的任意一种或多种所组合的影像信息。接着通过关联判断模块202判断讲述者的讲述内容与影像信息是否相关联，其中讲述者包括人、动物和具有发声功能的机器设备；相关联表示讲述内容与影像信息之间存在一定联系，该联系可以是时间维度上的联系，也可以是空间位置维度上的联系，也可以是内容相似度上的联系。若通过信息数据输出模块203判定讲述者的讲述内容与影像信息相关联，则使语音识别系统在语音识别讲述内容时输出信息数据，其中输出包括全部或者部分内容的输出，以图2为例，输出的信息数据可以是“圆桌”，以图3为例，输出的信息数据可以是“幽静的林荫小道”中的“林荫小道”。该装置可以应用于课件演讲场景中，语音识别系统借助课件(如幻灯片)将讲述者的讲述内容进行语音识别。该装置还可以应用于聊天或者会议场景中，语音识别系统借助讲述者近些天内或者当前所获取到的相关影像信息对讲述者的讲述内容进行语音识别。该装置还可以应用于教学场景中，例如教师在文本框中输入文字信息或者在画图设备上作画，利用设备自带的截图或者图像捕捉的方式获取到图像信息，语音识别系统借助所获取到的图像信息对教师的讲述内容进行语音识别。由此，在语音识别讲述者的讲述内容时，通过利用与讲述内容相关联的影像信息，使得语音识别系统输出对应于影像信息的信息数据，进而提高了语音识别准确率。本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述语音识别方法。在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于根据影像信息，识别得到用于表征影像信息的信息数据；判断讲述者的讲述内容与影像信息是否相关联；若判定讲述者的讲述内容与影像信息相关联，则使语音识别系统在语音识别讲述内容时输出信息数据。由此，在语音识别讲述者的讲述内容时，通过利用与讲述内容相关联的影像信息，使得语音识别系统输出对应于影像信息的信息数据，进而提高了语音识别准确率。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本
技术领域：
：的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。当前第1页1 2 3 当前第1页1 2 3

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。