基于人工智能的事件评估报告生成的制作方法

2021-01-28 16:01:44|

344|

起点商标网

背景技术：

在涉及一个或多个参与者的各种事件中，通常难以及时准确地生成涉及这些参与者在每个短周期内的报告，例如包括参与者在每一个事件中的表现和/或该事件状况的评估报告。例如，在教学事件中，评估老师和/或学生在每一节课中的表现通常是费时且不够精确的。虽然可以通过阶段性测试而非每节课的测试来相对省时地反映老师和学生的教学成果，但在进行阶段性测试后再去调整老师的教学方式或干预学生的课堂表现可能会太迟，而无法高效地改进教学事件中老师和/或学生的表现。对于教育提供方而言，他们希望能立即了解老师和/或学生的表现，从而能有效地调整老师和/或学生的后续表现从而改进教学质量。

技术实现要素：

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开内容的实施例提出了一种用于生成针对事件的评估报告的方法。在该方法中，可以接收与所述事件对应的多媒体流，其中所述多媒体流包括与所述事件的一个或多个参与者中的第一参与者相关的视频流。可以从视频流中检测第一参与者的面部图像序列以及身体图像序列。可以从面部图像序列中识别情绪序列以及从身体图像序列中识别动作序列。根据情绪序列和动作序列中的至少一个，可以通过与事件的类别相关联的至少一个参与者评估模型来评估第一参与者在事件中的表现。可以至少根据所述表现来生成与所述第一参与者相关的报告。

应当注意，以上一个或多个方面包括以下详细描述以及在权利要求中具体指出的特征。下面的说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开内容旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的示例性评估报告生成系统的架构。

图2示出了根据实施例的、基于与事件对应的视频流生成报告的示例性过程。

图3示出了根据实施例的、基于与事件对应的音频流生成附加报告的过程。

图4示出了根据实施例的、针对示例性教学事件中的参与者的表现生成的示例报告界面。

图5示出了根据实施例的、针对示例性教学事件中的另一参与者的表现生成的示例报告界面。

图6是根据实施例的、针对示例性教学事件生成的示例报告界面。

图7示出了根据实施例的用于生成针对事件的评估报告的示例性方法的流程图。

图8示出了根据实施例的用于生成针对事件的评估报告的示例性装置。

图9示出了根据实施例的用于生成针对事件的评估报告的另一种示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开内容。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开内容的实施例，而并非教导对本公开内容的范围的任何限制。

在各种类型的事件中，人们通常难以及时准确地获知事件中的各参与者的表现和/或该事件的综合状况。各种类别的事件可以涉及至少两个参与者之间的交流的事件，包括例如，教学、辩论、演讲、会议等。举例而言，在教学类别中，一节课可以被看成是一个事件，对应的老师和学生可以被认为是事件的参与者。在另一个例子中，在示例性的辩论类别中，一次辩论赛可以被认为是一个事件，参加辩论赛的双方队员可以被认为是事件的参与者，等等。在教学中，如果针对每节课都去评估老师和/或学生在该节课中的表现，则无疑是费时的。然而如果针对一段时间内的多节课(例如一周、一个月、一学期)去评估老师和/或学生在这些课程中的表现，则可能不能及时地根据老师和/或学生的表现来调整老师的教课方式和/或学生的学习状况。

为了能够及时高效地获知各个参与者在事件中的表现和/或事件的状况，本公开内容的实施例提出了一种用于生成针对事件的评估报告的方法和系统。具体而言，该方法和系统可以是基于人工智能(artificialintelligence，ai)技术来实现的。该方法可以通过接收并分析与事件对应的多媒体流，基于多媒体流中的视频流识别出参与者的情绪序列和动作序列和/或基于多媒体流中的音频流识别出与事件对应的文本，从而根据参与者的情绪序列、动作序列、音频流的文本中的至少一个来评估参与者在事件中的表现和/或评估该事件，以及基于评估结果来自动生成评估报告。生成的报告可以被呈现给参与者或第三方，以便参与者和/或第三方能及时直观地了解到参与者在事件中的表现是否令人满意，以及如何在后续事件中加以改进。此外，针对同一参与者的相同类别的多个事件，可以获得该参与者的多个表现，以及根据多个表现的组合来生成综合评估报告。例如，在教学中，针对同一老师在一学期的多节课，可以根据老师在多节课中的每节课的课堂表现来生成针对该老师在这一学期的评估报告。再举个例子，在演讲中，针对同一演讲者的多次演讲，其可以是相同主题也可以是不同主题的多次演讲，可以根据该演讲者在每次演讲中的表现来生成针对该演讲者的综合或阶段性评估报告。

需要注意的是，在不同类别的事件中执行评估所使用的评估模型可以不同，这是因为不同类别的事件的特性是不同的。例如，在教学中，针对教学的特性可以包括诸如老师或学生的课堂精神状态、老师或学生的课堂行为表示、老师或学生的课堂情绪变化、老师和学生之间的交互、老师讲解要点与课件的匹配程度等等。在其他类别中，例如在辩论中，针对辩论的特性可以包括诸如辩论者的响应速度、情绪变化、辩论者的发言内容与辩论主题的相关性、辩论者的语速、同一团队中成员之间的合作程度、辩论风格等等；在示例性的演讲中，针对演讲的特性可以包括例如演讲者的肢体语言丰富程度、情绪变化、音调变化、演讲内容与演讲稿的匹配程度、演讲者的停顿时间、听众的精神状态、情绪变化等等。

图1示出了根据实施例的示例性评估报告生成系统100的架构。在图1中，通过网络110将信号采集设备120、终端设备130、基础模型集140、基于事件的模型集150互连。信号采集设备120可以包括能够从一个或多个事件的参与者，诸如示例性的参与者102(a)、102(b)处采集视频流信号122和音频流信号124的各种采集设备，包括但不限于摄影机、录音机、手机、电脑、带有摄像头和/或麦克风的任何其他电子设备等等。在一个例子中，所采集的视频流信号122和音频流信号124可以经由网络110通过无线或有线的方式被传递给基础模型集140。

在一些实施例中，基础模型集140可以包括面部识别模型141、身体识别模型142、语音识别模型143、知识图谱144、数据分析/挖掘模型145、自然语言处理模型146。

在一些例子中，面部识别模型141可以接收视频流122以及从视频流122中检测面部图像并识别面部图像中的情绪，例如包括参与者102(a)和/或参与者102(b)的面部的至少一张图像中的情绪，以输出针对每个参与者的情绪序列。在一些例子中，身体检测模型142可以接收视频流122以及从视频流122中检测身体图像并识别身体图像中的动作，例如包括参与者102(a)和/或参与者102(b)的身体部分的至少一张图像中的动作，以输出针对每个参与者的动作序列。在一些例子中，语音识别模型143可以对音频流124执行语音识别以生成该音频流124的文本。在一些实现中，语音识别模型143还可以根据音频流124和/或其文本来获得针对该音频流的语速统计。在一些例子中，知识图谱144可以是任何通用知识图谱或针对特定领域的专用知识图谱。在一些例子中，数据分析/挖掘模型145可以基于知识图谱144的内容，对通过面部识别模型141得到的情绪和通过身体识别模型142得到的动作进行数据分析/挖掘。

在一些例子中，自然语言处理模型146对通过语音识别模型143生成的音频流124的文本执行自然语言处理，包括但不限于例如语义分析、语法分析、实体提取等等，图中未示出。在一些实现中，自然语言处理模型146可以包括多个模型，例如关键内容提取模型、文本情感分析模型、不适当词语检测模型等等。在一些例子中，关键内容提取模型可以用于基于预设内容列表从音频流124的文本中提取出关键内容，例如与预设内容列表匹配的关键内容。举例而言，在教学示例中，预设内容列表可以是老师预先准备的课件；在演讲示例中，预设内容列表可以是演讲者的演讲稿，等等。此外，关键内容提取模型还可以确定所提取的关键内容在该音频流的文本中的分布，例如出现时间、位置、频率等等，以及提取的关键内容相对预设内容列表的匹配度或覆盖度。文本情感分析模型可以使用任何已知的文本情感分析技术对音频流124的文本执行情感分析，以获得文本情感。不适当词语检测模型可以根据与事件类别有关的预设黑名单从文本中检测不适当词语，以用于后续进行事件评估或呈现给参与者或第三方。黑名单的内容可以在实践中根据事件类别通过系统提前设定。例如，在教学中，预设黑名单可以包括例如“笨蛋、白痴、垃圾”等词语。

经过基础模型集140处理的数据被传输给基于事件的模型集150，以通过与事件的类别相关联的至少一个评估模型对参与者的表现和/或事件进行评估。在一些实现中，所述评估可以是以分类、标记或打分方式来进行的。例如，将参与者的表现标记为“积极”、“消极”、“精神饱满”、“无精打采”、“认真听讲”等；将参与者的表现进行打分，例如采用十分制、百分制等等；将事件分类为“好”、“差”等等。在其它实现中，评估可以是以分级方式来进行的，例如将参与者的表现或事件分成“低”、“中等”、“高”，或者“一级”、“二级”、“三级”等等。本公开内容的评估可以以任何适当的方式来进行，而不限于上述方式。

在一些例子中，基于事件的模型集150包括参与者表现评估模型151和事件评估模型152。在一些例子中，参与者表现评估模型151可以与事件类别相关联并且基于接收的参与者的情绪序列和/或动作序列对参与者在事件中的表现进行评估。在一些实现中，参与者表现评估模型151可以包括但不限于以下中的至少一个：行为表示评估模型、精神状态评估模型、情绪变化评估模型和参与者交互评估模型。在一些例子中，事件评估模型152可以与事件类别相关联并且根据接收到的音频流的文本来评估事件。举例而言，事件评估模型152可以根据来自语音识别模型143和/或自然语言处理模型146的输出来执行事件评估，例如针对音频流的语速、从文本中提取的关键内容、文本情感、检测到的文本中的不适当词语、关键内容相对预设内容列表的匹配度或覆盖度等等。

上述评估模型可以是预先训练的基于机器学习的评估模型。在训练期间，行为表示评估模型可以采用动作序列和事件类别作为输入，以及生成行为表示作为输出；精神状态评估模型可以采用情绪序列和动作序列作为输入，以及生成精神状态作为输出；情绪变化评估模型可以采用情绪序列作为输入，生成情绪变化作为输出；以及参与者交互评估模型可以采用多个参与者各自的动作序列作为输入，生成交互情况作为输出；事件评估模型可以采用语速、关键内容匹配度/覆盖度、文本情感、不适当词语、参与者的表现、参与者情绪变化与文本情感的相关性中的至少一项作为输入，生成事件评估结果作为输出。

虽然本文中将基础模型集140和基于事件的模型集150分开显示，但它们也可以合并在同一个模型集或设备中，例如可以被包括在服务器、处理器、云端设备等等中。此外，上述的模型中的每一个均可以是通过机器学习模型单独训练的。

可以将基于事件的模型集150生成的评估结果通过有线或无线方式提供给终端设备130以通过显示部件132进行显示。在一些实施例中，评估结果可以以报告形式来呈现，例如将评估结果包括在报告中。在这些实施例中，终端设备130可以将接收到的报告通过网络110提供给数据库(未示出)进行存储和/或用于进行报告统计。

此外，虽然图1中将信号采集设备120与终端设备130示出为单独的设备，但信号采集设备120也可以整合在终端设备130中。例如，终端设备130可以是手机、计算机、平板电脑等等，而信号采集设备120可以是上述设备中的部件。举例而非限制性的，信号采集设备120可以是上述设备中的麦克风、摄像头等等。

应当理解，图1中所示的所有部件或模型都是示例性的。本申请中使用的“示例性的”一词意味着用作例子、例证或说明。本申请中被描述为“示例性”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例性一词是想要以具体的方式来表示构思。本申请中使用的术语“或者”意味着包括性的“或者”而不是排他性的“或者”。也就是说，除非另外指定，或者从上下文能清楚得知，否则“x使用a或者b”的意思是任何自然的包括性置换。也就是说，如果x使用a，x使用b，或者x使用a和b二者，则“x使用a或者b”满足上述任何一个例子。另外，除非另外指定或从上下文能清楚得知是单一形式，否则本申请和附加的权利要求书中使用的“一”和“一个”物件通常表示“一个或多个”。

图2示出了根据实施例的、基于与事件对应的视频流生成报告的示例性过程200。

在框202，可以接收与事件对应的多媒体流中的视频流，其中，视频流涉及该事件的至少一个参与者。在一些例子中，该操作可以由例如图1的信号采集设备120来执行。

在框204，可以对视频流进行数据预处理。在一些例子中，数据预处理包括例如将整个视频流分割成多个片段，例如每个片段的时长可以是5-10秒。在一些例子中，视频流可以是采用已知的视频流连续分割技术来分割的，例如后一个片段紧接着前一个片段。在一些例子中，视频流可以是采用重叠的视频流分割技术来分割的，例如，后一个片段与前一个片段有部分重叠。举例而言，假设视频流的时长是30秒，经过分割的每个片段的时长是5秒，则采用连续分割方式得到的片段可以是：第一片段为视频流的第1-5秒，第二片段为视频流的第6-10秒，第三片段为视频流的第11-15秒，以此类推。相对而言，采用重叠分割方式得到的片段可以是：第一片段为视频流的第1-5秒，第二片段为视频流的第3-7秒，第三片段为视频流的第5-9秒，以此类推。优选地，可以采用重叠分割方式来分割视频流，以使得根据从重叠的片段中获得的面部图像序列和身体图像序列，能够更准确地识别出面部图像中的情绪和身体图像中的动作。

在框206，可以从经过预处理的视频流中捕获面部图像序列。例如，通过截屏方式以规律间隔(例如，一秒钟)从每个片段中采样面部图像。

在框208，从捕获的每张面部图像中识别出该面部的情绪。在一些例子中，可以针对每张面部图像附加情绪标记，例如针对某个面部图像，附加标记[高兴]或[面部a，高兴]。

在框210，根据针对面部图像识别出的情绪或附加的标记，可以针对一个参与者的面部生成该参与者的情绪序列。

在一些例子中，示例性框206、208、210中的操作可以由例如图1的面部识别模型141来执行。

在框212，可以从经过预处理的视频流中捕获身体图像序列。例如，通过截屏方式以规律间隔从每个片段中采样身体图像。

在框214，从捕获的一张或多张身体图像中识别出该身体所属的参与者正在进行的动作。例如，根据捕获的一张或多张身体图像，可以判断出该参与者正在举手、打哈欠、睡觉等等。

可选地，在框216，可以针对识别出的每个动作附加以下标记中的一个：正向、负向和中性。在一个实现中，对动作附加的上述标记可以是根据事件的类别来进行分类的。举例而言，在演讲中，听众的拍手动作可能被标记为正向；在教学的课堂上，学生的拍手动作可能被标记为负向，例如老师正在讲课时学生拍手会影响课堂纪律。

可选地，在框218，可以针对识别出的每个动作附加以下标记中的一个：恶意和非恶意，其中恶意或非恶意动作可以是通过与预先设定的恶意动作匹配来标记的，或者使用预先训练的机器学习模型来标记的。在一个实现中，可以只标记出恶意动作，而将未标记的动作默认为是非恶意动作。对动作附加的上述标记可以是根据事件的类别来分类的。举例而言，在教学中，老师用书本敲打学生可能被认为或标记为恶意动作；而在会议中，会议主讲人用会议记录敲打其他参会者可能被认为或标记为非恶意动作。在一些例子中，可以在后续生成的报告中单独列出恶意动作以提醒报告的查看者，例如在框226处生成的报告中标示是否存在标记为恶意的动作或可以将标记为恶意的动作呈现在报告中。

在框220，根据在框214处识别出的动作和/或在框216、218处做出的标记，可以针对一个参与者生成动作序列或带标记的动作序列。举例而言，一个参与者在事件中的动作序列可以是{举手，打哈欠，东张西望，和他人聊天……}。在另一个例子中，一个参与者在事件中的动作序列可以是{拍手(正向、非恶意)，敲打其他人头部(负向、恶意)，静坐(中性、非恶意)……}。

在一些例子中，示例性框212、214、220以及可选的框216、218中的操作可以由例如图1的身体识别模型142来执行。

在框222，根据在框210处生成的情绪序列、在框220处生成的动作序列或带标记的动作序列，可以对参与者的表现进行评估。例如，可以通过与事件的类别相关联的至少一个参与者评估模型来评估该参与者在事件中的表现。在一些例子中，参与者的表现可以包括以下中的至少一个：根据情绪序列和动作序列生成的参与者的精神状态、根据动作序列和事件类别生成的参与者的行为表示、根据情绪序列生成的参与者的情绪变化、根据动作序列得到的参与者与其他参与者的交互。

在一些例子中，示例性框222中的操作可以由例如图1的参与者表现评估模型151来执行。具体而言，参与者的每种表现可以分别通过参与者表现评估模型151中包括的各个模型来进行评估，例如行为表示评估模型、精神状态评估模型、情绪变化评估模型和参与者交互评估模型。

在一些例子中，行为表示评估模型可以用于评估参与者的行为表示，例如根据参与者的动作序列来执行评估。举例而言，当该事件是教学中的一节课，参与者是老师，且输入是该老师的竖起大拇指的手势，则行为表示评估模型的输出可以是“积极”，作为老师在该节课中的一个表现，诸如表现中的行为表示。进一步地，取决于事件的类别，该行为表示评估模型还可以包括多个子模型，例如教学手势评估子模型、肢体语言评估子模型、恶意行为评估子模型等等。在该例子中，当输入是该老师的竖起大拇指的手势时，可以通过教学手势评估子模型接收该输入并输出“肯定的教学手势”作为老师的一个表现或行为表示下的细化表现。

此外，即使输入是类似的动作，但经由与不同的事件类别相关联的多个评估模型处理得到的输出也可能是不同的。举例而言，在教学中，针对学生(即参与者)在一节课中的“举手”动作，与教学相关联的参与者表现评估模型可以判断该“举手”动作对应于学生的“回答问题”的行为，从而可以分析出该学生在该节课中的行为表示为诸如“积极行为”。在会议中，针对参与者的“举手”动作，与会议相关联的参与者模型可以判断该“举手”动作对应于参与者的“提案表决”的行为，从而可以分析出该参与者在该次会议中的行为表示为诸如“中性行为”。

在一些例子中，精神状态评估模型可以用于评估参与者的精神状态，例如根据接收到的情绪序列和/或动作序列来进行评估。举例而言，当针对学生接收到的情绪序列为{厌恶，中立，轻视……}，动作序列为{打哈欠，东张西望，和他人聊天……}，与教学相关联的精神状态评估模型可以将该学生的精神状态评估为“心不在焉”，以作为该学生在一节课中的一种表现。再举一个例子，当针对演讲者接收到的情绪序列为{高兴，生气，惊讶……}，动作序列为{挥手，走动，走动，点头，摇头……}，与演讲相关联的精神状态评估模型可以将该演讲者的精神状态评估为“精神饱满”，以作为该演讲者在该次演讲中的一种表现。

在一些例子中，情绪变化评估模型可以根据参与者的情绪序列来评估参与者的具体表现，即情绪变化。举例而言，根据参与者的情绪序列中涉及的情绪类型和/或强度变化的大小，该情绪变化评估模型的输出可以是“情绪变化稳定”或“情绪变化不稳定”。

在一些例子中，参与者交互评估模型可以根据两个参与者的动作之间的对应关系来评估这两个参与者之间的交互情况。例如，在教学类别中，如果在学生举手预定时间内老师向该学生发出回应，例如用手指或手朝向该学生，则可以认为此处的举手动手和回应动作之间存在对应关系，从而得出老师和学生之间存在交互。反之，如果在学生举手超出预定时间老师仍未向该学生发出回应或老师的当前动作为走动，则可以认为该举手动作与老师的当前动作之间不存在对应关系，从而得出老师和学生之间没有交互。此外，参与者交互评估模型还可以根据参与者在事件中交互的次数相比阈值次数来输出评估结果“交互多”或“交互少”。

在框224，根据框222处的评估，可以生成与评估结果对应的参与者的表现标签。例如，以教学的事件为例，在精神状态方面，表现标签可以包括但不限于以下中的至少一个：精神饱满、无精打采、认真听讲、心不在焉等等。在行为表示方面，表现标签可以包括但不限于以下中的至少一个：积极、消极、有无恶意行为、肯定或否定的教学手势、单调或丰富的肢体语言、老师-学生交互的多少、情绪变化或统计等等。

在框226，至少根据参与者的表现和/或表现标签可以生成与该参与者相关的报告。在一些例子中，所生成的报告可以被提供给终端设备，例如参与者或第三方的终端设备，诸如图1中的终端设备130。

此外，虽然图2中未示出，但在框226处生成的报告可以是针对不同参与者的单个事件也可以是针对同一参与者的多个事件。在针对涉及同一参与者的多个事件的情况下，生成报告还可以包括：获得该参与者在多个事件中的多个表现或表现标签，至少根据多个表现或表现标签的组合来生成报告。

应当理解，图2中所示的所有框及其输入信息、输出信息都是示例性的，以及可以根据具体设置来增加或合并框，增加或减少框的输入信息和输出信息。此外，应该理解，本公开的实施例可以建立基于机器学习的参与者表现评估模型，该模型可以采用上述的情绪序列、动作序列等中的一个或多个作为特征，并且被训练用于确定参与者在事件中的表现。该模型并不局限于采用任何特定的机器学习技术来建立。

图3示出了根据实施例的、基于与事件对应的音频流生成附加报告的过程300。

在框302，可以接收与事件对应的多媒体流中的音频流，其中，音频流涉及该事件的至少一个参与者。在一些例子中，框302中的操作可以由例如图1的信号采集设备120来执行。

在框304，可以对接收的音频流执行语音识别，以生成该音频流的文本。在实现中，可以使用已知的任何语音识别模型来对音频流执行语音识别，包括但不限于例如隐马尔可夫模型(hmm)、卷积神经网络(cnn)、深层神经网络模型(dnn)等等。在一些例子中，框304中的操作可以由例如图1的语音识别模型143来执行。

在框306，可以对音频流的文本执行自然语言处理(nlp)。在一些例子中，框306中的操作可以由例如图1的自然语言处理(nlp)模型146来执行。在一些实施例中，自然语言处理可以包括以下中的至少一种操作：框308中的语速统计、框310中的关键内容提取、框312中的文本情感分析、框314中的不适当词语检测，其中关键内容是根据预设的内容列表从文本中提取出的。在一些例子中，关键内容提取操作可以进一步包括确定关键内容在文本中的分布，例如出现的时间、位置、频率等等。在一些例子中，检测到的不适当词语可以是根据与事件的类别有关的预设黑名单从文本中检测的。

可以根据框308、310、312、314的输出结果，在框316处利用与事件类别有关的事件评估模型来评估该事件。在一些例子中，事件评估模型可以通过预先训练的分类模型和/或回归模型(例如评分模型)来实现。在一个实施例中，事件评估模型可以根据提取的关键内容相对预设的内容列表之间的匹配度或覆盖度来评估事件。可选地，在框316处的事件评估操作还可以根据框318处的参与者的表现标签来进行，例如在图2的框224处生成的参与者的表现标签，其中，框318处涉及的参与者可以与框302中接收到的音频流中涉及的参与者相同或不同。

在框320处，根据框316处针对事件的评估操作，可以生成包括评估结果的附加报告。在一些例子中，该附加报告还可以包括在框310中从文本提取的关键内容。在另一些例子中，在视频流中涉及的参与者与音频流中涉及的参与者不同的情况下，该附加报告可以包括视频流中涉及的参与者的情绪变化与文本情感之间的相关性。

此外，在一些例子中，在框320处生成的附加报告可以与在图2中的框226处生成的报告分开显示或合并显示。

需要理解的是，上述用于评估事件的框316中的操作可以通过预先训练的模型来实现。

为了便于阐述且为简便起见，下文以教学类别为例来说明根据本申请的构思生成的报告界面。需要理解的是，本申请的构思也可以应用于其它类别的事件中。

图4示出了根据实施例的、针对示例性教学类别的事件中的参与者的表现生成的示例报告界面400。该界面被显示在示例性显示部件上，例如图1的显示部件132。在该实施例中，事件是教学中的一节课程，参与者是与视频流相关的参与者之一，例如该节课中的老师。

在一些例子中，报告界面400可以是根据图2的方法生成的报告，其中该方法是基于视频流执行的。在该实施例中，事件是例如在界面400中以“课程名称：第1单元第1课；课程时间：2019.4.1014：30-16：00”来指示的一节课程。在界面400中，在针对课程事件的课程信息中还示出了一些额外的信息，例如学生名称、课程状态，这些信息并非是根据本公开内容的实施例生成的报告中必需的，因此在此不再详述。

在图4所示的例子中，报告界面400中示出了针对老师(即参与者)在该节课程(即事件)中的多种表现的评估结果，包括但不限于课堂精神状态、课堂行为表示、课堂情绪变化、老师-学生交互，其中课堂行为表示可以进一步包括课堂恶意行为、教学手势、肢体语言等等。如图4中所示，针对参与者的表现的评估可以用标记或评分方式示出，例如通过标记模型针对课堂精神状态示出的标记“无精打采”和“精神饱满”，或者通过评分模型针对课堂精神状态示出的分数“85”；针对课堂行为表示示出的标记“积极”和“消极”或者分数“80”；针对课堂恶意行为示出的标记“无”和“严重”或分数“0”；针对教学手势示出的标记“否定”和“肯定”或分数“85”；针对肢体语言示出的标记“单调”和“丰富”或者分数“75”；针对老师-学生交互示出的标记“少”和“多”或者分数“85”；针对课堂情绪变化示出的“稳定”或分数“85”。

在一些例子中，根据识别出的参与者(例如老师)的情绪序列，可以生成该参与者的情绪变化的标记并包括在报告中。在该例子中，通过标记模型基于情绪序列可以得出该老师的课堂情绪变化的标记为“稳定”。当然，基于预先训练的标记模型，也可以对该老师的课堂情绪变化附加其它形式的标记。在其它例子中，可以通过评分模型来对老师的课堂情绪变化进行打分，例如分数“85”。

需要理解的是，虽然在图4的报告界面400中将参与者(即老师)的表现之一“课堂恶意行为”示出为可选地包括在“课堂行为表示”项内，但也可以将该表现“课堂恶意行为”作为单独的一项在报告中列出，以提醒报告的查看者关注此点。

图5示出了根据实施例的、针对示例性教学类别的事件中的另一参与者的表现生成的示例报告界面500。该界面被显示在示例性显示部件上，例如图1的显示部件132。在该实施例中，事件是教学中的一节课程，另一参与者是与视频流相关的参与者之一，例如该节课中的学生。

在一些例子中，报告界面500可以是根据图2的方法生成的报告，其中该方法是基于视频流执行的。在该实施例中，事件是例如在界面500中以“课程名称：第1单元第1课；课程时间：2019.4.1014：30-16：00”来指示的一节课程。在报告界面500中，在针对课程事件的课程信息中还示出了一些额外的信息，例如老师名称、课程状态，这些信息并非是根据本公开内容的实施例生成的报告中必需的，因此在此不再详述。

在图5所示的例子中，报告界面500中示出了针对学生(即另一参与者)在该节课程(即事件)中的多种表现的评估结果，包括但不限于课堂精神状态、课堂行为表示、课堂情绪变化、老师-学生交互，其中课堂行为表示可以进一步包括是否有迟到、早退、中途离开、和他人聊天等行为表示。如图5中所示，针对该另一参与者的表现的评估可以用标记或评分方式示出，例如通过标记模型针对课堂精神状态示出的标记“心不在焉”和“认真听讲”，或者通过评分模型针对课堂精神状态示出的分数“80”；针对课堂行为表示示出的标记“消极”和“积极”或者分数“80”；针对老师-学生交互示出的标记“少”和“多”或者分数“85”；针对课堂情绪变化示出的“不稳定”或分数“40”。

在一些例子中，根据识别出的参与者(例如学生)的情绪序列或情绪统计，如图5中所示出的课堂情绪统计，可以生成该参与者的情绪变化并包括在报告中。在该例子中，通过标记模型基于情绪序列或情绪统计可以得出该学生的课堂情绪变化的标记为“不稳定”。当然，基于预先训练的标记模型，也可以对该学生的课堂情绪变化附加其它形式的标记。在其它例子中，可以通过评分模型来对学生的课堂情绪变化这一表现进行打分，例如分数“40”。

图6是根据实施例的、针对示例性教学类别的事件生成的示例报告界面600。该界面被显示在示例性显示部件上，例如图1的显示部件132。在该实施例中，事件是教学中的一节课程，参与者是与音频流相关的参与者之一，例如该节课中的老师。

在一些例子中，报告界面600可以是根据图3的方法生成的报告，其中该方法是基于音频流执行的。在该实施例中，事件是例如在界面600中以“课程名称：第1单元第1课；课程时间：2019.4.1014：30-16：00”来指示的一节课程。在报告界面600中，在针对课程事件的课程信息中还示出了一些额外的信息，例如学生名称、老师名称、课程状态，这些信息并非是根据本公开内容的实施例生成的报告中必需的，因此在此不再详述。

在图6所示的例子中，报告界面600中示出了针对一节课程(即事件)的评估结果，包括但不限于课程评估、知识点匹配(对应于关键内容匹配度)、老师的(对应于音频流所涉及的参与者)课堂语速、老师的课堂不适当词语、学生(对应于视频流所涉及的参与者)的情绪变化与老师的文本情感相关性。如图6中所示，针对事件的评估可以用标记或评分方式示出，例如通过标记模型针对课程评估示出的标记“差”和“好”，或者通过评分模型示出的分数“80”；针对知识点匹配度示出的标记“低”和“高”或者分数“100”；针对老师的课堂语速示出的标记“慢”和“快”或分数“50”；针对老师的课堂不适当词语示出的标记“无”和“多”或分数“0”；针对学生的情绪变化与老师的文本情感相关性的标记“低”和“高”或者分数“50”。在一些例子中，标记或评分形式示出的“老师的课堂语速”可以结合如图6中的折线图形式示出的“老师的课堂语速变化”来执行事件评估或由其替代包括在该报告中；以标记或评分形式示出的“知识点匹配度”可以结合“提取的知识点”来执行事件评估或由其替代包括在报告中。

应当理解的是，在图4、图5、图6中所示的各个报告界面中针对参与者的任一表现和针对事件的任何一个评估结果均是示例性的，在实践中可以根据系统设计或实际需要，增加、减少或替换所示出的表现和评估结果中的任意一个。此外，虽然在图4、图5、图6中分别示出了不同的报告，但也可以将这三个分别的报告任意组合来进行显示。

图7示出了根据实施例的用于生成针对事件的评估报告的示例性方法700的流程图。

在框710处，可以接收与事件对应的多媒体流，所述多媒体流包括与所述事件的一个或多个参与者中的第一参与者相关的视频流。

在框720处，可以从所述视频流中检测所述第一参与者的面部图像序列以及身体图像序列。

在框730处，可以从所述面部图像序列中识别情绪序列以及从所述身体图像序列中识别动作序列。

在框740处，可以根据所述情绪序列和所述动作序列中的至少一个，通过与所述事件的类别相关联的至少一个参与者评估模型来评估所述第一参与者在所述事件中的表现。

在框750处，可以至少根据所述表现生成与所述第一参与者相关的报告。

在一种实现中，所述表现包括以下中的至少一个：根据所述情绪序列和所述动作序列生成的所述第一参与者的精神状态；根据所述动作序列和所述事件的类别生成的所述第一参与者的行为表示；根据所述情绪序列生成的所述第一参与者的情绪变化；以及所述第一参与者与所述一个或多个参与者中的至少一个其他参与者的交互。

在一种实现中，识别所述动作序列包括：根据所述事件的类别，对所述动作序列中的每个动作附加以下标记中的一个：正向、负向和中性。

在另一种实现中，识别所述动作序列包括：根据所述事件的类别，对所述动作序列中的每个动作附加以下标记中的一个：恶意和非恶意。

在进一步的实现中，生成所述报告进一步包括：在所述报告中标示是否存在标记为恶意的动作；和/或将所述标记为恶意的动作呈现在所述报告中。

在一种实现中，所述多媒体流还包括与所述一个或多个参与者中的第二参与者相关的音频流，并且所述方法还包括：通过对所述音频流进行语音识别，生成与所述音频流对应的文本；通过与所述事件的类别相关联的事件评估模型，至少根据所述文本来评估所述事件；以及生成包括对所述事件的评估的结果的附加报告。

在进一步的实现中，所述第二参与者与所述第一参与者相同或不同。

在又一种实现中，所述事件是通过所述事件评估模型进一步根据以下中的至少一个来评估的：根据所述文本生成的所述第二参与者的语速；从所述文本中提取的关键内容；通过对所述文本执行情感分析所生成的文本情感；以及从所述文本中检测到的不适当词语。

在进一步的实现中，所述事件是通过所述事件评估模型进一步根据在所述关键内容与关联于所述事件的预设内容列表之间的匹配度来评估的。

在又一种实现中，所述不适当词语是根据与所述事件的类别有关的预设黑名单从所述文本中检测的。

在又一种实现中，所述事件是通过所述事件评估模型进一步根据所述第一参与者的表现来评估的。

在进一步的实现中，所述附加报告包括以下中的至少一项：从所述文本中提取的关键内容；以及在所述第二参与者与所述第一参与者不同的情况下，根据所述情绪序列生成的所述第一参与者的情绪变化与根据所述文本生成的文本情感之间的相关性。

在一种实现中，所述事件包括涉及所述第一参与者的多个事件，并且生成所述报告进一步包括：获得所述第一参与者在所述多个事件中的多个表现；以及至少根据所述多个表现的组合来生成所述报告。

应当理解的是，方法700还可以包括：用于根据本公开内容的实施例，生成针对事件的评估报告的任何步骤/处理，如上面所提及的。

图8示出了根据实施例的用于生成针对事件的评估报告的示例性装置800。

装置800可以包括：接收模块810，用于接收与所述事件对应的多媒体流，所述多媒体流包括与所述事件的一个或多个参与者中的第一参与者相关的视频流；检测模块820，用于从所述视频流中检测所述第一参与者的面部图像序列以及身体图像序列；识别模块830，用于从所述面部图像序列中识别情绪序列以及从所述身体图像序列中识别动作序列；评估模块840，用于根据所述情绪序列和所述动作序列中的至少一个，通过与所述事件的类别相关联的至少一个参与者评估模型来评估所述第一参与者在所述事件中的表现；以及生成模块850，用于至少根据所述表现生成与所述第一参与者相关的报告。

在一种实现中，所述多媒体流还包括与所述一个或多个参与者中的第二参与者相关的音频流。此外，所述装置还包括：文本生成模块，用于通过对所述音频流进行语音识别，生成与所述音频流对应的文本；以及事件评估模块，用于通过与所述事件的类别相关联的事件评估模型，至少根据所述文本来评估所述事件。在一些例子中，所述生成模块还用于生成包括对所述事件的评估的结果的附加报告。

在一种实现中，所述事件评估模块通过所述事件评估模型进一步根据以下中的至少一个来评估所述事件：根据所述文本生成的所述第二参与者的语速；从所述文本中提取的关键内容；通过对所述文本执行情感分析所生成的文本情感；以及从所述文本中检测到的不适当词语。

在一种实现中，所述附加报告包括以下中的至少一项：从所述文本中提取的关键内容；以及在所述第二参与者与所述第一参与者不同的情况下，根据所述情绪序列生成的所述第一参与者的情绪变化与根据所述文本生成的文本情感之间的相关性。

应当理解的是，装置800还可以包括：被配置为根据本公开内容的实施例，用于生成针对事件的评估报告的任何其它模块，如上面所提及的。

图9示出了根据实施例的用于生成针对事件的评估报告的另一种示例性装置900。装置900可以包括一个或多个处理器910和存储计算机可执行指令的存储器920，当执行所述计算机可执行指令时，所述一个或多个处理器910可以执行以下操作：接收与所述事件对应的多媒体流，所述多媒体流包括与所述事件的一个或多个参与者中的第一参与者相关的视频流；从所述视频流中检测所述第一参与者的面部图像序列以及身体图像序列；从所述面部图像序列中识别情绪序列以及从所述身体图像序列中识别动作序列；根据所述情绪序列和所述动作序列中的至少一个，通过与所述事件的类别相关联的至少一个参与者评估模型来评估所述第一参与者在所述事件中的表现；以及至少根据所述表现生成与所述第一参与者相关的报告。

本公开内容的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器根据如上面所述的本公开内容的实施例，执行用于生成针对事件的评估报告的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑器件(pld)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、dsp或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(ram)、只读存储器(rom)、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。