会议声音采集、会议记录以及会议记录呈现方法和装置与流程

2021-01-28 17:01:01|

313|

起点商标网

本公开涉及计算机技术领域，具体涉及会议声音采集、会议记录以及会议记录呈现方法和装置

背景技术：

语音识别已经开始广泛应用于车载、智能音箱、智能家居等多种领域，通过语音识别触发机器能够执行的指令可以极大的提高效率、解放双手、增强产品的用户体验。随着语音识别识别率的提高，将语音转为文字的需求也在人们的日常会议系统中被越来越多的采用。例如，作为个人随身携带的智能录音笔等会议记录产品，能够将录制的语音送往服务器转换成文字，方便检索和查阅。

技术实现要素：

本公开提出了会议声音采集、会议记录以及会议记录呈现方法和装置。

第一方面，本公开提供了一种会议声音采集方法，上述会议声音采集方法包括：实时获取上述麦克风阵列采集的声音数据；将上述声音数据发送给会议记录服务器，上述声音数据用于触发上述会议记录服务器对上述声音数据进行人声分离，以及生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息的会议记录，并将所生成的各会议记录发送给上述会议声音采集终端对应的当前会议标识对应的各会议记录呈现终端，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在一些可选的实施方式中，上述会议声音采集终端还设置有至少一个说话人方向指示灯；以及上述会议声音采集方法还包括：对上述声音数据进行到来角估计；对于估计得到的每个到来角，按照预设的到来角与说话人方向指示灯标识之间的对应关系，确定与该到来角对应的说话人方向指示灯，以及将所确定的说话人方向指示灯打开第一预设时长。

在一些可选的实施方式中，上述将上述声音数据发送给会议记录服务器，包括：将上述声音数据压缩后发送给上述会议记录服务器。

第二方面，本公开提供了会议声音采集装置，应用于设置有麦克风阵列的会议声音采集终端，上述会议声音采集装置包括：声音数据获取单元，被配置成实时获取上述麦克风阵列采集的声音数据；声音数据发送单元，被配置成将上述声音数据发送给会议记录服务器，上述声音数据用于触发上述会议记录服务器对上述声音数据进行人声分离，以及生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息的会议记录，并将所生成的各会议记录发送给上述会议声音采集终端对应的当前会议标识对应的各会议记录呈现终端，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在一些可选的实施方式中，上述会议声音采集终端还设置有至少一个说话人方向指示灯；以及上述会议声音采集装置还包括：到来角估计单元，被配置成对上述声音数据进行到来角估计；以及指示灯打开单元，被配置成对于估计得到的每个到来角，按照预设的到来角与说话人方向指示灯标识之间的对应关系，确定与该到来角对应的说话人方向指示灯，以及将所确定的说话人方指示灯打开第一预设时长。

在一些可选的实施方式中，上述声音数据发送单元进一步被配置成：将上述声音数据压缩后发送给上述会议记录服务器。

需要说明的是，本公开提供的会议声音采集装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的相关说明，在此不再赘述。

第三方面，本公开提供了一种会议记录方法，应用于会议记录服务器，上述会议记录方法包括：接收会议声音采集终端发送的声音数据；对上述声音数据进行人声分离；生成分离后的每个分离声音数据对应的会议记录，其中，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息；将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端，其中，上述目标会议标识为发送上述声音数据的会议声音采集终端对应的当前会议标识，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在一些可选的实施方式中，上述对上述声音数据进行人声分离，包括：对所收到的声音数据进行人声分离，生成预设数目个分离声音数据，其中，所生成的各分离声音数据分别与预设声源方向范围集合中各声源方向范围一一对应，上述预设声源方向范围集合中各声源方向范围互不重叠。

在一些可选的实施方式中，上述生成分离后的每个分离声音数据对应的会议记录，包括：对于所生成的每个分离声音数据，响应于确定该分离声音数据中存在有效语音，执行以下会议记录生成操作：分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息；响应于确定该分离声音数据为语音起点，新建与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本；将所得到的识别文本拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前语音的尾部；用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

在一些可选的实施方式中，上述会议记录生成操作还包括：响应于确定该分离声音数据为语音尾点，用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录。

在一些可选的实施方式中，上述会议记录方法还包括：响应于接收到会议记录呈现终端发送的说话内容文本更新请求，其中，上述说话内容文本更新请求是上述会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作而向上述会议记录服务器发送的，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述对该分离声音数据进行语音识别，包括：基于语音识别模型对该分离声音数据进行语音识别；以及上述会议记录方法还包括：响应于确定满足预设语音识别模型更新条件，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新上述语音识别模型。

在一些可选的实施方式中，上述会议记录生成操作还包括：响应于确定该分离声音数据为语音起点，将当前时间确定为与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间。

在一些可选的实施方式中，上述用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录，包括：用与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录；和/或上述用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录，包括：用与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录。

在一些可选的实施方式中，上述分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息，包括：分别将该分离声音数据发送给语音识别服务器和声纹识别服务器，其中，该分离声音数据用于触发上述语音识别服务器对收到的声音数据进行语音识别并返回识别结果，以及用于触发上述声纹识别服务器对收到的声音数据进行声纹识别并返回识别结果；分别将从上述语音识别服务器收到的识别结果和从上述声纹识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的识别文本和说话人身份信息。

在一些可选的实施方式中，上述会议记录服务器、上述语音识别服务器和上述声纹识别服务器中的至少一个根据安全和/或保密需求配置为私有部署服务器。

在一些可选的实施方式中，上述会议记录方法还包括：响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求，确定上述查阅人标识是否属于上述待查阅会议标识对应的参会人员标识集合；响应于确定属于，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端。

在一些可选的实施方式中，上述会议记录方法还包括：响应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求，生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

第四方面，本公开提供了一种会议记录装置，应用于会议记录服务器，上述会议记录装置包括：声音数据接收单元，被配置成接收会议声音采集终端发送的声音数据；人声分离单元，被配置成对上述声音数据进行人声分离；会议记录生成单元，被配置成生成分离后的每个分离声音数据对应的会议记录，其中，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息；会议记录发送单元，被配置成将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端，其中，上述目标会议标识为发送上述声音数据的会议声音采集终端对应的当前会议标识，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在一些可选的实施方式中，上述人声分离单元进一步被配置成：对所收到的声音数据进行人声分离，生成预设数目个分离声音数据，其中，所生成的各分离声音数据分别与预设声源方向范围集合中各声源方向范围一一对应，上述预设声源方向范围集合中各声源方向范围互不重叠。

在一些可选的实施方式中，上述会议记录生成单元进一步被配置成：对于所生成的每个分离声音数据，响应于确定该分离声音数据中存在有效语音，执行以下会议记录生成操作：分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息；响应于确定该分离声音数据为语音起点，新建与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本；将所得到的识别文本拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前语音的尾部；用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

在一些可选的实施方式中，上述会议记录装置还包括：说话内容文本更新单元，被配置成响应于接收到会议记录呈现终端发送的说话内容文本更新请求，其中，上述说话内容文本更新请求是上述会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作而向上述会议记录服务器发送的，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述对该分离声音数据进行语音识别，包括：基于语音识别模型对该分离声音数据进行语音识别；以及上述会议记录装置还包括：语音识别模型更新单元，被配置成响应于确定满足预设语音识别模型更新条件，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新上述语音识别模型。

在一些可选的实施方式中，上述会议记录装置还包括：查阅人标识确定单元，被配置成响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求，确定上述查阅人标识是否属于上述待查阅会议标识对应的参会人员标识集合；历史会议记录获取及发送单元，被配置成响应于确定属于，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端。

在一些可选的实施方式中，上述会议记录装置还包括：会议预定单元，被配置成响应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求，生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

第五方面，本公开提供了一种会议记录呈现方法，应用于会议记录呈现终端，上述会议记录呈现方法包括：响应于接收到会议记录服务器发送的会议记录，呈现所收到的会议记录，其中，所收到的会议记录为上述会议记录服务器对从会议声音采集终端收到的声音数据进行人声分离后，针对分离后的每个分离声音数据所生成的对应的会议记录，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

在一些可选的实施方式中，上述会议记录呈现方法还包括：响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录查阅请求，向会议记录服务器发送上述会议记录查阅请求，其中，上述会议记录查阅请求用于触发上述会议记录服务器响应于确定上述查阅人标识属于上述待查阅会议标识对应的参会人员标识集合，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端；响应于接收到上述会议记录服务器响应于上述会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

在一些可选的实施方式中，上述会议记录呈现方法还包括：响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向上述会议记录服务器发送说话内容文本更新请求，其中，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，上述说话内容文本更新请求用于触发上述会议记录服务器将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述呈现所收到的会议记录，包括：对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标；响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。

在一些可选的实施方式中，上述播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，包括：播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，以及在播放过程中显示与上述播放过程对应的播放进度指示信息。

在一些可选的实施方式中，会议记录还包括说话起始时间；以及上述对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标，包括：对应呈现以下至少一项：所收到的会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。

在一些可选的实施方式中，上述会议记录呈现方法还包括：响应于检测到用户输入的包括参会人员标识集合的会议预定请求，将上述会议预定请求发送给上述会议记录服务器，其中，上述会议预定请求用于触发上述会议记录服务器生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

第六方面，本公开提供了一种会议记录呈现装置，应用于会议记录呈现终端，上述会议记录呈现装置包括：会议记录呈现单元，被配置成响应于接收到会议记录服务器发送的会议记录，呈现所收到的会议记录，其中，所收到的会议记录为上述会议记录服务器对从会议声音采集终端收到的声音数据进行人声分离后，针对分离后的每个分离声音数据所生成的对应的会议记录，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

在一些可选的实施方式中，上述会议记录呈现装置还包括：会议记录查阅请求发送单元，被配置成响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录查阅请求，向会议记录服务器发送上述会议记录查阅请求，其中，上述会议记录查阅请求用于触发上述会议记录服务器响应于确定上述查阅人标识属于上述待查阅会议标识对应的参会人员标识集合，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端；历史会议记录接收及呈现单元，被配置成响应于接收到上述会议记录服务器响应于上述会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

在一些可选的实施方式中，上述会议记录呈现装置还包括：说话内容文本更新请求发送单元，被配置成响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向上述会议记录服务器发送说话内容文本更新请求，其中，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，上述说话内容文本更新请求用于触发上述会议记录服务器将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述会议记录呈现装置还包括：会议预定请求发送单元，被配置成响应于检测到用户输入的包括参会人员标识集合的会议预定请求，将上述会议预定请求发送给上述会议记录服务器，其中，上述会议预定请求用于触发上述会议记录服务器生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

第七方面，本公开提供了一种会议声音采集终端，包括：麦克风阵列，用于采集声音数据；一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实施方式描述的方法。

第八方面，本公开提供了一种会议记录服务器，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第三方面中任一实施方式描述的方法。

在一些可选的实施方式中，上述会议记录服务器根据安全和/或保密需求配置为私有部署服务器。

第九方面，本公开提供了一种会议记录呈现终端，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现第五方面中任一实施方式描述的方法。

第十方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，上述计算机程序被一个或多个处理器执行时实现如第一方面中任一实施方式描述的方法，或者如第三方面中任一实施方式描述的方法，或者如第五方面中任一实施方式描述的方法。

第十一方面，本公开提供了一种会议记录系统，包括如第八方面中任一实施方式描述的会议记录服务器、至少一个如第七方面中任一实施方式描述的会议声音采集终端以及至少一个如第九方面中任一实施方式描述的会议记录呈现终端。

在一些可选的实施方式中，上述会议记录系统还包括语音识别服务器和声纹识别服务器，其中，上述语音识别服务器被配置成对从上述会议记录服务器收到的分离声音数据进行语音识别并将识别所得到的说话内容文本发送给上述会议记录服务器，上述声纹识别服务器被配置成对从上述会议记录服务器收到的分离声音数据进行声纹识别并将识别所得到的说话人身份信息发送给上述会议记录服务器。

在一些可选的实施方式中，上述语音识别服务器和/或上述声纹识别服务器根据安全和/或保密需求配置为私有部署服务器。

目前的会议记录产品大多实时采集语音数据并将所采集的语音数据上传云服务器，在云服务器通过语音识别得到对应的讲话内容，再将识别得到的讲话内容返回会议记录产品。申请人在实践中经过研究发现，目前的会议记录产品在单人讲话场景中识别效果较好，在多人讲话时往往识别率较低。这是由于在多人讲话时，所采集的语音中可能存在多个人语音交杂在一起的情况，而目前的会议记录产品没有对多人语音进行分离后进行单独识别，而是直接对所采集的语音进行识别，这导致了识别率较低。另外，目前的会议记录产品中也没有对说话人的身份进行标识，导致会议记录中只有说话内容，没有说话人身份信息，即会议记录内容较为单一。

为解决上述申请人发现的技术问题，本公开提供的会议声音采集方法和装置、会议记录方法和装置以及会议记录呈现方法和装置，通过在会议声音采集终端中设置麦克风阵列，在会议开始后会议声音采集终端实时采集会议现场的声音数据，以及将实时采集的声音数据发送给会议记录服务器。会议记录服务器对所收到的声音数据进行人声分离，并生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息的会议记录，再并将所生成的各会议记录发送给会议声音采集终端对应的当前会议标识对应的各会议记录呈现终端。会议记录呈现终端可以呈现所收到的各会议记录。其技术效果可以包括但不限于以下方面：

第一，由于会议记录服务器首先对所收到的声音数据进行了人声分离，并且对分离后的每个声音数据单独进行语音识别，可以提高语音识别得到的说话内容文本的准确率。

第二，由于会议记录服务器对所收到的声音数据进行了人声分离，并且为每个分离后的声音数据生成了对应的会议记录，会议记录中包括了该分离后声音数据。在查阅会议记录时，可以单独查阅每个人的说话内容以及回放每个人的声音数据，而不是多人声音混杂在一起，提高了对会议声音内容和说话人身份识别的可分辨度。

第三，在会议记录服务器所生成的会议记录中除了包括了分离后的声音数据以及相应的说话内容文本，还包括说话人身份信息，丰富了会议记录的内容，继而用户在会议记录呈现终端可以接收到的会议记录内容也更加丰富，即除了可以记录参会人员的说话内容，还可以记录每段说话内容对应的参会人员身份信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是根据本公开的会议记录系统的一个实施例的示例性系统架构图；

图2a和图2c是根据本公开的会议记录系统的一个实施例的时序图；

图2b是根据本公开的会议记录生成操作的一个实施例的分解流程图；

图3是根据本公开的会议声音采集方法的一个实施例的流程图；

图4是根据本公开的会议记录方法的一个实施例的流程图；

图5是根据本公开的会议记录呈现方法的一个实施例的流程图；

图6是根据本公开的会议声音采集装置的一个实施例的结构示意图；

图7是根据本公开的会议记录装置的一个实施例的结构示意图；

图8是根据本公开的会议记录呈现装置的一个实施例的结构示意图；

图9是适于用来实现本公开的会议声音采集终端的计算机系统的结构示意图；

图10是适于用来实现本公开的会议记录服务器或会议记录呈现终端的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的会议记录系统的一个实施例的示例性系统架构100。

如图1所示，系统架构100可以包括会议声音采集终端1011、1012、1013，网络102、会议记录服务器103、网络104和会议记录呈现终端1051、1052、1053。

网络102用以在会议声音采集终端1011、1012、1013和会议记录服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

网络104用以在会议记录呈现终端1051、1052、1053和会议记录服务器103之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

会议声音采集终端1011、1012、1013可以分别设置有麦克风阵列。这里，麦克风阵列是指由一定数目的声学传感器(一般是麦克风)组成的声音采集系统，该系统使用一定数目的声学传感器采集来自于不同空间方向的声音。

在一些可选的实施方式中，为了提高麦克风阵列所采集声音的空间方向覆盖度，麦克风阵列中的声学传感器数量可以大于等于4。

麦克风阵列中各声学传感器可以采用各种排列方式。在一些可选的实施方式中，为了提高麦克风阵列所采集声音的空间方向覆盖度，麦克风阵列中的各声学传感器可以均匀分布在一个圆周上。

需要说明的是，为了实现会议声音采集终端1011、1012、1013向会议记录服务器103发送实时采集的声音数据，会议声音采集终端1011、1012、1013中除了设置有麦克风阵列之外，还可以设置有通讯单元，用于实现与会议记录服务器之间的数据交互。会议声音采集终端1011、1012、1013中的通讯单元可以包括无线通讯设备和/或有线通讯设备。其中，无线通讯设备可以包括wi-fi模块、蓝牙模块、zigbee模块等各种局域无线通讯模块。局域无线通讯模块可以通过中转网络设备，例如wi-fi路由器、蓝牙中继器、zigbee基地台等，连接到其他电子设备(例如，远程连接或者本地连接)。无线通讯设备也可以包括基于2g(edge、cdma1x)、3g(td-scdma、cdmaevdo、wcdma)、4g(lte、wimax)、5g等各种广域无线通讯模块。广域无线通讯模块通过其所接入的通讯网络连接到其他电子设备。有线通讯设备(例如，有线网卡)可以通过网线连接到路由器或调制解调器(modem)，从而连接到其他电子设备。

在一些可选的实施方式中，会议声音采集终端1011、1012、1013还可以分别设置有至少一个说话人方向指示灯，用于指示当前说话人所在方向。这里，说话人方向指示灯可以是各种形式的灯，例如各种led(发光二极管，lightemittingdiode)灯。

用户可以通过会议声音采集终端1011、1012、1013通过网络102与会议记录服务器103交互，以将用户开会的声音数据发送给会议记录服务器103进行存储和处理。

用户也可以使用会议记录呈现终端1051、1052、1053通过网络104与会议记录服务器103交互，以接收或发送消息等。会议记录呈现终端1051、1052、1053上可以安装有各种通讯客户端应用，例如会议记录呈现类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

会议记录呈现终端1051、1052、1053可以是硬件，也可以是软件。当会议记录呈现终端1051、1052、1053为硬件时，可以是具有显示屏并且支持信息输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当会议记录呈现终端1051、1052、1053为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

会议记录服务器103可以是提供各种服务的服务器。例如会议记录服务器103可以对从会议声音采集终端1011、1012、1013收到的声音数据提供人声分离以及生成每个分离声音数据对应的会议记录，并将所生成的各会议记录发送给会议记录呈现终端1051、1052、1053进行相应呈现。

需要说明的是，会议记录服务器103可以是硬件，也可以是软件。当会议记录服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器，还可以实现成云计算中心。当会议记录服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开所提供的会议声音采集方法一般由会议声音采集终端1011、1012、1013执行，相应地，会议声音采集装置一般设置于会议声音采集终端1011、1012、1013中。

需要说明的是，本公开所提供的会议记录方法一般由会议记录服务器103执行，相应地，会议记录装置一般设置于会议记录服务器103中。

需要说明的是，本公开所提供的会议记录呈现方法一般由会议记录呈现终端1051、1052、1053执行，相应地，会议记录呈现装置一般设置于会议记录呈现终端1051、1052、1053中。

应该理解，图1中的会议声音采集终端、网络、会议记录服务器和会议记录呈现终端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的会议声音采集终端、网络、会议记录服务器和会议记录呈现终端。

继续参考图2，其示出了根据本公开的会议记录系统的一个实施例的时序200。

本公开实施例中的会议记录系统可以包括会议记录服务器、至少一个会议声音采集终端以及至少一个会议记录呈现终端。其中，会议声音采集终端可以设置有麦克风阵列。

如图2所示，根据本公开的会议记录系统的一个实施例的时序200可以包括以下步骤：

步骤201，会议声音采集终端实时获取麦克风阵列采集的声音数据。

在本实施例中，会议声音采集终端中设置的麦克风阵列可以在工作状态下实时采集周围环境的声音数据，这样会议声音采集终端也可以实时获取该会议声音采集终端中设置的麦克风阵列采集的声音数据。

实践中，开会前用户可以将会议声音采集终端设置为工作状态。例如，可以通过将会议声音采集终端接通电源并开机以实现将会议声音采集终端设置为工作状态。然后，会议参会人员可以在会议声音采集终端周围开始会议讨论并讲话。这样，会议声音采集终端可以实时获取麦克风阵列采集的声音数据。

步骤202，会议声音采集终端将声音数据发送给会议记录服务器。

在本实施例中，会议声音采集终端可以将从麦克风阵列实时采集的声音数据发送给会议记录服务器。

在一些可选的实施方式中，会议声音采集终端可以将从麦克风阵列实时采集的声音数据直接发送给会议记录服务器。

在一些可选的实施方式中，会议声音采集终端也可以将从麦克风阵列实时采集的声音数据压缩后发送给会议记录服务器。这样，可以减少会议声音采集终端和会议记录服务器之间的数据传输量，继而可以降低对会议声音采集终端与会议记录服务器之间的网络带宽要求。另一方面，由于待传输的数据量变少，也可以提高会议声音采集终端将声音数据发送给会议记录服务器的传输速度，进而提高会议记录服务器的处理实时性能。

在一些可选的实施方式中，会议声音采集终端还可以设置有至少一个说话人方向指示灯，以及上述时序200还可以包括，在步骤201之后或者在步骤202之后，执行步骤202a和步骤202b：

步骤202a，会议声音采集终端对声音数据进行到来角估计。

这里，会议声音采集终端可以采用各种已知的以及未来开发的基于麦克风阵列的声源定位方法对步骤201中所获取的声音数据进行到来角估计。例如，基于麦克风阵列的声源定位方法可以包括但不限于：声达时间差(tdoa，timedifferenceofarrival)法，广义互相关(gcc，generalcrosscorrelation)法，高分辨率谱估计(hrse，highresolutionspectrumestimation)法等等。

需要说明的是，实践中，采用基于麦克风阵列的声源定位方法对声音数据进行到来角估计时，一般可以计算得到至少一个到来角以及每个到来角对应的置信度、能量强度或者语音密度等相关参数，可以将计算得到的至少一个到来角中，对应的置信度、能量强度或者语音密度大于相应的预设置信度阈值、预设能量强度阈值或者预设语音密度阈值的到来角确定为计算得到的到来角。或者也可以计算得到的至少一个到来角中，对应的置信度、能量强度或者语音密度最大的到来角确定为计算得到的到来角。又或者，还可以将计算得到的至少一个到来角中，对应的置信度、能量强度或者语音密度最大的预设到来角数目个到来角确定为计算得到的到来角，其中预设到来角数目为正整数。

步骤202b，会议声音采集终端对于估计得到的每个到来角，按照预设的到来角与说话人方向指示灯标识之间的对应关系，确定与该到来角对应的说话人方向指示灯，以及将所确定的说话人方向指示灯打开第一预设时长。

这里，可以预先设定到来角与说话人方向指示灯标识之间的对应关系。例如，会议声音采集终端可以设置有12个说话人方向指示灯，则可以将0°到360°之间的角度平均分成12个角度范围，分别为大于(n-1)×30°且小于等于(n-1)×30°，其中，n为1到12之间的正整数。可以分别将说话人方向指示灯n对应到角度范围(n-1)×30°且小于等于(n-1)×30°，即如果到来角在角度范围(n-1)×30°且小于等于(n-1)×30°内，则对应说话人方向指示灯n。

这里，第一预设时长可以是预先设定的时长。实践中，可以根据会议声音采集终端中麦克风阵列实时采集语音的时间间隔来确定第一预设时长。

步骤203，会议记录服务器接收会议声音采集终端发送的声音数据。

在本实施例中，会议记录服务器可以接收会议声音采集终端发送的声音数据。

在一些可选的实施方式中，如果会议声音采集终端发送给会议记录服务器的声音数据是没有经过压缩的，则会议记录服务器可以直接接收会议声音采集终端发送的声音数据。

在一些可选的实施方式中，如果会议声音采集终端发送给会议记录服务器的声音数据是经过压缩的，则会议记录服务器可以先接收会议声音采集终端发送的数据，再按照会议声音采集终端压缩声音数据所采用的相应的解压缩方法对所收到的数据进行解压缩以得到声音数据。

步骤204，会议记录服务器对声音数据进行人声分离。

在本实施例中，会议记录服务器可以采用各种实施方式对步骤203中所得到的声音数据进行人声分离(也可称为话者分离或者盲源分离)，进而得到至少一个分离声音数据，本申请对具体实施方式不做具体限定。

例如，会议记录服务器可以采用独立成分分析(ica，independentcomponentcorrelationalgorithm)与麦克风阵列结合，通过利用波束成形方法，将所收到的声音数据对应的各声源看作在统计意义上相互独立的声源，并生成尽可能相互独立的分离声音数据。其中，先将所收到的声音数据分成多个频段，每一频段独立处理后，再将不同频率下的结果重新组合，进而生成至少一个分离声音数据。

实践中，会议记录服务器也可以通过利用人声分离服务提供商提供的人声分离服务(例如，通过调用用于实现人声分离的应用程序接口)实现对步骤203中所得到的声音数据进行人声分离，进而得到至少一个分离声音数据。

在一些可选的实施方式中，步骤204可以如下进行：会议记录服务器对所收到的声音数据进行人声分离，并生成预设数目个分离声音数据。其中，所生成的各分离声音数据分别与预设声源方向范围集合中各声源方向范围一一对应，并且预设声源方向范围集合中各声源方向范围互不重叠。这里，预设数目可以是技术人员人工预先设定的。作为示例，由于会议记录服务器所收到的声音数据是有会议声音采集终端中设置的麦克风阵列采集的，因此上述过程可以通过数字信号处理以及波束成形技术来实现。

步骤205，会议记录服务器生成分离后的每个分离声音数据对应的会议记录。

在本实施例中，会议记录服务器可以对经过步骤204的人声分离后所得到的每个分离声音数据，生成该分离声音数据对应的会议记录。其中，每个分离声音数据对应的会议记录可以包括该分离声音数据本身、以及该分离声音数据对应的说话内容文本和说话人身份信息。可以理解的是，可以通过对该分离声音数据进行语音识别来得到该分离声音数据对应的说话内容文本，以及可以通过对该分离声音数据进行声纹识别来得到该分离声音数据对应的说话人身份信息。其中，语音识别和声纹识别是目前广泛研究和应用的现有技术，在此不再赘述。

步骤206，会议记录服务器将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端。

在本实施例中，会议记录服务器可以在生成每个分离声音数据对应的会议记录后，将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端。这里，目标会议标识为发送会议记录服务器所收到的声音数据的会议声音采集终端对应的当前会议标识。可以理解的是，如果会议声音采集终端正在采集会议声音，则在会议记录服务器中对应存储有该会议声音采集终端的对应的当前会议标识。以及，会议记录服务器中还对应存储有每个会议标识(包括历史会议标识和当前会议标识)对应的参会人员标识集合，而会议标识对应的会议记录呈现终端可以为通过该会议标识对应的参会人员标识集合中的参会人员标识登陆会议记录服务器的会议记录呈现终端。

实践中，用户在开会之前，可以通过会议记录呈现终端提前向会议记录服务器预约会议，预约会议时可以输入每个参加会议的参会人员标识。会议记录服务器可以生成相应的会议标识，并将所生成的会议标识对应的参会人员标识集合确定为上述所收到的各参会人员标识，以及将所生成的会议标识反馈给上述会议记录呈现终端。随后，用户可以通过会议记录呈现终端获得上述会议标识。在开始会议时，用户可以采用各种实施方式将即将进行的会议的会议标识与将要使用的会议声音采集终端之间建立关联关系。例如，用户可以通过首先打开会议声音采集终端的开关，如果会议采集终端中设置有信息输入设备，则可以在会议声音采集终端上手工输入即将进行的会议的会议标识，进而会议声音采集终端可以将用户输入的会议标识作为与该会议声音采集终端对应的当前会议标识发送给会议记录服务器，从而会议记录服务器在收到会议采集终端发送的当前会议标识后，将所收到的当前会议标识确定为发送上述当前会议标识的会议声音采集终端的终端标识的当前会议标识；或者，用于也可以通过使用会议记录呈现终端输入或者选择当前会议标识，并通过扫描会议采集终端对应的二维码(例如，该二维码可以张贴在会议采集终端外表面)，继而上述会议记录呈现终端将扫描得到的二维码和用户选择或者输入的当前会议标识发送给会议记录服务器，而会议记录服务器将从会议记录呈现终端收到的二维码转换成会议声音采集终端的终端标识，以及将所收到的当前会议标识确定为转换得到的终端标识对应的当前会议标识。在开会过程中，为了获得会议记录内容，各参会人员可以通过预先注册的参会人员标识登陆会议记录服务器，并输入或者选择当前所参加的会议的会议标识，如果登陆会议记录服务器所使用的参会人员标识在会议记录服务器记录的上述参会人员输入或者选择的会议标识对应的参会人员标识集合中，则会议记录服务器可以确定上述参会人员登录时所使用的会议记录呈现终端为上述参会人员输入或者选择的会议标识对应的会议记录呈现终端。

步骤207，会议记录呈现终端响应于接收到会议记录服务器发送的会议记录，呈现所收到的会议记录。

在本实施例中，会议记录呈现终端可以在接收到会议记录服务器发送的会议记录的情况下，采用各种实施方式呈现所收到的会议记录。其中，所收到的会议记录可以为会议记录服务器对从会议声音采集终端收到的声音数据进行人声分离后，针对分离后的每个分离声音数据所生成的对应的会议记录，每个分离声音数据对应的会议记录可以包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

在一些可选的实施方式中，步骤207可以如下进行：

会议记录呈现终端对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。以及会议记录呈现终端响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。其中，预设操作可以是例如：单击、双击、拖拽、拖住、滑动等等。

通过上述可选实施方式，参会人员可以在会议记录呈现终端中对应获取参会人员中每个当前说话的人的说话语音、说话内容以及当前说话人的身份信息中的至少一项。继而实现实时会议记录以及可以实现对不同的说话人的说话人身份和说话内容进行识别和身份标记。

在一些可选的实施方式中，上述播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，可以包括：播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，以及在播放过程中显示与播放过程对应的播放进度指示信息。例如，可以在播放过程中呈现对应的播放进度条。

通过对上述描述可知，在开会过程中，通过上述步骤201到步骤207中会议声音采集终端、会议记录服务器以及会议记录呈现终端的相应操作，当前进行会议的参会人员可以实时查看会议记录，包括会议过程中不同说话人的语音、说话内容文本和说话人身份信息。

在一些可选的实施方式中，步骤205也可以如下进行：对于步骤204中所生成的每个分离声音数据，响应于确定该分离声音数据中存在有效语音，执行会议记录生成操作。即，通过在确定该分离声音数据中存在有效语音的情况下才执行会议记录生成操作，减少了执行会议记录成成操作的次数，继而减少了会议记录服务器的计算负担。需要说明的是，这里可以采用各种现在已知以及未来开发的确定声音数据中是否存在有效语音的实施方式确定分离声音数据中是否存在有效语音，本公开不做具体限定。例如可以通过判断分离声音数据中是否存在能量大于预设能量阈值的语音帧，如果存在则确定该分离声音数据中存在有效语音。又例如，还可以首先对分离声音数据进行滤波、降噪等处理后得到处理后分离声音数据，再判断处理后分离声音数据中是否存在能量大于预设能量阈值的语音帧，如果存在则确定该分离声音数据中存在有效语音。

这里，会议记录生成操作可以包括如图2b所示的子步骤2051到子步骤2054。请参考图2b，其示出了根据本公开的会议记录生成操作的一个实施例的分解流程图：

子步骤2051，分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息。

这里，会议记录服务器可以采用各种实施方式分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息。例如，会议记录服务器可以通过本地并发或者并行地分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息。

在一些可选的实施方式中，子步骤2051也可以如下进行：首先，会议记录服务器分别将该分离声音数据发送给语音识别服务器和声纹识别服务器。其中，语音识别服务器实时对收到的声音数据进行语音识别并返回识别结果(即，识别文本)给会议记录服务器。声纹识别服务器实时对收到的声音数据进行声纹识别并返回识别结果(即，说话人身份信息)给会议记录服务器。然后，会议记录服务器可以分别将从语音识别服务器收到的识别结果和从声纹识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的识别文本和说话人身份信息。通过该可选实施方式，通过语音识别服务器进行语音识别以及通过声纹识别服务器进行声纹识别，可以减少会议记录服务器的计算负担，提高会议记录服务器生成会议记录的速度。

在一些可选的实施方式中，上述会议记录服务器、语音识别服务器和声纹识别服务器中的至少一个可以根据安全和/或保密需求配置为私有部署服务器。可以理解的是，由于私有部署服务器的访问私密特点，以私有部署服务器方式实现的会议记录服务器、语音识别服务器或者声纹识别服务器，可以确保其上存储的数据安全性。相比于目前广泛采用的在公有的服务器上实现语音识别以及会议记录而言，具有更高的安全性。

子步骤2052，响应于确定该分离声音数据为语音起点，新建与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本。

这里，会议记录服务器可以在子步骤2051中得到该分离声音数据对应的识别文本和说话人身份信息后，首先确定该分离声音数据是否为语音起点。而后，如果确定该分离声音数据是语音起点，则新建与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本，然后转到子步骤2053执行。

即，表明目标会议标识所指示的会议中，所得到的说话人身份信息所指示的参会人员开始新的讲话，因此可以形成一条新的针对目标会议标识和所得到的说话人身份信息对应的会议记录，即新建与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本，其中，这里所新建的当前语音可以为空，以及所新建的当前说话文本也可以为空。

需要说明的是，如果确定该分离声音数据不是语音起点，直接转到子步骤2053执行。

子步骤2053，将所得到的识别文本拼接到与目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与目标会议标识和所得到的说话人身份信息对应的当前语音的尾部。

如果会议记录服务器在子步骤2052中确定该分离声音数据为语音起点，并新建了与目标会议标识和子步骤2051中所得到的说话人身份信息对应的空的当前语音和空的当前说话文本，这里可以将子步骤2051中所得到的识别文本拼接到与目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与目标会议标识和所得到的说话人身份信息对应的当前语音的尾部。

如果会议记录服务器在子步骤2052中确定该分离声音数据不是语音起点，则表明之前为与目标会议标识和子步骤2051中所得到的说话人身份信息建立过相应的当前语音和当前说话文本，则这里可以直接将子步骤2051中所得到的识别文本拼接到与目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与目标会议标识和所得到的说话人身份信息对应的当前语音的尾部。

执行完子步骤2053后可以转到子步骤2054执行。

子步骤2054，用与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

这里，会议记录服务器可以在执行完子步骤2053后，即不论该分离声音数据是否为语音起点，都将所得到的识别文本拼接到与目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与目标会议标识和所得到的说话人身份信息对应的当前语音的尾部。即，已经对与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本进行了更新后，会议记录服务器可以用更新后的与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

通过关于上述可选实施方式的记载可知，按照上述可选实施方式所生成的会议记录，可以实现包括但不限于以下有益效果：第一，通过在检测到有效语音时生成相应的会议记录，可以减少会议记录服务器的计算量；第二，可以实现实时对正在进行的会议中开始新的讲话的每个人所讲内容(包括语音数据、说话内容文本和说话人身份信息)的实时更新。

在一些可选的实施方式中，上述会议记录生成操作还可以包括子步骤2055：

子步骤2055，响应于确定该分离声音数据为语音尾点，用与目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与目标会议标识对应的历史会议记录。

经过子步骤2055，会议记录服务器可以实现对当前正在进行的会议中，每检测到讲完一句话，就将上述所讲完的内容存储为与当前正在进行的会议相应的历史会议记录，以便未来对上述会议的历史会议记录进行查阅。

在一些可选的实施方式中，上述会议记录生成操作还可以包括子步骤2056：

子步骤2056，响应于确定该分离声音数据为语音起点，将当前时间确定为与目标会议标识和所得到的说话人身份信息对应的说话起始时间。

即，如果该分离声音数据为语音起点，表明目标会议标识所指示的会议中有人开始新的讲话，而讲话的人就是所得到的说话人信息所指示的人，这里即记录了上述新的讲话的说话起始时间。

基于上述在会议记录生成操作中记录新的讲话的说话起始时间的可选实施方式，上述子步骤2054也可以如下进行：

用与目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

即，针对分离声音数据所生成的会议记录中除了包括声音、说话内容文本以及说话人身份信息以外，还包括了说话起始时间，进而丰富了会议记录的记录内容。

基于上述子步骤2054的可选实施方式，在步骤207中对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标，也可以如下进行：对应呈现以下至少一项：所收到的会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。即，除了呈现会议记录中的分离后声音数据、说话内容文本和说话人身份信息以外，还可以呈现相应的说话起始时间，进一步丰富了所呈现的会议记录内容。

基于上述在会议记录生成操作中记录新的讲话的说话起始时间的可选实施方式，上述子步骤2055也可以如下进行：

用与目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与目标会议标识对应的历史会议记录。

即，针对目标会议标识所生成的历史会议记录中除了声音、说话内容文本以及说话人身份信息以外，还包括了说话起始时间，进而丰富了历史会议记录的记录内容。

由于页面显示限制，下面继续参考图2c，需要说明的是，图2c的流程除了包括图2c中所示的流程外，还可以包括图2a中所示的各个步骤。

在一些可选的实施方式中，上述时序200还可以包括以下步骤208到步骤211：

步骤208，会议记录呈现终端响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录查阅请求，向会议记录服务器发送会议记录查阅请求。

这里，用户输入的待查阅会议标识可以用于指示当前正在进行的会议的会议标识，也可以用于指示已经结束的会议的会议标识。

可以理解的是，本公开中所述的会议标识可以存储在会议记录服务器本地或者与会议记录服务器网络连接的其他电子设备中，会议标识用于唯一标识每个会议。会议标识可以包括以下至少一项：数字、英文字母、符号、汉字以及其他语言文字。

可以理解的是，本公开中所述的查阅人标识或者参会人员标识可以存储在会议记录服务器本地或者与会议记录服务器网络连接的其他电子设备中，查阅人标识或者参会人员标识用于唯一标识每个参会人员。查阅人标识或者参会人员标识可以包括以下至少一项：数字、英文字母、符号、汉字以及其他语言文字。

步骤209，会议记录服务器响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求，确定查阅人标识是否属于待查阅会议标识对应的参会人员标识集合。

这里，会议记录服务器中可以在收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求的情况下，首先本地或者远程地获取所收到的待查阅会议标识对应的参会人标识集合。然后，确定所收到的查阅人标识是否属于所获取的参会人标识集合。

需要说明的是，会议记录服务器本地或者与会议记录服务器网络连接的其他电子设备中可以存储有每个会议标识对应的参会人标识集合。会议标识对应的参会人标识集合用于指示该会议标识指示的会议仅对该会议标识对应的参会人员标识集合中各参会人员标识所指示的参会人员授权，即，仅该会议标识对应的参会人员标识集合中各参会人员标识所指示的参会人员可以查阅该会议标识所指示的会议的历史会议记录。

步骤210，会议记录服务器响应于确定属于，获取与待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送会议记录查阅请求的会议记录呈现终端。

这里，会议记录服务器可以在步骤201中确定所收到的查阅人标识属于所获取的参会人标识集合的情况下，首先获取与所收到的待查阅会议标识对应的历史会议记录。然后，可以将所获取的各历史会议记录发送给发送步骤209中所收到的会议记录查阅请求的会议记录呈现终端。

步骤211，会议记录呈现终端响应于接收到会议记录服务器响应于会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

这里，会议记录呈现终端响应于接收到会议记录服务器响应于该会议记录呈现终端发送的会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

通过上述可选实施方式，参会人员除了可以使用会议记录呈现终端实时呈现当前进行的会议中每个人正在说话的说话内容和说话人身份，参会人员也可以使用会议记录呈现终端呈现当前进行的会议中已经讨论过的会议内容的声音数据以及对应的说话内容文本和说话人身份信息，以及参会人员还可以使用会议记录呈现终端获取已经结束的会议的历史会议记录，继而可以实现对当前正在进行会议和已经结束的会议的全面会议记录查阅。

基于上述子步骤2055的可选实施方式，在步骤211中呈现所收到的历史会议记录，可以如下进行：对应呈现以下至少一项：所收到的历史会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。即，除了呈现会议记录中的分离后声音数据关联的声音播放图标、说话内容文本和说话人身份信息以外，还可以呈现相应的说话起始时间，进一步丰富了所呈现的历史会议记录内容。以及响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。

基于上述关于查阅历史会议记录的可选实施方式，在一些可选的实施方式中，上述时序200还可以包括以下步骤212和步骤213：

步骤212，会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向会议记录服务器发送说话内容文本更新请求。

在对语音进行语音识别过程中可能存在错误，为了使得会议记录内容更加准确，可以在会议记录呈现终端中提供参会人员在后期查阅历史会议记录的过程中对识别错误的语音内容进行修正的界面。即，参会人员可以使用会议呈现终端对所呈现的历史会议记录中说话内容文本进行修改，而会议记录呈现终端可以响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向会议记录服务器发送说话内容文本更新请求。这里，说话内容文本更新请求可以包括修改操作对应的修改后的说话内容文本以及修改操作所针对的历史会议记录的会议记录标识。

步骤213，会议记录服务器响应于接收到会议记录呈现终端发送的说话内容文本更新请求，将说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为说话内容文本更新请求中的说话内容文本。

经过步骤212和步骤213可以实现用户对历史会议记录中识别错误的说话内容文本进行修正，进而实现对历史会议记录的精细化管理。

实践中，对该分离声音数据进行语音识别一般是基于语音识别模型对该分离声音数据进行语音识别。为了提高语音识别的识别率，基于上述关于对历史会议记录进行修正的可选实施方式，在一些可选的实施方式中，上述时序200还可以包括以下步骤214：

步骤214，会议记录服务器响应于确定满足预设语音识别模型更新条件，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新语音识别模型。

这里，预设语音识别模型更新条件可以是根据实践预先设置的。例如，预设语音识别模型更新条件可以是当前时间距离上次更新时间之间的时间间隔为预设时间间隔(例如，一周)。又例如，预设语音识别模型更新条件也可以是从上次更新到当前时间之间修改过说话内容文本的历史会议记录的数目大于等于预设修改会议记录数目阈值(例如，一千)。

而一般语音识别模型都是基于有监督训练得到的。因此，可以将修改过说话内容文本的历史会议记录中的声音数据输入语音识别模型，得到实际输出的识别结果，再根据实际输出的识别结果和对应的修改后的说话内容文本(相当于期望输出)之间的差异调整语音识别模型的模型参数，进而实现对语音识别模型的更新操作。

经过上述步骤214，可以实现对语音识别模型的更新，进而提高语音识别模型的识别准确率。

在一些可选的实施方式中，上述时序200还可以包括以下步骤215和步骤216：

步骤215，会议记录呈现终端响应于检测到用户输入的包括参会人员标识集合的会议预定请求，将会议预定请求发送给会议记录服务器。

参会人员在使用会议声音采集终端开会之前，需要先使用会议记录呈现终端进行会议预定。在会议预定时，参会人员需在会议记录呈现终端上确定参加会议的人员的各参会人员，即需要输入参会人员标识集合，然后会议记录呈现终端可以生成包括参会人员标识集合的会议预定请求，以及将所生成的会议预定请求发送给会议记录服务器进行会议预定。

步骤216，会议记录服务器响应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求，生成会议标识，将会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送会议预定请求的会议记录呈现终端。

会议记录服务器在收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求的情况下，可以首先生成会议标识，再将会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送会议预定请求的会议记录呈现终端。

可选地，步骤215中参会人员在会议记录呈现终端上输入的会议预定请求还可以包括开会时间以及预计会议时长，这样在步骤215中会议记录呈现终端可以把上述包括开会时间、预计会议时长和参会人员标识集合会议预定请求发送给会议记录服务器。以及在步骤216中，会议记录服务器可以在接收到上述会议预定请求后，可以根据会议记录系统中所包括的各会议声音采集终端的当前状态、已经预定的各会议对应的会议情况，确定与所收到的会议预定请求对应的建议会议信息，这里建议会议信息可以包括会议声音采集终端的终端标识、会议起始时间、会议持续时长，并生成相应的会议标识，再将会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，将所确定的建议会议信息存储为与所生成的会议标识对应的建议会议信息，以及将所生成的会议标识和所确定的建议会议信息返回发送会议预定请求的会议记录呈现终端。这样，参会人员可以在会议记录呈现终端中获取会议记录标识和相应的建议会议信息，并可以按照建议会议信息开始会议。

通过上述关于预定会议的可选实施方式，可以实现参会人员使用会议记录呈现终端提前预约会议。

下面参考图3，图3示出了根据本公开的会议声音采集方法的一个实施例的流程300。该会议声音采集方法可以应用于设置有麦克风阵列的会议声音采集终端。该流程300包括以下步骤：

步骤301，实时获取麦克风阵列采集的声音数据。

在本实施例中，步骤301的具体操作及其所产生的技术效果与图2a所示的实施例中步骤201的操作及效果基本相同，在此不再赘述。

步骤302，将声音数据发送给会议记录服务器。

在本实施例中，步骤302的具体操作及其所产生的技术效果与图2a所示的实施例中步骤202的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，步骤302也可以如下进行：将声音数据压缩后发送给会议记录服务器。

这里，声音数据可以用于触发会议记录服务器对声音数据进行人声分离，以及生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息的会议记录，并将所生成的各会议记录发送给会议声音采集终端对应的当前会议标识对应的各会议记录呈现终端，各会议记录用于触发收到各会议记录的会议记录呈现终端呈现各会议记录。

在一些可选的实施方式中，会议声音采集终端还可以设置有至少一个说话人方向指示灯；以及上述流程300还可以包括步骤303：

步骤303，对声音数据进行到来角估计。

步骤304，对于估计得到的每个到来角，按照预设的到来角与说话人方向指示灯标识之间的对应关系，确定与该到来角对应的说话人方向指示灯，以及将所确定的说话人方向指示灯打开第一预设时长。

这里，步骤303和步骤304的具体操作及其所产生的技术效果与图2a所示的实施例中步骤202a和步骤202b的操作及效果基本相同，在此不再赘述。

本公开的上述实施例提供的会议声音采集方法通过将从麦克风阵列实时采集的声音数据发送给会议记录服务器，实现了实时采集会议声音数据并发送给会议记录服务器进行处理，减轻了会议声音采集终端的计算处理负担。

进一步参考图4，图4示出了根据本公开的会议记录方法的一个实施例的流程400。该会议记录方法可以应用于会议记录服务器。该流程400包括以下步骤：

步骤401，接收会议声音采集终端发送的声音数据。

步骤402，对声音数据进行人声分离。

步骤403，生成分离后的每个分离声音数据对应的会议记录。

其中，每个分离声音数据对应的会议记录可以包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

步骤404，将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端。

这里，目标会议标识为发送声音数据的会议声音采集终端对应的当前会议标识。各会议记录可以用于触发收到各会议记录的会议记录呈现终端呈现各会议记录。

在本实施例中，步骤401、步骤402、步骤403和步骤404的具体操作及其所产生的技术效果与图2a所示的实施例中步骤203、步骤204、步骤205和步骤206的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，上述步骤402可以如下进行：对所收到的声音数据进行人声分离，生成预设数目个分离声音数据，其中，所生成的各分离声音数据分别与预设声源方向范围集合中各声源方向范围一一对应，预设声源方向范围集合中各声源方向范围互不重叠。

在一些可选的实施方式中，步骤403可以如下进行：对于所生成的每个分离声音数据，响应于确定该分离声音数据中存在有效语音，执行会议记录生成操作。其中，会议记录生成操作可以包括如图2b所示的子步骤2051到子步骤2054。具体请参考图2b所示的实施例中子步骤2051到子步骤2054的相关描述，在此不再赘述。

在一些可选的实施方式中，会议记录生成操作还可以包括图2b所示的子步骤2055。具体请参考图2b所示的实施例中子步骤2055的相关描述，在此不再赘述。

在一些可选的实施方式中，会议记录生成操作还可以包括图2b所示的子步骤2056。具体请参考图2b所示的实施例子步骤2056的相关描述，在此不再赘述。

基于上述子步骤2056的可选实施方式，在一些可选的实施方式中，上述子步骤2054也可以如下进行：用与目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。具体可参考图2b所示的实施例中子步骤2054的可选实施方式的相关描述。

基于上述子步骤2056的可选实施方式，在一些可选的实施方式中，上述子步骤2055也可以如下进行：用与目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与目标会议标识对应的历史会议记录。具体可参考图2b所示的实施例中子步骤2055的可选实施方式的相关描述。

在一些可选的实施方式中，图2b所示的子步骤2051也可以如下进行：首先，分别将该分离声音数据发送给语音识别服务器和声纹识别服务器。然后，分别将从语音识别服务器收到的识别结果和从声纹识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的识别文本和说话人身份信息。具体可参考图2b所示的实施例中子步骤2051的可选实施方式的相关描述。

在一些可选的实施方式中，上述会议记录服务器、语音识别服务器和声纹识别服务器中的至少一个可以根据安全和/或保密需求配置为私有部署服务器。具体可参考图2所示的实施例中相关可选实施方式的描述。

在一些可选的实施方式中，上述流程400还可以包括以下步骤405：

步骤405，响应于接收到会议记录呈现终端发送的说话内容文本更新请求，将说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

这里，说话内容文本更新请求可以是会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作而向会议记录服务器发送的，说话内容文本更新请求包括修改操作对应的修改后的说话内容文本以及修改操作所针对的历史会议记录的会议记录标识。

这里，步骤405的具体操作及其所产生的技术效果与图2c所示的实施例中步骤213的操作及效果基本相同，在此不再赘述。

实践中，对该分离声音数据进行语音识别一般是基于语音识别模型对该分离声音数据进行语音识别。为了提高语音识别的识别率，基于上述关于对说话内容文本进行更新的可选实施方式，在一些可选的实施方式中，上述时序400还可以包括以下步骤406：

步骤406，响应于确定满足预设语音识别模型更新条件，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新语音识别模型。

这里，步骤406的具体操作及其所产生的技术效果与图2c所示的实施例中步骤214的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，上述流程400还可以包括以下步骤407和步骤408：

步骤407，响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求，确定查阅人标识是否属于待查阅会议标识对应的参会人员标识集合。

步骤408，响应于确定属于，获取与待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送会议记录查阅请求的会议记录呈现终端。

这里，步骤407和步骤408的具体操作及其所产生的技术效果与图2c所示的实施例中步骤209和步骤210的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，上述流程400还可以包括以下步骤409：

步骤409，响应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求，生成会议标识，将会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送会议预定请求的会议记录呈现终端。

这里，步骤409的具体操作及其所产生的技术效果与图2c所示的实施例中步骤216的操作及效果基本相同，在此不再赘述。

本公开的上述实施例提供的会议记录方法通过对从会议声音采集终端收到的声音数据进行人声分离，并针对每个分离声音数据单独生成对应的会议记录，可以实现包括但不限于以下有益效果：

第一，提高所生成的会议记录中说话内容文本的准确率。

第二，会议记录中除了包括说话内容文本还包括说话人身份信息，丰富了会议记录的内容。

第三，提高所生成的会议记录中说话人身份信息的准确率。

另外，本公开的上述实施例中其他可选实现方式可以实现但不限于以下有益效果：

第一，通过在确定分离声音数据中存在有效语音的情况下才执行会议记录生成操作，减少了执行会议记录成成操作的次数，继而减少了计算负担。

第二，通过将分离声音数据分别发送给语音识别服务器进行语音识别以及发送给声纹识别服务器进行声纹识别，减少会议记录服务器的计算负担，提高生成会议记录的速度。

第三，通过将会议记录服务器、语音识别服务器和声纹识别服务器中的至少一个根据安全和/或保密需求配置为私有部署服务器，相比于目前广泛采用的在公有的服务器上实现语音识别以及会议记录而言，具有更高的安全性。

第四，通过图2b所示的会议记录生成操作，实现对正在进行的会议中开始新的讲话的每个人所讲内容(包括语音数据、说话内容文本和说话人身份信息)的实时更新。

第五，通过图2b所示的会议记录生成操作，对当前正在进行的会议，每检测到讲完一句话，就存储将上述所讲完的内容存储为与当前正在进行的会议相应的历史会议记录，以便未来对上述会议的历史会议记录进行查阅。

第六，通过针对分离声音数据所生成的会议记录中除了包括声音、说话内容文本以及说话人身份信息以外，还包括了说话起始时间，丰富了会议记录的记录内容。

第七，通过在所生成的历史会议记录中除了声音、说话内容文本以及说话人身份信息以外，还包括说话起始时间，丰富了历史会议记录的记录内容。

第八，通过在收到会议查阅请求的情况下，确认查阅人是否有查阅权限，提高了会议记录查阅的安全性。

第九，通过对提供用户对历史会议记录中识别错误的说话内容文本进行更新操作，实现对历史会议记录的精细化管理。

第十，通过在满足预设语音识别模型更新条件的情况下，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新语音识别模型，提高语音识别模型的识别准确率。

下面参考图5，图5示出了根据本公开的会议记录呈现方法的一个实施例的流程500。该会议记录呈现方法可以应用于会议记录呈现终端。该流程500包括以下步骤：

步骤501，响应于接收到会议记录服务器发送的会议记录，呈现所收到的会议记录。

其中，所收到的会议记录可以为会议记录服务器对从会议声音采集终端收到的声音数据进行人声分离后，针对分离后的每个分离声音数据所生成的对应的会议记录，每个分离声音数据对应的会议记录可以包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

在本实施例中，步骤501的具体操作及其所产生的技术效果与图2a所示的实施例中步骤207的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，步骤501也可以如下进行：对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。以及响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。上述可选实施方式的具体操作及其所产生的技术效果与图2a所示的实施例中步骤207的相应可选实施方式的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，从会议记录服务器收到的会议记录中还可以包括说话起始时间，这样，上述对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标，也可以如下进行：对应呈现以下至少一项：所收到的会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。即，除了呈现会议记录中的分离后声音数据、说话内容文本和说话人身份信息以外，还可以呈现相应的说话起始时间，进一步丰富了所呈现的会议记录内容。

在一些可选的实施方式中，上述流程500还可以包括以下步骤502和步骤503：

步骤502，响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录查阅请求，向会议记录服务器发送会议记录查阅请求。

这里，会议记录查阅请求可以用于触发会议记录服务器响应于确定查阅人标识属于待查阅会议标识对应的参会人员标识集合，获取与待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送会议记录查阅请求的会议记录呈现终端。

步骤503，响应于接收到会议记录服务器响应于会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

这里，步骤502和步骤503的具体操作及其所产生的技术效果与图2c所示的实施例中步骤208和步骤211的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，从会议记录服务器收到的历史会议记录中还可以包括说话起始时间，这样步骤503中呈现所收到的历史会议记录，可以如下进行：对应呈现以下至少一项：所收到的历史会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。即，除了呈现会议记录中的分离后声音数据关联的声音播放图标、说话内容文本和说话人身份信息以外，还可以呈现相应的说话起始时间，进一步丰富了所呈现的历史会议记录内容。以及响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。

在一些可选的实施方式中，上述流程500还可以包括以下步骤504：

步骤504，响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向会议记录服务器发送说话内容文本更新请求。

这里，说话内容文本更新请求可以包括上述修改操作对应的修改后的说话内容文本以及修改操作所针对的历史会议记录的会议记录标识。说话内容文本更新请求可以用于触发会议记录服务器将说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为说话内容文本更新请求中的说话内容文本。

这里，步骤504的具体操作及其所产生的技术效果与图2c所示的实施例中步骤212的操作及效果基本相同，在此不再赘述。

在一些可选的实施方式中，上述流程500还可以包括以下步骤505：

步骤505，响应于检测到用户输入的包括参会人员标识集合的会议预定请求，将会议预定请求发送给会议记录服务器。

这里，会议预定请求可以用于触发会议记录服务器生成会议标识，将会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送会议预定请求的会议记录呈现终端。

这里，步骤505的具体操作及其所产生的技术效果与图2c所示的实施例中步骤215的操作及效果基本相同，在此不再赘述。

本公开的上述实施例提供的会议记录呈现方法通过从会议记录服务器接收并呈现会议记录，相对于现有的会议记录呈现终端，可以实现包括但不限于以下有益效果：

第一，当多于一个人同时说话时，实现了将不同人说话的语音进行分离，在分离后语音的基础上生成相应的会议记录。避免多人说话的语音混杂问题。

第二，实时呈现每个人的语音、说话内容以及说话人身份。

第三，除了可以呈现会议中的语音和说话内容，还可以呈现说话人身份。

第四，因为是基于分离后声音数据生成会议记录，当多于一个人同时说话时，所呈现的说话内容和说话人身份信息更加准确。

另外，本公开的上述实施例中其他可选实现可以实现但不限于以下有益效果：

第一，可以在会议记录呈现终端上实现对历史会议记录中说话内容文本的修改，实现对历史会议记录的精细化管理。

第二，可以在会议记录呈现终端上实现查阅当前正在进行的会议或者已经结束的会议的历史会议记录。

第三，所呈现的会议记录或者历史会议记录中还可以包括说话起始时间，丰富了会议记录或者历史会议记录的内容。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种会议声音采集装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可以应用于会议声音采集终端中，会议声音采集终端中可以设置有麦克风阵列。

如图6所示，本实施例的会议声音采集装置600包括：声音数据获取单元601和声音数据发送单元602。其中，声音数据获取单元601，被配置成实时获取上述麦克风阵列采集的声音数据；而声音数据发送单元602，被配置成将上述声音数据发送给会议记录服务器，上述声音数据用于触发上述会议记录服务器对上述声音数据进行人声分离，以及生成分离后的每个分离声音数据对应的、包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息的会议记录，并将所生成的各会议记录发送给上述会议声音采集终端对应的当前会议标识对应的各会议记录呈现终端，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在本实施例中，会议声音采集装置600的声音数据获取单元601和声音数据发送单元602的具体处理及其所带来的技术效果可分别参考图3对应实施例中步骤301和步骤302的相关说明，在此不再赘述。

在一些可选的实施方式中，上述会议声音采集终端还可以设置有至少一个说话人方向指示灯；以及上述会议声音采集装置还包括：到来角估计单元603，被配置成对上述声音数据进行到来角估计；以及指示灯打开单元，被配置成对于估计得到的每个到来角，按照预设的到来角与说话人方向指示灯标识之间的对应关系，确定与该到来角对应的说话人方向指示灯，以及将所确定的说话人方指示灯打开第一预设时长。

在一些可选的实施方式中，上述声音数据发送单元602可以进一步被配置成：将上述声音数据压缩后发送给上述会议记录服务器。

需要说明的是，本公开提供的会议声音采集装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的相关说明，在此不再赘述。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种会议声音采集装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于会议记录服务器中。

如图7所示，本实施例的会议记录装置700包括：声音数据接收单元701、人声分离单元702、会议记录生成单元703和会议记录发送单元704。其中，声音数据接收单元701，被配置成接收会议声音采集终端发送的声音数据；人声分离单元702，被配置成对上述声音数据进行人声分离；会议记录生成单元703，被配置成生成分离后的每个分离声音数据对应的会议记录，其中，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息；而会议记录发送单元704，被配置成将所生成的各会议记录发送给目标会议标识对应的会议记录呈现终端，其中，上述目标会议标识为发送上述声音数据的会议声音采集终端对应的当前会议标识，各上述会议记录用于触发收到各上述会议记录的会议记录呈现终端呈现各上述会议记录。

在本实施例中，会议记录装置700的声音数据接收单元701、人声分离单元702、会议记录生成单元703和会议记录发送单元704的具体处理及其所带来的技术效果可分别参考图4对应实施例中步骤401、步骤402、步骤403和步骤404的相关说明，在此不再赘述。

在一些可选的实施方式中，上述人声分离单元702可以进一步被配置成：对所收到的声音数据进行人声分离，生成预设数目个分离声音数据，其中，所生成的各分离声音数据分别与预设声源方向范围集合中各声源方向范围一一对应，上述预设声源方向范围集合中各声源方向范围互不重叠。

在一些可选的实施方式中，上述会议记录生成单元703可以进一步被配置成：对于所生成的每个分离声音数据，响应于确定该分离声音数据中存在有效语音，执行以下会议记录生成操作：分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息；响应于确定该分离声音数据为语音起点，新建与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本；将所得到的识别文本拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前说话文本的尾部，以及将该分离声音数据拼接到与上述目标会议标识和所得到的说话人身份信息对应的当前语音的尾部；用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录。

在一些可选的实施方式中，上述会议记录生成操作还可以包括：响应于确定该分离声音数据为语音尾点，用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录。

在一些可选的实施方式中，上述会议记录装置还可以包括：说话内容文本更新单元705，被配置成响应于接收到会议记录呈现终端发送的说话内容文本更新请求，其中，上述说话内容文本更新请求是上述会议记录呈现终端响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作而向上述会议记录服务器发送的，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述对该分离声音数据进行语音识别，可以包括：基于语音识别模型对该分离声音数据进行语音识别；以及上述会议记录装置还可以包括：语音识别模型更新单元706，被配置成响应于确定满足预设语音识别模型更新条件，基于所存储的历史会议记录中修改过说话内容文本的历史会议记录中的声音数据和对应的说话内容文本更新上述语音识别模型。

在一些可选的实施方式中，上述会议记录生成操作还可以包括：响应于确定该分离声音数据为语音起点，将当前时间确定为与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间。

在一些可选的实施方式中，上述用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录，可以包括：用与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成与该分离声音数据对应的会议记录；和/或上述用与上述目标会议标识和所得到的说话人身份信息对应的当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录，可以包括：用与上述目标会议标识和所得到的说话人身份信息对应的说话起始时间、当前语音和当前说话文本以及所确定的说话人身份信息生成历史会议记录，以及将所生成的历史会议记录存储为与上述目标会议标识对应的历史会议记录。

在一些可选的实施方式中，上述分别对该分离声音数据进行语音识别和声纹识别，得到识别文本和说话人身份信息，可以包括：分别将该分离声音数据发送给语音识别服务器和声纹识别服务器，其中，该分离声音数据用于触发上述语音识别服务器对收到的声音数据进行语音识别并返回识别结果，以及用于触发上述声纹识别服务器对收到的声音数据进行声纹识别并返回识别结果；分别将从上述语音识别服务器收到的识别结果和从上述声纹识别服务器收到的识别结果确定为对该分离声音数据进行语音识别和声纹识别所得到的识别文本和说话人身份信息。

在一些可选的实施方式中，上述会议记录服务器、上述语音识别服务器和上述声纹识别服务器中的至少一个可以根据安全和/或保密需求配置为私有部署服务器。

在一些可选的实施方式中，上述会议记录装置还可以包括：查阅人标识确定单元707，被配置成响应于接收到会议记录呈现终端发送的包括待查阅会议标识和查阅人标识的会议记录查阅请求，确定上述查阅人标识是否属于上述待查阅会议标识对应的参会人员标识集合；历史会议记录获取及发送单元，被配置成响应于确定属于，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端。

在一些可选的实施方式中，上述会议记录装置还可以包括：会议预定单元708，被配置成响应于接收到会议记录呈现终端发送的包括参会人员标识集合的会议预定请求，生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

需要说明的是，本公开提供的会议记录装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明，在此不再赘述。

下面参考图8，作为对上述各图所示方法的实现，本公开提供了一种会议记录呈现装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于会议记录呈现终端中。

如图8所示，本实施例的会议记录呈现装置800包括：会议记录呈现单元801，被配置成响应于接收到会议记录服务器发送的会议记录，呈现所收到的会议记录，其中，所收到的会议记录为上述会议记录服务器对从会议声音采集终端收到的声音数据进行人声分离后，针对分离后的每个分离声音数据所生成的对应的会议记录，每个分离声音数据对应的会议记录包括该分离声音数据以及该分离声音数据对应的说话内容文本和说话人身份信息。

在本实施例中，会议记录呈现装置会议记录呈现单元801的具体处理及其所带来的技术效果可分别参考图5对应实施例中步骤501的相关说明，在此不再赘述。

在一些可选的实施方式中，上述会议记录呈现装置还可以包括：会议记录查阅请求发送单元802，被配置成响应于检测到用户输入的包括待查阅会议标识和查阅人标识的会议记录查阅请求，向会议记录服务器发送上述会议记录查阅请求，其中，上述会议记录查阅请求用于触发上述会议记录服务器响应于确定上述查阅人标识属于上述待查阅会议标识对应的参会人员标识集合，获取与上述待查阅会议标识对应的历史会议记录，以及将所获取的历史会议记录发送给发送上述会议记录查阅请求的会议记录呈现终端；历史会议记录接收及呈现单元，被配置成响应于接收到上述会议记录服务器响应于上述会议记录查阅请求而发送的历史会议记录，呈现所收到的历史会议记录。

在一些可选的实施方式中，上述会议记录呈现装置还可以包括：说话内容文本更新请求发送单元803，被配置成响应于检测到针对所呈现的历史会议记录中说话内容文本的修改操作，向上述会议记录服务器发送说话内容文本更新请求，其中，上述说话内容文本更新请求包括上述修改操作对应的修改后的说话内容文本以及上述修改操作所针对的历史会议记录的会议记录标识，上述说话内容文本更新请求用于触发上述会议记录服务器将上述说话内容文本更新请求中的会议记录标识对应的历史会议记录中的说话内容文本更新为上述说话内容文本更新请求中的说话内容文本。

在一些可选的实施方式中，上述呈现所收到的会议记录，可以包括：对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标；响应于检测到针对所显示的声音播放图标的预设操作，播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据。

在一些可选的实施方式中，上述播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，可以包括：播放所检测到的预设操作所针对的声音播放图标所关联的分离后声音数据，以及在播放过程中显示与上述播放过程对应的播放进度指示信息。

在一些可选的实施方式中，会议记录还可以包括说话起始时间；以及上述对应呈现以下至少一项：所收到的会议记录中的说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标，可以包括：对应呈现以下至少一项：所收到的会议记录中的说话起始时间、说话内容文本、说话人身份信息和与所收到的会议记录中的分离后声音数据关联的声音播放图标。

在一些可选的实施方式中，上述会议记录呈现装置还可以包括：会议预定请求发送单元804，被配置成响应于检测到用户输入的包括参会人员标识集合的会议预定请求，将上述会议预定请求发送给上述会议记录服务器，其中，上述会议预定请求用于触发上述会议记录服务器生成会议标识，将上述会议预定请求中的参会人员标识集合存储为与所生成的会议标识对应的参会人员标识集合，以及将所生成的会议标识返回发送上述会议预定请求的会议记录呈现终端。

需要说明的是，本公开提供的会议记录装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明，在此不再赘述。

下面参考图9，其示出了适于用来实现本公开的会议声音采集终端的计算机系统900的结构示意图。图9示出的会议声音采集终端仅仅是一个示例，不应对本公开的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(centralprocessingunit，cpu)901、存储器902、总线903、输入/输出(i/o，input/output)接口904、输入单元905和通信单元906。其中，中央处理单元901、存储器902和i/o接口904通过总线903彼此相连。输入单元905和通信单元906通过i/o接口904连接至总线903。输入单元905可以包括麦克风阵列。以下部件也连接至i/o接口904：包括诸如lan(局域网，localareanetwork)卡、调制解调器、wifi模块、移动网络模块等网络接口卡的通信单元906。通信单元906经由诸如因特网的网络执行通信处理。

在一些可选的实施方式中，输入单元905还可以包括例如触控屏、键盘、信息输入按钮等。

在一些可选的实施方式中，计算机系统900还可以包括输出单元907，输出单元907也连接至i/o接口904。输出单元907可以包括例如说话人方向指示灯或者工作状态指示灯等。

在此，根据本公开的方法可以被实现为计算机程序，并且存储在存储器902中。会议声音采集终端900中的中央处理单元901通过调用存储器902中存储的上述计算机程序，来具体实现本公开的方法中限定的会议声音采集功能。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元906从网络上被下载和安装。在该计算机程序被中央处理单元(cpu)901执行时，执行本公开的方法中限定的上述功能。

这里，cpu901可以包括至少一个处理器，而处理器例如可以是各种微处理器。

在一些可选的实施方式中，处理器可以包括用于控制会议声音采集终端操作的专门设计的硬件。例如，处理器可以是专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程逻辑门阵列(fieldprogrammablegatearray，fpga)，带电可擦除可编程只读存储器(electricallyerasableprogrammablereadonlymemory，eeprom)等。

在一些可选的实施方式中，存储器902也可以是中央处理单元901的组成部分。存储器902可以以多种方式耦合到计算机系统900。存储器902可以用于实现各种目的，例如：高速缓存和/或存储数据以及程序指令等。

这里“处理器”并不仅仅限定于现有技术中称为处理器的各种集成电路，而是可以泛指微控制器、微计算机、可编程逻辑控制器、专用集成电路和任何其他可编程电路。

下面参考图10，其示出了适于用来实现本公开的会议记录服务器或者会议记录呈现终端的计算机系统1000的结构示意图。图10示出的会议记录服务器或者会议记录呈现终端仅仅是一个示例，不应对本公开的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(cpu，centralprocessingunit)1001，其可以根据存储在只读存储器(rom，readonlymemory)1002中的程序或者从存储部分1006加载到随机访问存储器(ram，randomaccessmemory)1003中的程序而执行各种适当的动作和处理。在ram1003中，还存储有系统1000操作所需的各种程序和数据。中央处理单元1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o，input/output)接口1005也连接至总线1004。

以下部件连接至i/o接口1005：包括诸如lan(局域网，localareanetwork)卡、调制解调器等的网络接口卡的通信部分1007以及包括硬盘等的存储部分1006。通信部分1007经由诸如因特网的网络执行通信处理。

在一些可选的实施方式中，计算机系统1000还可以包括输入部分1008和/或输出部分1009。输入部分1008连接至i/o接口1005，输入部分1008可以包括例如键盘、鼠标、触控屏、触控笔、手写板等。输出部分1009连接至i/o接口1005，输出部分1009可以包括诸如阴极射线管(crt，cathoderaytube)、液晶显示器(lcd，liquidcrystaldisplay)、触控屏等以及扬声器等。

在一些可选的实施方式中，计算机系统1000还可以包括驱动器1010，驱动器1010也根据需要连接至i/o接口1005。

在一些可选的实施方式中，计算机系统1000还可以包括可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1006。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1007从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元1001执行时，执行本公开的方法中限定的上述功能。

需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++、python，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括声音数据接收单元、人声分离单元、会议记录生成单元和会议记录发送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，声音数据接收单元还可以被描述为“接收会议声音采集终端发送的声音数据的单元”。又例如，可以描述为：一种处理器包括会议记录呈现单元。还例如，可以描述为：一种处理器包括声音数据获取单元和声音数据发送单元。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置实现图3及图3中可选实施方式示出的会议声音采集方法，和/或图4及图4中可选实施方式示出的会议记录方法，和/或图5及图5中可选实施方式示出的会议记录呈现方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除