信息处理方法、装置、系统、电子设备及存储介质与流程

2021-01-28 12:01:35|

320|

起点商标网

[0001]
本申请的实施例涉及人工智能技术领域，具体涉及语音识别、语音合成和自然语言处理技术领域，尤其涉及信息处理方法和装置。

背景技术：

[0002]
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层而的技术也有软件层而的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]
随着人工智能的发展，利用线上音视频会议服务成为企业中日常会议的主流。在实际场景中，用户若遗漏了一场会议期望后续可以查看会议内容或者一场重要会议参与人需要回顾会议关键信息等，使得会议记录功能成为音视频会议软件的重要能力。
[0004]
现阶段音视频会议的录制场景中，录制软件采用仅录制语音保存音频或者将语音转换成整段文字的形式，如果同一时间，有多人在说话，录音效果就会比较差，并且语音转换成的文字也会很乱。因此需要一种能够向用户提供更符合会议场景，方便用户快速回顾会议信息、识别会议角色的会议记录方式。

技术实现要素：

[0005]
本申请提供了一种信息处理方法、装置、系统、设备以及存储介质，涉及人工智能技术领域，具体涉及语音识别、语音合成和自然语言处理技术领域。
[0006]
根据本申请的第一方面，提供了一种信息处理方法，该方法包括：接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻；将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息；响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，其中，合并操作用于表征将相同角色标识的文本信息进行合并；响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，其中，整合操作用于表征按照角色标识和起始时刻将各个第一文本进行排列组合。
[0007]
根据本申请的第二方面，提供了一种信息处理系统，系统包括：客户端和服务器端，其中，客户端，用于响应于接收到信息处理请求，采集各个角色不同时刻的音频数据；将音频数据发送至服务器端；响应于接收到服务器端发送的第二文本，基于各个角色标识和相应的各个起始时刻，展示第二文本；服务器端用于执行上述任意一项的信息处理方法。
[0008]
根据本申请的第三方面，提供了一种信息处理装置，装置包括：接收单元，被配置成接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数
据的角色标识和与角色标识相对应的各个音频数据的起始时刻；转换单元，被配置成将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息；合并单元，被配置成响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，其中，合并操作用于表征将相同角色标识的文本信息进行合并；信息处理单元，被配置成响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，其中，整合操作用于表征按照角色标识和起始时刻将各个第一文本进行排列组合。
[0009]
根据本申请的第四方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0010]
根据本申请的第五方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0011]
应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]
附图用于更好地理解本方案，不构成对本申请的限定。
[0013]
图1是根据本申请的信息处理方法的一个实施例的示意图；
[0014]
图2是可以实现本申请实施例的信息处理方法的场景图；
[0015]
图3是根据本申请的信息处理方法的又一个实施例的示意图；
[0016]
图4是根据本申请的信息处理系统的一个实施例的结构示意图；
[0017]
图5是根据本申请的信息处理方法展示于用户的界面示意图；
[0018]
图6是根据本申请的信息处理装置的一个实施例的结构示意图；
[0019]
图7是用来实现本申请实施例的信息处理方法的电子设备的框图。
具体实施方式
[0020]
以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0021]
需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0022]
图1示出了根据本申请的信息处理方法的一个实施例的示意图100。该信息处理方法，具体包括以下步骤：
[0023]
步骤101，接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻。
[0024]
在本实施例中，当执行主体(例如服务器或云平台)接收到客户端发送的信息处理
请求，可以通过有线连接方式或者无线连接方式接收各个客户端发送的对应角色的音频数据流，然后通过对各个音频数据进行内容解析或者利用各个音频数据查询数据库，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻。在该实施例中，客户端可以通过监听用户发出的会议记录事件(例如，预定的按钮\菜单或设置的快捷键被点击\触发的事件)，接收用户的会议记录指示，并基于会议记录指示，生成信息处理请求并发送。每个角色可以表示会议软件中注册的每个发言人账号。每个角色的音频数据可以表征会议场景中每个角色不同时刻发言的音频数据。不同时刻的音频数据可以根据预设时长，对音频数据的时间间隔是否大于预设阈值进行判断而得到，比如判定同一角色长时间发言中停顿时长超过5秒则进行分段，即为下一时刻音频数据，或者同一角色发言时长持续60秒，则该角色发言中停顿时长超过2秒则进行分段。需要指出的是，上述无线连接方式可以包括但不限于3g、4g、5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
[0025]
步骤102，将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息。
[0026]
在本实施例中，执行主体可以根据语音转译方法，将步骤101中接收到的不同角色的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息。
[0027]
步骤103，响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本。
[0028]
在本实施例中，当执行主体接收到合并操作指令，并且确定合并不满足合并停止条件后，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本。合并操作用于表征将相同角色标识的文本信息进行合并，合并停止条件可以预先设定。这里，合并停止条件可以基于合并时长和/或合并文本的大小来设定，例如当合并的时长达到60分钟则判为满足合并停止条件，和/或当合并文本的大小(即各个第一文本的大小总和)超过预设阈值则判为满足合并停止条件，合并停止条件还可以基于用户触发的操作按扭来判定，即当用户通过点击操作按钮终止合并操作指令时，则判为满足合并停止条件。
[0029]
步骤104，响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本。
[0030]
在本实施例中，当执行主体确定合并满足合并停止条件，将各个第一文本进行整合，生成与各个第一文本相对应的第二文本。整合操作用于表征按照角色标识和起始时刻将各个第一文本进行排列组合。
[0031]
继续参见图2，本实施例的信息处理方法200运行于电子设备201中。当电子设备201接收到信息处理请求，电子设备201首先接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻202，然后电子设备201将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息203，当电子设备201接收到合并操作指令且不满足合并停止条件时，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本204，当电子设备201满足合并停止条件后，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本205，并将第二文本发送至各个客
户端或指定客户端。
[0032]
本申请的上述实施例提供的信息处理方法通过接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻，将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息，响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，实现了一种针对多个客户端中不同角色的音频数据进行接收和转换，再经过文本整合确定发送信息的方法。通过分别接收各个客户端不同角色的音频数据，根据不同的角色进行声音采集和处理，避免了现有技术中若同一时间多人在线说话，录音效果比较差的问题，通过分角色采集、分角色转换音频，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息，避免了现有技术中语音转换文字较混乱的问题。该方法在会议场景下，能够实现会议内容的可视化，通过将会议音频转换成文本的形式发送给客户端，以用于将文本信息呈现给用户，方便用户有条理且快速地回顾会议内容，节约了用户的查询时间，提升了用户的阅读体验。
[0033]
进一步参考图3，其示出了信息处理方法的又一个实施例的示意图300。方法的流程包括以下步骤：
[0034]
步骤301，接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻。
[0035]
步骤302，将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息。
[0036]
步骤303，响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，将所有音频数据进行组合操作，生成与所有音频数据相对应的第一音频数据。
[0037]
在本实施例中，当执行主体接收到合并操作指令且确定合并不满足合并停止条件后，可以将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，同时将所有音频数据进行组合操作，生成与所有音频数据相对应的第一音频数据。组合操作用于表征按照每个音频数据的起始时刻将所有音频数据进行排序。
[0038]
在本实施例的一些可选的实现方式中，合并操作指令基于接收到客户端发送的相同角色的音频数据流而触发；或合并操作指令基于当前时间点超过预设阈值所规定的时间点而触发。通过设置各种合并操作指令的触发条件，实现灵活多样的文本合并，满足系统及用户的各种需求，同时提升系统效率。
[0039]
步骤304，根据各个音频数据的时长，确定与角色标识对应的音频总时长。
[0040]
在本实施例中，执行主体可以根据各个音频数据的时长，确定与角色标识对应的音频总时长。其中，音频总时长用于表征在一定时间周期内相同角色标识的各个音频数据的累计时长。
[0041]
步骤305，响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，并将第二文本、第一音频数据和音频总时长发送至各个客户端或指定客户端。
[0042]
在本实施例中，当执行主体确定合并满足合并停止条件后，可以将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，然后将第二文本、步骤303中生成的第一音频数据和步骤304中确定的音频总时长发送至各个客户端或指定客户端，以便显示给用户所用。
[0043]
需要说明的是，上述条件判断和数据整合方法是目前广泛研究和应用的公知技术，在此不再赘述。
[0044]
在本实施例中，步骤301和302的具体操作与图1所示的实施例中的步骤101和102的操作基本相同，在此不再赘述。
[0045]
从图3中可以看出，与图1对应的实施例相比，本实施例中的信息处理方法的示意图300采用响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，并将所有音频数据进行组合操作，生成与所有音频数据相对应的第一音频数据，根据各个音频数据的时长，确定与角色标识对应的音频总时长，响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，并将第二文本、第一音频数据和音频总时长发送至各个客户端或指定客户端，解决了现有第三方软件的只能录制本地机器的声音，对于会议中其他终端传输的声音易出现漏音、叠音、降音等情况的问题，实现了更加丰富的信息传输，以便向用户展示包括音频、文字和音频相关信息等更加全面多样的信息。
[0046]
进一步参看图4，本申请提供了一种信息处理系统，如图400所示，该信息处理系统包括：客户端401和服务器端402，其中，客户端，用于响应于接收到信息处理请求，采集各个角色不同时刻的音频数据，将音频数据发送至服务器端，响应于接收到服务器端发送的第二文本，基于各个角色标识和相应的各个起始时刻，展示第二文本，参见图5所示；服务器端用于执行上述的信息处理方法。具体说明，在进行文本展示的过程中，若同一时间段有多人发言，则按照发言时间靠前的原则排序，若多人发言的开始时间一致，则按照发言人的名称首字母、数字排序。
[0047]
在系统中，客户端，还用于响应于接收到服务器端发送的第一音频数据，展示第一音频数据对应的语音图。当客户端接收到服务器端发送的第一音频数据，可以向用户展示第一音频数据对应的语音图，参见图5所示。
[0048]
在系统中，客户端，还用于响应于接收到对语音图触发的播放操作，获取播放操作对应的音频数据，并根据音频数据，确定与音频数据相对应的各个角色标识、与角色标识相对应的各个起始时刻和与角色标识和起始时刻相对应的各个文本信息；响应于接收到对展示的第二文本触发的选取操作，获取选取操作对应的第二文本中的文本信息，并根据第二文本中的文本信息，确定与文本信息相对应的音频数据；将音频数据所表征的语音进行播放，并响应于语音对应的文本信息位于当前页，展示与语音相对应的各个文本信息。实现了当同一时间，多人说话时，可以同时进行多人文字定位并逐字高亮显示。通过文本与语音互相定位，在播放语音过程中，文本会随着语音播放自动滚动，文本随着语音播放逐字高亮显示。
[0049]
在系统中，客户端，还用于响应于检测到语音对应的文本信息不位于当前页，显示跳转按钮。解决了目前整段文字堆积显示，用户不能方便快速的识别定位到关键信息，播放语音时用户需要高度关注对应的文本信息，耗费精力，阅读性差的问题，提升了识别定位关
键信息的效率。
[0050]
在系统中，客户端，还用于响应于接收到服务器端发送的与角色标识对应的音频总时长，基于角色标识，展示音频总时长。实现了更加丰富多样的信息展示，以满足用户的不同需求。
[0051]
在系统中，客户端，还用于根据第二文本和会议纪要模板，生成第二文本对应的会议纪要，参见图5所示。通过文本合并和文本整合，将整场会议所有发言人的文本合并后还原成完整的会议内容，以使用户可以根据所需滚动浏览、查找文本，采用发言人、发言时间加发言内容的展示形式让用户更清晰、有条理的阅读会议内容，节约用户精力，提升阅读体验。
[0052]
从图4中可以看出，该信息处理系统解决了目前整段文字堆积显示，用户不能方便快速的识别定位到关键信息的问题，用户可以直接复制文本内容或摘取会议关键信息，来撰写相关文档(例如会议纪要)，提高了文档撰写效率。同时显示文本和语音图，实现了更加丰富的信息展示，进一步满足用户的多种需求。
[0053]
进一步参考图6，作为对上述图1～3所示方法的实现，本申请提供了一种信息处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0054]
如图6所示，本实施例的信息处理装置600包括：接收单元601、转换单元602、合并单元603和信息处理单元604，其中，接收单元，被配置成接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻；转换单元，被配置成将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息；合并单元，被配置成响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，其中，合并操作用于表征将相同角色标识的文本信息进行合并；信息处理单元，被配置成响应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，其中，整合操作用于表征按照角色标识和起始时刻将各个第一文本进行排列组合。
[0055]
在本实施例中，信息处理装置600的接收单元601、转换单元602、合并单元603和信息处理单元604的具体处理及其所带来的技术效果可分别参考图1对应的实施例中的步骤101到步骤104的相关说明，在此不再赘述。
[0056]
在本实施例的一些可选的实现方式中，合并单元的合并操作指令基于接收到客户端发送的相同角色的音频数据流而触发；或合并单元的合并操作指令基于当前时间点超过预设阈值所规定的时间点而触发。
[0057]
在本实施例的一些可选的实现方式中，装置还包括：信息发送单元，被配置成将第二文本发送至各个客户端或指定客户端。
[0058]
在本实施例的一些可选的实现方式中，装置还包括：生成单元，被配置成响应于接收到合并操作指令且不满足合并停止条件，将所有音频数据进行组合操作，生成与所有音频数据相对应的第一音频数据，其中，组合操作用于表征按照每个音频数据的起始时刻将所有音频数据进行排序；信息发送单元进一步被配置成响应于满足合并停止条件，将第一音频数据发送至各个客户端或指定客户端。
[0059]
在本实施例的一些可选的实现方式中，装置还包括：确定单元，被配置成根据各个音频数据的时长，确定与角色标识对应的音频总时长，其中，音频总时长用于表征在一定时间周期内相同角色标识的各个音频数据的累计时长；信息发送单元进一步被配置成响应于满足合并停止条件，将音频总时长发送至各个客户端或指定客户端。
[0060]
如图7所示，是根据本申请实施例的信息处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0061]
如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
[0062]
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的信息处理方法。
[0063]
存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的信息处理方法对应的程序指令/模块(例如，附图6所示的接收单元601、转换单元602、合并单元603和信息处理单元604)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的信息处理方法。
[0064]
存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据信息处理电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至信息处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0065]
信息处理方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。
[0066]
输入装置703可接收输入的数字或字符信息，以及产生与信息处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示
杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
[0067]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0068]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0069]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0070]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前侧部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前侧部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0071]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0072]
根据本申请实施例的技术方案，通过接收各个客户端发送的对应角色的音频数据流，并根据各个音频数据，确定各个音频数据的角色标识和与角色标识相对应的各个音频数据的起始时刻，将接收到的各个音频数据进行转换，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息，响应于接收到合并操作指令且不满足合并停止条件，将所有文本信息进行合并操作，生成与角色标识和起始时刻相对应的各个第一文本，响
应于满足合并停止条件，将各个第一文本进行整合操作，生成与各个第一文本相对应的第二文本，实现了一种针对多个客户端中不同角色的音频数据进行接收和转换，再经过文本整合确定发送信息的方法。通过分别接收各个客户端不同角色的音频数据，根据不同的角色进行声音采集和处理，避免了现有技术中若同一时间多人在线说话，录音效果比较差的问题，通过分角色采集、分角色转换音频，生成与音频数据的角色标识和音频数据的起始时刻相对应的各个文本信息，避免了现有技术中语音转换文字较混乱的问题。该方法在会议场景下，能够实现会议内容的可视化，通过将会议音频转换成文本的形式发送给客户端，以用于将文本信息呈现给用户，方便用户有条理且快速地回顾会议内容，节约了用户的查询时间，提升了用户的阅读体验。
[0073]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。
[0074]
上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。