机器同声传译输出音频动态合成方法、装置以及设备与流程

2021-01-28 12:01:02|

215|

起点商标网

本发明涉及同声传译领域，尤其涉及一种机器同声传译输出音频动态合成方法、装置以及设备。

背景技术：

在经济全球化大背景下，国际性、多语种交流日趋频繁，在国际性会议交流中，同声传译成为当今世界普遍流行的翻译方式。当前，在国际性会议、大型正式会议以及非正式会议中，同传翻译需求量巨大，并且对同传行业内的从业人员的专业性和学术性要求较高，且产出效率相对较低，同时工作量较大，导致人工同传成本昂贵，与市场供求关系不匹配；另外，由于同传的高门槛，高阶同传译员需具备扎实的语言功底、成熟的会议经验等，短期内难以迅速复制。

随着智能语音技术的不断发展，语音识别和机器翻译取得长足的技术进步，因而目前本领域也在尝试采用语音转写、机器翻译以及语音合成技术搭建机器同传系统以解决当前会展市场高水平人工同传极其缺乏的问题。

但是，通过语音识别、机器翻译和语音合成实现的同步传译应用，对于众多会议场景的特定受众而言，还存在诸多亟待解决的问题，例如语音识别易受环境影响导致识别准确率低，进一步使得机器翻译结果不尽如人意。

另外，将机器翻译译文进行语音合成进行音频输出时并不流畅，时断时续。尤其地，本发明关注到同传合成语音与会议现场的原声会出现较大的延时，且这种延时会随着发言长度形成累积效应，当延迟较为明显时，同传听众难以与发言人形成及时的呼应，发言内容、演讲人员的情绪会与听众的反应和互动发生脱节，导致会议发言效果大大降低，参会人员也难以获得较佳的同传收听体验。

技术实现要素：

鉴于上述，本发明旨在提供一种机器同声传译输出音频动态合成方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，用以针对特定的同声传译场景下的特定问题，实现对输出的译文音频进行动态调整及合成，从而提升机器同传的输出效果。

本发明采用的技术方案如下：

第一方面，本发明提供了一种机器同声传译输出音频动态合成方法，包括：

根据采集到的当前同声传译场景信息以及既定规则，判定是否需要调节合成音频语速；

若需要，则实时获取当前原声语句的第一时长，并预估相应于当前原声语句的译文文本合成音频后的第二时长；

求取所述第一时长与所述第二时长之间的时差，并统计本次同传阶段的累积时差；

根据所述时差和/或所述累积时差与对应的预设容忍度的关系，实时调整翻译策略和/或确定语速调节增益参数；

根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。

在其中至少一种可能的实现方式中，所述当前同声传译场景信息包括以下一种或多种：

当前原始语种类型以及翻译方向；

发言人的个性化信息；以及

当前原声语句的发音层面特征。

在其中至少一种可能的实现方式中，所述调整翻译策略包括：

对当前原声语句进行二次翻译：采用与在先译文文本不同的用词和/或语法，改变二次翻译后的译文文本的长度。

在其中至少一种可能的实现方式中，所述确定语速调节增益参数包括：

根据同声传译场景预先搜集相应的语料；

利用所述语料进行延时分析，并确定预设增益参数；

基于所述时差和/或所述累积时差与预设容忍度的比例关系，选择所述预设增益参数或所述比例关系作为所述语速调节增益参数。

在其中至少一种可能的实现方式中，所述方法还包括：

根据所述语速调节增益参数，或者所述语速调节增益参数和所述当前同声传译场景信息，确定当前输出音频的发音调节参数；

结合所述发音调节参数对当前译文文本进行合成处理。

在其中至少一种可能的实现方式中，根据所述当前同声传译场景信息，确定当前输出音频的发音调节参数包括：

根据当前原声语句的响度，获得当前输出音频的响度调节参数；和/或

结合当前原声语句，对当前译文文本进行情感分析；

根据情感分析结果，获得当前输出音频的语气调节参数。

在其中至少一种可能的实现方式中，所述根据当前原声语句的响度，获得当前输出音频的响度调节参数包括：

持续获得当前原声语句的每一音频帧的原始音量值；

基于所述原始音量值，计算各所述音频帧的音量差值；

结合当前输出音频的预设默认响度以及所述音量差值，确定当前输出音频的音量调节参数。

第二方面，本发明提供了一种机器同声传译输出音频动态合成装置，包括：

语速调节决策模块，用于根据采集到的当前同声传译场景信息以及既定规则，判定是否需要调节合成音频语速；

音频时长计算模块，用于当所述语速调节决策模块输出为是时，实时获取当前原声语句的第一时长，并预估相应于当前原声语句的译文文本合成音频后的第二时长；

延时计算模块，用于求取所述第一时长与所述第二时长之间的时差，并统计本次同传阶段的累积时差；

语速调节参数确定模块，用于根据所述时差和/或所述累积时差与对应的预设容忍度的关系，实时调整翻译策略和/或确定语速调节增益参数；

语音合成模块，用于根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。

在其中至少一种可能的实现方式中，所述当前同声传译场景信息包括以下一种或多种：

当前原始语种类型以及翻译方向；

发言人的个性化信息；以及

当前原声语句的发音层面特征。

在其中至少一种可能的实现方式中，所述语速调节参数确定模块包括：调整翻译策略单元，所述调整翻译策略单元具体包括：

二次翻译组件，用于对当前原声语句进行二次翻译：采用与在先译文文本不同的用词和/或语法，改变二次翻译后的译文文本的长度。

在其中至少一种可能的实现方式中，所述语速调节参数确定模块具体包括：

语料获取单元，用于根据同声传译场景预先搜集相应的语料；

增益参数单元，用于利用所述语料进行延时分析，并确定预设增益参数；

语速调节参数选择单元，用于基于所述时差和/或所述累积时差与预设容忍度的比例关系，选择所述预设增益参数或所述比例关系作为所述语速调节增益参数。

在其中至少一种可能的实现方式中，所述装置还包括：

发音调节参数确定模块，用于根据所述语速调节增益参数，或者所述语速调节增益参数和所述当前同声传译场景信息，确定当前输出音频的发音调节参数；

所述语音合成模块还用于，结合所述发音调节参数对当前译文文本进行合成处理。

在其中至少一种可能的实现方式中，所述发音调节参数确定模块包括：

响度调节单元，用于根据当前原声语句的响度，获得当前输出音频的响度调节参数；和/或

语气调节单元，所述语气调节单元具体包括：

情感分析组件，用于结合当前原声语句，对当前译文文本进行情感分析；

语气调节参数获取组件，用于根据情感分析结果，获得当前输出音频的语气调节参数。

在其中至少一种可能的实现方式中，所述响度调节单元包括：

原声音量获取组件，用于持续获得当前原声语句的每一音频帧的原始音量值；

原声音量差计算组件，用于基于所述原始音量值，计算各所述音频帧的音量差值；

音量调节参数确定组件，用于结合当前输出音频的预设默认响度以及所述音量差值，确定当前输出音频的音量调节参数。

第三方面，本发明提供了一种机器同声传译输出音频动态合成设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于在合成音频时引入语速调节因子，尽量缩短机器同传生成的合成音频与原始发言语音的延迟，具体方案是从当前同声传译场景出发，基于既定规则先明确是否需要调节合成音频语速，在认为有必要进行语速干预时，实时获取当前的原声语句时长及相应译文文本可能的时长，并求取二者之差以及同传至现阶段的累积时差，接着考察当前语句的时差和/或累积时差与分别对应的预设容忍度的关系，由此动态地进行翻译策略的调整和/或确定出语速调节增益参数，这里即包含了两个调节手段，一种是直接干预译文文本，另一种是不干预译文文本而为当前译文文本附带上语速变化系数，最后根据这两种不同的手段进行语音合成处理。本发明结合了特定的场景信息作为触发调节合成音频的条件，并利用不同层面的干预方式，实现了对当前输出音频进行动态语速调节，从而解决了机器同传的延时问题，有效提升机器同传的输出效果。

进一步地，考虑到参会人员的听感，在本发明的其他实施方式中，还考虑对输出音频进行发音层面的调节，一方面可以获得与原始语音更为接近的表达方式，另一方面也可以辅佐前述语速调节策略，改善因语速调节可能导致的欠佳听感。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的机器同声传译输出音频动态合成方法的实施例的流程图；

图2本发明提供的获得响度调节参数方法的实施例的流程图；

图3为本发明提供的机器同声传译输出音频动态合成装置的实施例的方框图；

图4为本发明提供的机器同声传译输出音频动态合成设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明具体方案进行说明前，首先介绍一下本发明创造的设计过程。如前文介绍，机器同传限于同声传译场景以及所采用的各相关技术，延时问题比较明显。同声传译场景的特点是，随着发言人持续输出语句，实时地实现翻译后的音频输出，而不是交替传译那种发言人讲一句等翻译后再讲一句，这就使得同声传译场景本身就自带延迟；而发明人分析认为导致合成的输出音频延时更为凸显的主要原因在于语种差异、发言人的个人特点和表达方式。这其中语种差异是较为关键的因素，不同语种之间的饱和度多有不同，当发言人的语音转换成原始文本之后，机器将原始文本翻译为译文文本，此时，大多会出现译文与原文的长度不一致的情况，进而导致语音合成后的译文音频长度与原声语句音频的长度不一，比如，读一句中文用时10秒，以相似的节奏经机器合成的英文翻译音频则可能要耗时15秒，并且这种偏差会随着时间积累，导致用户接入机器同传系统后，很可能难以跟上发言人的节奏，对发言人和听众而言，这无疑是不佳的参会体验。

例如当前原声语句为“我想先澄清一下，然后再讲下一部分”，该中文语句在正常、自然的语速下，朗读时长为4秒；其英文译文文本为“iwouldliketomakeonepointclearbeforeimoveontothenextpoint”，该英文语句经合成处理后的音频输出时长为6秒，这样原文时长和目标译文之间就有2秒的时间差(本发明称为时差)，随着发言内容的持续以及时间的推移，第n句的原文和对应的译文文本的合成语音的时差就会被显著放大。

据此分析，发明人期望实现机器合成的输出音频时长与发言人原发音长度尽可能保持一致或相对更短，因从可以在较大程度上缓解延时效应。

有鉴于此，本发明的构思在于在同声传译场景下的有限时间内，将译文合成音频与原发音音频的语速进行匹配，具体是提供了如下至少一种机器同声传译输出音频动态合成方法的实施例，如图1所示，可以包括步骤：

步骤s1、根据采集到的当前同声传译场景信息以及既定规则，判定是否需要调节合成音频语速。

本实施例站位于当前机器同传场景的特定情况，首先从整体上评估是否需要对合成音频的语速进行干预，设计此步骤的原因如前文提及的，本发明在设计之初分析了导致延时问题的多种因素，因而在本实施例中提出可以从真实场景情况先做自动决策，如果无需进行语速干预，则可以避免无谓的运算反而导致预期之外的延时效应。具体当前机器同传场景信息，可以根据实际所需而定，主要还是围绕前述几个方面，例如在本发明的一些优选方案中提出，所述当前同声传译场景信息包括以下一种或多种：

(1)当前原始语种类型以及翻译方向。

同传场景中原始语种和目标语种，决定了前述饱和度的差异大小。可以认为，在同一语系、语族下，原始语种和目标语种的饱和度接近，不会导致较为凸显的发音时长差异，英文、法文、德文等语种之间进行翻译时，可能不会带来太多时差；而不同语系下的翻译场景，则可能导致时差较为明显，例如但不限于前文提及的中英同传场景。

(2)发言人的个性化信息。

不同的发言人具有个性化的诸如年龄、学识、社会地位、性别、演讲风格、动作姿态、表情等特点，从而也会使得同传效果产生区别，例如一个上了年纪的发言人，其发言较为缓慢且会伴随一些肢体动作，这样就留给机器充足的翻译及合成时间，使得机器输出音频的时长可以接近该发言人的语速。

(3)当前原声语句的发音层面特征。

基于声学角度，发音层面特征可以是指韵律、语调、情感、音色、停顿等方面，不同的发音特征可能也会使得原始发音的时长各有差别，例如一段原声语句具有拖长尾音的特点，或者语句间的停顿较多且较长，那么机器合成的音频则也可以接近该原声语句的时长。

因此，本发明在决策对合成语速进行干预之前，先从当前同传场景的整体因素出发，按照既定的标准(比如当前两语种是何关系、发言人具有何种个性信息、当前语句有何声学特点等)明确是否向下继续执行；如果经本步骤判断当前同传场景需要进行语速干预则可以接着执行后续处理：

步骤s2、实时获取当前原声语句的第一时长，并预估相应于当前原声语句的译文文本合成音频后的第二时长；

步骤s3、求取所述第一时长与所述第二时长之间的时差，并统计本次同传阶段的累积时差。

计算时长及时差的方式，可以参考多种已有技术，例如获取当前原声语句的时间戳(包括句子的开始时间和结束时间)，便可以计算出当前原声语句的第一时长，第二时长的获取方式可以与此类似，但需要指出的是：本实施例中提出的是对相应于当前原声语句的译文文本的合成音频时长进行预估，也即是该第二时长并非最终输出音频的时长，而是在处理过程中预测出基于当前译文合成后的音频初始时长，此预测方式在实际操作中可以有多种方式，例如拟合成一段初始语音并计算时间端点，或者利用预先训练的时长预测模型，将语种类型和当前译文等特征作为输入信息，由时长预测模型直接输出初始时长，本发明不对以上估算第二时长的方式进行限定。

关于时差的计算和累积时差的统计，可以设定当前第n句原声语句的第一时长为vn，该第n句的译文经估算后的第二时长为sn，当前第n句的时差为：

sn-vn

不经过任何处理过程，发言人说完前n-1句话所用的时间即为：

经过机器同传合成后的前n-1句译文的输出音频时间为：

二者时间偏移量，即累积时差为：

接续前文，步骤s4、根据所述时差和/或所述累积时差与对应的预设容忍度的关系，实时调整翻译策略和/或确定语速调节增益参数。

例如，基于不同应用场景和经验，预先设定时间偏移的容忍度为σ(即时长偏差在该范围内认为是合理的，需说明的是可以为累积时差和时差分别设定不同的容忍度)，那么可以有如下两种关系(此处以累积时差举例，时差比对同理，不作赘述)：

(1)若

(2)若

此外，对于语速的调节手段，本实施例实质提出了两种不同维度的方式，一种是直接干预译文文本，另一种是不干预译文文本而为当前译文文本附带上语速变化系数。

具体来说，所述调整翻译策略是对指对生成的当前译文文本作出改变，例如可以对当前原声语句进行二次翻译，优选地，在二次翻译过程中采用与在先译文文本不同的用词和/或语法，改变二次翻译后的译文文本的长度，简单地理解，即是通过二次翻译变更译文饱和度，在实际操作中可以根据同传场景所需，缩短或增长译文内容，并且可以是对译文文本整体或局部作出修改，例如将某个专有名词以简写形式进行翻译，对此本发明不作限定，但需指出的是，二次翻译的触发时间则可以基于前述不同的关系，例如当累积时差大于σ时，启动二次翻译，按不同的翻译策略得到新译文文本。

关于所述确定语速调节增益参数，可以理解的是让当前译文的输出音频的语速按系数(倍数、比率值等)进行调节变化。实际操作时可以在不同场景下构建不同的语料库进行测试训练、延时分析，寻找到最佳的倍数t(预设增益参数)，这里所谓最佳可以是指使第二时长更为接近第一时长。例如，基于某同声传译场景搜集有n条语料，每条语料发言人的发言时间为ti，相应译文的合成音频时间为si，则满足下面目标函数的t值即为该场景下合成语速调整的最佳语速倍数：

mint

将该最佳t值称为预设增益参数的原因是，需要结合时差或累计时差与容忍度的关系，选择最终的语速增益。例如累积时差≤σ时(时差同理，不作赘述)，则可以将1作为最终的语速增益，表征语速变化率不变。如果累积时差＞σ，则可以基于所述累积时差与预设容忍度的比例关系，选择所述预设增益参数或者是所述比例关系，作为最终的语速调节增益参数。

所述比例关系可以是指，实际偏差与理想偏差的倍数关系，具体到选择环节时，如果实际偏差与理想偏差的比例值超出了预先求取的最佳倍数t(预设增益参数)，则可以将实际偏差与理想偏差的比例值作为最终的语速调节增益参数；如果实际偏差与理想偏差的比例值小于或等于预设增益参数，则可以将预设增益参数作为最终的语速调节增益参数。当然，以上确定最终的语速调节增益参数的规则可以因需而定，在某些实施方式中，也可以与前文介绍的选择方式相反，对此本发明不作限定。而需要说明的是后续合成作业时，该最终的语速调节增益参数的作用对象同样也可以针对当前译文的整体或是局部，例如仅对“iwouldliketomakeonepointclearbeforeimoveontothenextpoint”中的前半句或后半句附带此语速调节参数。

最后，步骤s5、根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。

此处所用合成方式可参考现有技术，重点是合成的对象可以转变为重新翻译后的新译文文本，和/或在合成作业时将所述语速调节增益参数融入其中。待合成作业完成，可以并发地向参会用户的收听收看终端播放合成音频，此非本发明重点，不再赘述。

而需要补充说明的是，本发明在前文各实施例基础上进一步提出，为了更为有效提升收听听感，还可以在输出音频的合成阶段融入发音调节参数，即在本发明的较佳的实施例中，前述合成方式还可以包括：根据所述语速调节增益参数，或者所述语速调节增益参数和所述当前同声传译场景信息，确定当前输出音频的发音调节参数，在对当前译文文本(包括重新翻译的新译文文本)进行合成处理时，可以结合所述发音调节参数，使得合成后的输出音频不仅延迟降低，且能够在声学表现方面更为自然、更接近发言人的发音特点。

机器合成与真实语音在自然度上存在差异，是本领域的公知，但是本发明设计此优选方案的目的，不仅仅是为了改善合成音频的效果，主要还是结合了前文提及对延时进行处理的构思。发明人考虑到经过语速调节后的合成音频，在机器合成自身存在的不太自然的听感基础上，可能会使得该不自然听感被凸显放大(例如语速调节过快或过慢等，尤其再结合语种类型差异导致语法不同，或者发言人的个性信息或发音声学特点的诸多差异等)，因此才考虑设计该解决途径。

具体来说，可以结合前述实施例获得的语速调节增益参数，也可以将语速调节增益参数与当前同声传译场景信息信息结合，这里以当前同声传译场景信息的两个方面作为示意性介绍。

(1)可以根据当前原声语句的响度，获得当前输出音频的响度调节参数。

比如原始语音可能会在重点地方语气加重，并体现为音量增加，因而可以利用发言人此种个性化信息获得更加符合翻译前原声语句的表达信息。具体而言，可以结合图2所示的实施例，根据当前原声语句的响度，获得当前输出音频的响度调节参数包括：

步骤s10、持续获得当前原声语句的每一音频帧的原始音量值；

步骤s20、基于所述原始音量值，计算各所述音频帧的音量差值；

步骤s30、结合当前输出音频的预设默认响度以及所述音量差值，确定当前输出音频的音量调节参数。

在实际操作中，该示例可以是通过现有的音量计算方式持续获得当前原声语句的每一帧的音量高低，并以d0,d1，……dn表示；且可以计算出每一帧与上一帧的差值为0，d1-d0，d2-d1,…….,dn-d(n-1)。

机器合成音频通常会依据正常情况预设一个原始的默认音量值，假设该默认音量的正常音量以s表示，那么确定当前输出音频的音量调节参数的方式则可以参考：s，也即是为合成音频的每一帧赋予了更新后的音量值，这样，以帧级别的音量干预，保持实际音量与合成音频相对一致，由此可以使得输出音频相对更为贴合发言人的发音变化。

(2)还可以结合当前原声语句，对当前译文文本进行情感分析，并根据情感分析结果，获得当前输出音频的语气调节参数。

除了音量调节维度，还可以结合已有的情感分析和关键词提取技术，对译文文本的合成效果进行动态调整。具体来说，经情感分析后可以得到语句的情感类型：积极、中性和消极，再利用关键词提取技术提取出句子的关键词语。为了改善听众听感，该语气调节参数可以但不限于以音高及重度标记作为手段：1、若情感为积极型，则适当提高语音合成的语音的音高；2、若情感为消极型，则适当降低合成语音的音高；3、对提取的关键词增加重读标记，表示对译文某处加以强调。

最后再将这些语气调节参数与前文提交的语速调节参数共同作用在合成处理环节，以此弥补、改善输出音频的听感效果。

综上所述，本发明的构思在于在合成音频时引入语速调节因子，尽量缩短机器同传生成的合成音频与原始发言语音的延迟，具体方案是从当前同声传译场景出发，基于既定规则先明确是否需要调节合成音频语速，在认为有必要进行语速干预时，实时获取当前的原声语句时长及相应译文文本可能的时长，并求取二者之差以及同传至现阶段的累积时差，接着考察当前语句的时差和/或累积时差与分别对应的预设容忍度的关系，由此动态地进行翻译策略的调整和/或确定出语速调节增益参数，这里即包含了两个调节手段，一种是直接干预译文文本，另一种是不干预译文文本而为当前译文文本附带上语速变化系数，最后根据这两种不同的手段进行语音合成处理。本发明结合了特定的场景信息作为触发调节合成音频的条件，并利用不同层面的干预方式，实现了对当前输出音频进行动态语速调节，从而解决了机器同传的延时问题，有效提升机器同传的输出效果。

相应于上述各实施例及优选方案，本发明还提供了一种机器同声传译输出音频动态合成装置的实施例，如图3所示，具体可以包括如下部件：

语速调节决策模块1，用于根据采集到的当前同声传译场景信息以及既定规则，判定是否需要调节合成音频语速；

音频时长计算模块2，用于当所述语速调节决策模块输出为是时，实时获取当前原声语句的第一时长，并预估相应于当前原声语句的译文文本合成音频后的第二时长；

延时计算模块3，用于求取所述第一时长与所述第二时长之间的时差，并统计本次同传阶段的累积时差；

语速调节参数确定模块4，用于根据所述时差和/或所述累积时差与对应的预设容忍度的关系，实时调整翻译策略和/或确定语速调节增益参数；

语音合成模块5，用于根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。

在其中至少一种可能的实现方式中，所述当前同声传译场景信息包括以下一种或多种：

当前原始语种类型以及翻译方向；

发言人的个性化信息；以及

当前原声语句的发音层面特征。

在其中至少一种可能的实现方式中，所述语速调节参数确定模块包括：调整翻译策略单元，所述调整翻译策略单元具体包括：

二次翻译组件，用于对当前原声语句进行二次翻译：采用与在先译文文本不同的用词和/或语法，改变二次翻译后的译文文本的长度。

在其中至少一种可能的实现方式中，所述语速调节参数确定模块具体包括：

语料获取单元，用于根据同声传译场景预先搜集相应的语料；

增益参数单元，用于利用所述语料进行延时分析，并确定预设增益参数；

在其中至少一种可能的实现方式中，所述装置还包括：

所述语音合成模块还用于，结合所述发音调节参数对当前译文文本进行合成处理。

在其中至少一种可能的实现方式中，所述发音调节参数确定模块包括：

响度调节单元，用于根据当前原声语句的响度，获得当前输出音频的响度调节参数；和/或

语气调节单元，所述语气调节单元具体包括：

情感分析组件，用于结合当前原声语句，对当前译文文本进行情感分析；

语气调节参数获取组件，用于根据情感分析结果，获得当前输出音频的语气调节参数。

在其中至少一种可能的实现方式中，所述响度调节单元包括：

原声音量获取组件，用于持续获得当前原声语句的每一音频帧的原始音量值；

原声音量差计算组件，用于基于所述原始音量值，计算各所述音频帧的音量差值；

音量调节参数确定组件，用于结合当前输出音频的预设默认响度以及所述音量差值，确定当前输出音频的音量调节参数。

应理解以上图3所示的机器同声传译输出音频动态合成装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(applicationspecificintegratedcircuit；以下简称：asic)，或，一个或多个微处理器(digitalsingnalprocessor；以下简称：dsp)，或，一个或者多个现场可编程门阵列(fieldprogrammablegatearray；以下简称：fpga)等。再如，这些部件可以集成在一起，以片上系统(system-on-a-chip；以下简称：soc)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种机器同声传译输出音频动态合成设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

图4为本发明提供的机器同声传译输出音频动态合成设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为pc、服务器、翻译机(器)、录音笔、移动智能终端(手机、平板、阅读器、手表、手环、眼镜等)、麦克风、耳麦、耳机等。本实施例对机器同声传译输出音频动态合成设备的具体形式可不作限定。

具体如图4所示，机器同声传译输出音频动态合成设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得机器同声传译输出音频动态合成设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述机器同声传译输出音频动态合成设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图4所示的机器同声传译输出音频动态合成设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图4所示的机器同声传译输出音频动态合成设备900中的处理器910可以是片上系统soc，该处理器910中可以包括中央处理器(centralprocessingunit；以下简称：cpu)，还可以进一步包括其他类型的处理器，例如：图像处理器(graphicsprocessingunit；以下简称：gpu)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的机器同声传译输出音频动态合成方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指app；接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器cpu、dsp、微控制器或数字信号处理器，还可包括gpu、嵌入式神经网络处理器(neural-networkprocessunits；以下简称：npu)和图像信号处理器(imagesignalprocessing；以下简称：isp)，该处理器还可包括特定集成电路asic，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatilememory)，例如非可移动磁盘、u盘、移动硬盘、光盘等，以及只读存储器(read-onlymemory；以下简称：rom)、随机存取存储器(randomaccessmemory；以下简称：ram)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。