一种字幕生成方法、装置及计算机存储介质、电子设备与流程

2021-01-28 14:01:01|

271|

起点商标网

本申请涉及广电行业视频字幕技术领域，尤其涉及一种字幕生成方法及装置、计算机存储介质、电子设备。

背景技术：

传媒行业，特别是广电行业，需要播出海量的音视频节目，每一档节目都需要工作人员进行“纯手工”的后期字幕制作。工作人员在进行手工断句时，需要视频、音频、字幕三方同时兼顾，并且需要反复听写、反复校对，过程繁琐且效率低下。如果工作人员进行音视频整套字幕校对时，发现其中一句断句错误，则需要重新修改该句断句位置并修改后面受关联影响的断句以及错误断句的关联时间码。

现有技术不足在于：

目前音视频节目的字幕制作效率低下。

技术实现要素：

本申请实施例提出了一种字幕生成方法、装置及计算机存储介质、电子设备，以解决上述技术问题。

第一方面，本申请实施例提供了一种字幕生成方法，包括：

确定待添加字幕的视频文件；

提取所述视频文件中对应的音频信息；

根据所述音频信息得到对应的文本；

提取所述文本对应的辅助特征；

根据所述文本对应的辅助特征以及预先构建的字幕断句模型，生成断句后的字幕。

第二方面，本申请实施例提供了一种字幕生成装置，包括：

文件确定模块，用于确定待添加字幕的视频文件；

音频提取模块，用于提取所述视频文件中对应的音频信息；

文本识别模块，用于根据所述音频信息得到对应的文本；

特征提取模块，用于提取所述文本对应的辅助特征；

字幕生成模块，用于根据所述文本对应的辅助特征以及预先构建的字幕断句模型，生成断句后的字幕。

第三方面，本申请实施例提供了一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的字幕生成方法的步骤。

第四方面，本申请实施例提供了一种电子设备，其特征在于，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如上所述的字幕生成方法。

有益效果如下：

本申请实施例所提供的字幕生成方案，通过对待添加字幕的视频文件进行音频提取、文本转换，然后进一步提取文本中的辅助特征，再结合预先构建的字幕断句模型，最终生成断句后的字幕，减少了工作环节，媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等，提升了工作效率，大幅度降低了劳动强度。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请实施例中字幕生成方法实施的流程示意图；

图2示出了本申请实施例中字幕生成装置的结构示意图；

图3示出了本申请实施例四中电子设备的结构示意图；

图4示出了本申请实施例中self-attention结构的断句模型示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：

此外，对于全国的广电，各个广播、电视台都有自己的字幕规范，工作人员需要掌握不同的字幕断句规则和规范，对工作人员要求高，且处理非常繁琐。

针对上述不足，本申请实施例提出了字幕生成方法、装置及计算机存储介质、电子设备，通过训练神经网络断句模型，对文本信息中的句法、搭配关系以及结构信息进行挖掘，实时判断每个字后面是否需要断句，而且进一步结合语义特征获得候选断句结果来满足广电行业特有的对字幕上屏的要求，下面进行说明。

实施例一

图1示出了本申请实施例一中字幕生成方法实施的流程示意图。

如图所示，所述字幕生成方法，包括：

步骤101、确定待添加字幕的视频文件；

步骤102、提取所述视频文件中对应的音频信息；

步骤103、根据所述音频信息得到对应的文本；

步骤104、提取所述文本对应的辅助特征；

步骤105、根据所述文本对应的辅助特征以及预先构建的字幕断句模型，生成断句后的字幕。

采用本申请实施例所提供的字幕生成方法，通过对待添加字幕的视频文件进行音频提取、文本转换，然后进一步提取文本中的辅助特征，再结合预先构建的字幕断句模型，最终生成断句后的字幕，减少了工作环节，媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等，提升了工作效率，大幅度降低了劳动强度。

在一种实施方式中，所述根据所述音频信息得到对应的文本，包括：

根据音频信息中的停顿信息对所述音频信息进行切片化处理；

将切片化处理后的音频信息识别为文本，得到片段化的文本。

在一种实施方式中，所述字幕断句模型的构建过程，包括：

将样本字幕文件中的文本拆分为若干单字；

利用拆分后的单字构建输入输出对并提取辅助特征，输入为拆分得到的单字，输出目标为该字之后是否需要断句处理的标识信息；

根据所述输入输出对以及辅助特征对神经网络进行训练，得到字幕断句模型。

在一种实施方式中，所述辅助特征的提取过程，包括以下一种或多种：

根据文本中的当前单元数据是否处于词尾，确定该单元数据的分词特征；

根据文本中的单元数据与断句位置的共现情况，确定该单元数据的词共现特征；

根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度，确定该单元数据的停顿时长特征；

根据截至文本中的当前单元数据的数据总数以及总时长，确定该单元数据的语速特征；

根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值，确定该单元数据的基频走势；

根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化。

在一种实施方式中，在训练过程中进一步包括：

将文本中的当前单元数据的前m个单元数据对应的输出目标进行拼接，拼接后得到全局标签特征；

利用所述全局标签特征对目标进行预测。

在一种实施方式中，所述根据所述文本对应的辅助特征以及预先构建的字幕断句模型，生成断句后的字幕，包括：

将所述文本对应的辅助特征进行拼接后输入预先构建的字幕断句模型；

计算所述文本中每个单元数据对应的输出层概率分布，搜索得到k个候选断句结果；

从1到k逐渐遍历每个候选断句结果，输出每个单元数据的字数均满足预设字数限制条件的候选断句结果；

对于不满足预设字数限制条件的候选断句结果，根据断句概率最大的单元数据对应的位置进行断句。

其中，所述k为大于1的整数。

在一种实施方式中，所述方法进一步包括：

将断句后的字幕与音视频文件进行时码匹配，得到该断句后的字幕在音视频文件中的起止时间。

实施例二

基于同一发明构思，本申请实施例中还提供了一种字幕生成装置，由于这些设备解决问题的原理与一种字幕生成方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

图2示出了本申请实施例二中字幕生成装置的结构示意图。

如图所示，所述字幕生成装置可以包括：

文件确定模块201，用于确定待添加字幕的视频文件；

音频提取模块202，用于提取所述视频文件中对应的音频信息；

文本识别模块203，用于根据所述音频信息得到对应的文本；

特征提取模块204，用于提取所述文本对应的辅助特征；

字幕生成模块205，用于根据所述文本对应的辅助特征以及预先构建的字幕断句模型，生成断句后的字幕。

采用本申请实施例所提供的字幕生成装置，通过对待添加字幕的视频文件进行音频提取、文本转换，然后进一步提取文本中的辅助特征，再结合预先构建的字幕断句模型，最终生成断句后的字幕，减少了工作环节，媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等，提升了工作效率，大幅度降低了劳动强度。

在一种实施方式中，所述文本识别模块，包括：

切片单元，用于根据音频信息中的停顿信息对所述音频信息进行切片化处理；

识别单元，用于将切片化处理后的音频信息识别为文本，得到片段化的文本。

在一种实施方式中，所述装置进一步包括：模型构建模块，所述模型构建模块，包括：

拆分单元，用于将样本字幕文件中的文本拆分为若干单字；

处理单元，用于利用拆分后的单字构建输入输出对并提取辅助特征，输入为拆分得到的单字，输出目标为该字之后是否需要断句处理的标识信息；

训练单元，用于根据所述输入输出对以及辅助特征对神经网络进行训练，得到字幕断句模型。

在一种实施方式中，所述辅助特征的提取过程，包括以下一种或多种：

根据文本中的当前单元数据是否处于词尾，确定该单元数据的分词特征；

根据文本中的单元数据与断句位置的共现情况，确定该单元数据的词共现特征；

根据文本中的单元数据的结束位置与后一单元数据的开始位置之间的时间长度，确定该单元数据的停顿时长特征；

根据截至文本中的当前单元数据的数据总数以及总时长，确定该单元数据的语速特征；

根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的基频值，确定该单元数据的基频走势；

根据文本中的当前单元数据的结束位置以及该单元数据前多帧语音数据的能量值确定该单元数据的能量变化。

在一种实施方式中，在训练过程中进一步包括：

将文本中的当前单元数据的前m个单元数据对应的输出目标进行拼接，拼接后得到全局标签特征；

利用所述全局标签特征对目标进行预测。

在一种实施方式中，所述字幕生成模块，包括：

拼接单元，用于将所述文本对应的辅助特征进行拼接后输入预先构建的字幕断句模型；

计算单元，用于计算所述文本中每个单元数据对应的输出层概率分布，搜索得到k个候选断句结果；

遍历单元，用于从1到k逐渐遍历每个候选断句结果，输出每个单元数据的字数均满足预设字数限制条件的候选断句结果；

断句单元，用于对于不满足预设字数限制条件的候选断句结果，根据断句概率最大的单元数据对应的位置进行断句。

在一种实施方式中，所述装置进一步包括：

匹配单元，用于将断句后的字幕与音视频文件进行时码匹配，得到该断句后的字幕在音视频文件中的起止时间。

上述实施例中，均可以采用现有的功能元器件模块来实施。例如，文本识别模块可以采用现有的文本识别元器件，至少，现有语音消息发送技术中便具备实现该功能元器件；至于其他的模块，例如：特征提取模块等，本领域技术人员经过相应的设计开发即可实现。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

实施例三

基于同一发明构思，本申请实施例还提供一种计算机存储介质，下面进行说明。

所述计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例一所述方法的步骤。

采用本申请实施例中提供的计算机存储介质，通过对待添加字幕的视频文件进行音频提取、文本转换，然后进一步提取文本中的辅助特征，再结合预先构建的字幕断句模型，最终生成断句后的字幕，减少了工作环节，媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等，提升了工作效率，大幅度降低了劳动强度。

实施例四

基于同一发明构思，本申请实施例还提供一种电子设备，下面进行说明。

图3示出了本申请实施例四中电子设备的结构示意图。

如图所示，所述电子设备包括存储器301、以及一个或多个处理器302，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如实施例一所述的方法。

采用本申请实施例中提供的电子设备，通过对待添加字幕的视频文件进行音频提取、文本转换，然后进一步提取文本中的辅助特征，再结合预先构建的字幕断句模型，最终生成断句后的字幕，减少了工作环节，媒体工作者不再需要边听边敲打字幕、边听边断句以及反复核对字幕等，提升了工作效率，大幅度降低了劳动强度。

实施例五

为了便于本申请的实施，下面以一具体实例进行说明。

本申请实施例所提供的技术方案，自动将视频中的音频转写成对应的文本序列，然后利用智能断句方案对转写的文本序列进行断句，使之符合节目字幕要求，最后利用强制对齐技术得到转写文本断句后序列对应的原视频位置时间戳，从而形成最终的字幕文件。

具体方案如下：

第一步，预先收集大量人工标注字幕断句数据，构建字幕断句模型。

具体的，可以包括以下几个部分：

1、数据收集和预处理

采集大量的广电行业的音视频断句素材，组成训练集和测试集。

具体实施时，如果该数据已经是人工检查过的视频字幕数据，无需对该数据进行人工检查。

数据预处理过程如下：

a.对收集的文本数据进行分字；

所谓分字可以指将文本拆分成一个个独立的汉字，本申请实施例考虑到字幕文件对单句的字数要求，故以字为预测单元。

b.构建任务预测目标；

利用拆分好的字以及字幕文件的本身断句信息，构建输入输出对，输入即拆分后的每个独立的单字，输出目标为该字之后是否需要进行断句处理，如果需要断句则输出目标为1，否则输出目标为0。

例如：

“观众朋友们大家晚上好，这里是中央人民电视台”这一待添加字幕的音视频文件，分字之后的结果为：

观众朋友们大家晚上好这里是中央人民电视台；

分字之后的输出目标为：

00000000010000000001。

c.提取相关特征；

所述相关特征包括每个字的向量特征，字向量可以采用word2vec/glove方案初始化，也可以随机初始化，在模型训练过程中实时更新。

辅助特征是在训练数据预先统计好的泛化特征，训练过程中固定不动。辅助特征具体包括以下一种或多种特征：

(1)分词特征

所述分词特征可以指采用离散值表征文本分词信息的特征。

例如：对于给定文本“唱词断句”，本申请实施例将其拆分为四个单字作为模型输入，分别为“唱”、“词”、“断”、“句”，为了引入分词信息到单字中，本申请实施例采用两位离散值表示分词信息，用“00”表示分词后是单字的字对应的特征，利用“10”表示分词后不处于词尾的字对应的特征，利用“01”表示词尾的字对应的特征，在上面的例子中，“唱”、“词”、“断”的分词特征均为“10”，“句”的分词特征为“01”。

(2)词共现特征

所述词共现特征可以用于表征当前字wi与断句位置的共现情况。

具体地，采用点级互信息(pmi)公式分别计算当前字前、后为断句位置的特征值：

上述公式分别表示字后断句及字前断句的特征值，上述断句即为前文所述输出目标为1的位置信息，上述公式表示词wi和断句共同出现的情况。

(3)停顿时长特征

所述词间停顿时长可以指当前词对应语音数据与后一个词对应语音数据之间的时间间隔。

具体提取时，可以直接获取当前字结束位置与后一个字开始位置的时间长度即可。本申请实施例利用字幕文件和对应音视频文件进行边界对齐，获取到对应停顿时长；停顿习惯一定程度上与语义断句有一定的相关性，合理利用停顿时长特征能够较大改善断句效果。

(4)语速特征

所述语速特征可以指截止到当前词对应语音数据中说话人的平均说话速度。

具体计算时，直接统计截止到当前字的字总数以及截止到当前字的语音数据总时长，计算所述字总数与总时长的比值得到说话人历史平均语速。语速特征与停顿时长特征具有一定的互补性，可以一定程度上避免由于说话人平均语速较慢而带来的语义切分过碎的现象。

(5)字尾基频走势

所述字尾基频走势可以指当前词的字尾处连续基频值。

具体提取时，本申请实施例在语音数据上找到当前字的结束位置，从该结束位置依次向前取多帧语音数据的基频值作为当前字字尾的基频走势。

例如：可以使用1×n的向量表示，其中n表示向量的帧数，具体向前取多少帧，根据应用需求或实验结果确定，如取前10帧的基频值，得到的一个10维的基频走势向量。

(6)字尾能量变化

所述字尾能量变化可以指当前的字尾对应语音数据的能量变化。

具体提取时，本申请实施例在语音数据上找到当前字的结束位置，从该结束位置依次向前计算多帧语音数据的能量值、一阶差分、二阶差分。

例如：使用大小为m×3的矩阵表示，其中m表示向前取的帧数，具体可以根据应用需求或实验结果确定，3维分别对应表示能量值、一阶差分值、二阶差分值。

2、断句模型训练

构建好上述输入输出对以及辅助特征以后，本申请实施例利用序列标注框架对每个字进行标签预测，判断每个字之后是否需要断句处理。

具体的，输入特征为字对应的向量以及辅助特征，模型结构可以采用常见的lstm、blstm、self-attention结构等，具体结构本申请实施例不再赘述。输出类别可以分为断句或不断句两类，分别利用1和0表示。

图4示出了本申请实施例中self-attention结构的断句模型示意图。

如图所示，word-embedding表示字embedding拼接上述泛化特征，训练过程中模型参数采用随机梯度下降算法进行更新，本申请对该算法的具体方案不再赘述。

由上可见，本申请实施例采用的神经网络结构可以为通用网络技术，改进点之一在于多种泛化特征融合作为辅助特征进行断句模型的优化。

此外，为了进一步对断句字数进行约束，在训练过程中，本申请实施例创新性的提出了全局标签特征的概念，即，将当前字前m个字对应的输出目标作为特征拼接到一起，作为特征辅助当前字进行目标预测。具体的，将前m个字对应的特征向量与softmax之前的隐层表达拼接到一起，进行目标预测，可以较好的起到约束断句字数的作用。这里m不大于预设要求的单句最大字数。全集标签特征可以模拟数据的先验分布，用该分布约束模型预测的结果。

例如：

“观众朋友们大家晚上好这里是中央人民电视台”；

“00000000010000000001”

取m＝2，则“晚上好这里是”几个字对应的全局标签特征分别为：“00”(“晚”的前两个字对应的特征拼接为00)、“00”(“上”的前两个字对应的特征拼接为00)、“00”(“好”的前两个字对应的特征拼接为00)、“01”(“这”的前两个字对应的特征拼接为01)、“10”(“里”的前两个字对应的特征拼接为10)、“00”(“是”的前两个字对应的特征拼接为00)。

第二步，使用断句模型及语义，对字幕进行智能断句。

本申请实施例既可以应用于非实时的离线场景，也可以用于实时的在线场景。

在非实时场景中，本申请实施例可以接收待添加字幕的视频文件，然后提取出对应的音频信息，最后将音频信息送至语音识别系统得到对应的文本内容。在识别过程中，识别系统可以根据停顿信息对音频进行切片化处理，得到片段化文本。

在实时场景中，本申请实施例可以实时处理端点检测后的语音片段，将音频信息送至语音识别系统识别得到对应的片段化文本。

上述过程中采用的识别系统可以采用深度神经网络实现，具体的网络结构本申请不做限定。

利用预先构建的字幕断句模型进行断句处理的过程，具体如下：

1、将当前片段文本进行预处理，包括分字、提取辅助特征等，其中，词共现pmi特征可以从训练时统计好的查询表中查询得到，停顿及语速特征、字尾基频走势、字尾能量变化等可以结合音频获取得到，具体方法和上述训练过程中辅助特征提取方法类似，本申请在此不做赘述。

2、将上述步骤1中各种特征拼接后输入至字幕断句模型中，利用前向算法计算每个字对应的输出层概率分布，然后利用beam-search算法搜索得到k个候选断句结果，其中k为beam大小。

3、从1到k逐渐遍历每个产生的候选断句结果，判断该结果中每个子句字数是否均不大于最大限制字数(例如：14个字)。如果满足条件，则返回该结果为最终结果并输出；否则，继续执行步骤4。

4、对步骤2中得到的k个候选结果中的第一个结果进行分析，找出其中不满足字数的子句si(wi1…wij…win)，其中n为该子句的总字数，根据si中断句概率最大的字对应位置进行断句，并对断句后的子句进行规范性检查并不断重复步骤4，直至所有子句字数满足要求。

第三步，对断句后的结果进行后处理，得到对应的输出。

本申请实施例中对断句后的文本的后处理过程包括时码匹配，具体实施时可以利用强制对齐算法将断句后的文本与音视频进行对齐，得到文本在视频中的起止时间边界，具体的对齐算法本申请在此不做赘述。

本申请实施例提供了一种基于广电行业视频字幕自动断句的方法，工作人员直接上传音视频便可一键满足用户端的字幕断句需求，减少了边听边写的环节和人工自动断句的环节。此外，针对广电行业字幕上屏的字数要求，提出了在字数限制的条件下，进行语义特征和模型训练的方法，使得断句结果有更好的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签：字数统计文本分析电脑

上一篇一种自主学习智能分析决策的生活与工作助理设备的制作方法

下一篇一种语音识别方法、装置、计算机程序产品及存储介质与流程

热门咨询

热门标签

热门产品

tips