电子书音频生成方法、电子设备及存储介质与流程

2021-01-28 17:01:55|

337|

起点商标网

本发明涉及电子书领域，具体涉及一种电子书音频生成方法、电子设备及存储介质。

背景技术：

电子书的出现帮助用户实现了随时随地阅览书籍，不受纸质书籍阅读时的条件限制，为用户阅读提供了阅读书籍的便利性。

在电子书的基础之上，有声读物也越来越多的被用户所接受。听书可以避免用户用眼过度，缓解用户视力疲劳，充分调用用户大脑的感官神经。有声读物或者听书，一种采用的是专业录制的方式，但这种方式需要花费较多人力、时间成本，不能及时提供电子书对应的有声读物。另一种采用文字转语音技术，但得到的往往是比较呆板、生硬的声音，单一的语音提供给用户的体验不佳，使得用户无法从听觉上得到更切合书籍当前实际情景的感官体验。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子书音频生成方法、电子设备及存储介质。

根据本发明的一个方面，提供了一种电子书音频生成方法，其包括：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；

针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；

根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

根据本发明的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行以下操作：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；

根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

根据本发明的又一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；

根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

根据本发明提供的电子书音频生成方法、电子设备及存储介质，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本-音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，将电子书中的情节更真实化的呈现，解决现有技术中电子书音频声音呆板、单一、更机械化等问题，使电子书音频与电子书情节更对应，更好地呈现电子书中的人物、情节、情感等，提升用户听书体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的电子书音频生成方法的流程示意图；

图2示出了根据本发明另一个实施例的电子书音频生成方法的流程示意图；

图3示出了根据本发明一个实施例的文本-音频转换模型训练过程的流程示意图；

图4示出了根据本发明一个实施例的一种电子设备的结构示意图。

具体实施方式

实施例一

图1示出了根据本发明一个实施例的电子书音频生成方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤s101，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合。

获取整本电子书的文本内容后，由于整本电子书包含的文本内容较多，如果一次性对整本电子书生成电子书音频，会由于文本内容较多，导致转化的电子书音频速度较慢、转化时易出错等问题。因此，本实施例在获取电子书的文本内容后，结合阅读习惯，对文本内容进行切句处理，得到语句集合。语句集合中可以以整句为单位进行切句处理，或者，当整句过长时，如排比句等，可以以标点符号为单位进行切句处理，此处不做限定。

语句集合包含文本内容的各个语句，且记录各语句间的排列顺序，方便确定各个语句的上下文关系。

步骤s102，针对语句集合中的任一语句，确定语句的至少一个表述因子。

表述因子包括人物表述因子、情感表述因子等。人物表述因子包括该语句所属人物、人物性别、人物年纪、人物性格等；如该语句的人物为：温柔的中年女子、活泼的小女孩等；或者该语句为人物旁白等；情感表述因子为该语句包含的情感，如兴奋、忧伤、痛苦、失望等情感。

得到语句集合后，针对语句集合中的任一语句，结合语句的上下文关系，可以分析确定语句的表述因子。具体的，结合语句的上下文关系，对语句进行语义分析，根据语义分析结果确定语句的至少一个表述因子。如结合语句的上下文关系，得到语句的前一语句或前几语句，后一语句或后几语句，与本语句结合，进行语义分析，可以从语句中确定表述因子。如结合上下文从语义分析结果中可以得到当前语句为小a所说的话，小a为中年男子，其性格憨厚，还可以对语句所使用的标点符号等进行分析，确定表述的情感如愤怒、疑问等，得到语句对应的表述因子。以上为举例说明，具体根据实施情况设置。

语句所对应的各种人物表述因子，以及在语句在表述时的情感表述因子，有利于在生成音频时，音频与表述因子相对应，采用与人物对应的音频声音、饱含对应的情感来进行表述，解决现有音频中整本电子书都采用同一声音讲述，无法区分不同人物，声音呆板单一，不能表达语句情感变化等问题。

步骤s103，将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

在确定语句以及语句的至少一个表述因子后，将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，对语句进行转化，从而得到语句对应的音频片段。音频片段与语句、语句表述因子的人物表述因子、情感表述因子均对应，从而使音频片段更符合语句实际描述，使用户听到音频片段时更好地理解语句所要表述的内容。

以上步骤s102和s103的执行顺序，可以按照语句集合，对语句循环执行步骤s102和s103，也可以先对语句集合中的每个语句确定表述因子后，再循环执行步骤s103，得到各个语句对应的音频片段，此处不做限定。

步骤s104，根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

语句集合中记录了各个语句的排列顺序，按照排列顺序，将各个语句对应的音频片段依次进行拼接处理，得到电子书对应的一个完整的电子书音频。

根据本发明提供的电子书音频生成方法，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。通过利用训练后的文本-音频转换模型，基于文本内容、表述因子，得到转化后带有情感更符合真人朗读的电子书音频，将电子书中的情节更真实化的呈现，解决现有技术中电子书音频声音呆板、单一、更机械化等问题，使电子书音频与电子书情节更对应，更好地呈现电子书中的人物、情节、情感等，提升用户听书体验。

实施例二

图2示出了根据本发明另一个实施例的电子书音频生成方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤s201，获取电子书的文本内容，对文本内容进行切句处理，得到语句集合。

步骤s202，针对语句集合中的任一语句，确定语句的至少一个表述因子。

以上步骤参照图1实施例中的步骤s101-s102的描述，此处不再赘述。

步骤s203，将语句及对应的至少一个表述因子进行向量化表示，得到输入向量。

为更准确地生成得到电子书音频，将语句以及对应的表述因子进行向量化表述，以方便文本-音频转换模型对其进行转换。具体的，对于语句，根据语句所包含的文字拼音来实现对语句进行向量化表示。如将语句中的各文字以拼音形式表示，将“今天”向量化为“jintian”，对拼音进一步处理，得到“jin”、“tian”，或者，还有进一步细化为“j”、“in”、“t”、“ian”等向量，细化粒度根据事实情况设置。表述因子也采用不同数值标记，从而得到输入向量。

进一步，还可以根据日常阅读习惯，语句中间会有停顿，在语句中插入停留间隔符。对于语句样本中插入的停留间隔符也进行向量化表示，在得到音频片段时，使音频片段中也在停留间隔符处进行停顿。

语句中插入的停留间隔符可以根据日常停顿规则进行添加，如语句中各词语后插入停留间隔符等，此处不做限定。

步骤s204，将输入向量输入至训练后的文本-音频转换模型中，得到语句对应的音频片段。

将输入向量输入至训练后的文本-音频转换模型中，由文本-音频转换模型对输入向量进行转换，得到语句对应的音频片段。

步骤s205，根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

按照语句的排列顺序将语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。

步骤s206，选取与电子书匹配的背景音，将电子书音频与背景音进行合成处理。

电子书对应不同的书籍类型，如武侠、言情等不同类型，可以基于电子书的不同类型，为其选取匹配的背景音。背景音可以预先指定不同类型，根据电子书的类型，选取类型匹配的背景音。

将电子书音频与背景音进行合成处理时，可以根据电子书中语句对应的音频片段位置，从指定位置处合成背景音。进一步，背景音可以选取一段或多段，在不同位置处合成对应的背景音，以突出电子书的不同情节。

根据本发明提供的电子书音频生成方法，将电子书的文本内容切句为语句集合，针对语句集合中的任一语句来转换得到音频片段，以提高音频片段转换的准确性。在输入时，将语句及对应的至少一个表述因子进行向量化表示，以提高音频片段的准确率。进一步，还可以在得到电子书音频后，为电子书音频合成背景音，以更突出电子书的情节，提升用户听书的体验效果。

实施例三

图3示出了根据本发明一个实施例的文本-音频转换模型训练过程的流程示意图，如图3所示，包括如下步骤：

步骤s301，获取训练样本数据。

本实施例用于将文本转换为音频片段，因此，训练样本数据中包括语句样本集合以及音频片段样本集合。其中，语句样本集合中的语句样本与音频片段样本集合中的音频片段样本一一对应，组成样本对。

在获取样本数据时，先获取得到文本样本和音频样本。音频样本可以为专门录制的专业音频样本，也可以包括现有的听书音频样本等。由于音频样本多种多样，还需先对音频样本进行预处理。如判断音频样本是否为包含背景音的音频，背景音会影响训练结果，若是，需要过滤掉包含背景音的音频样本，以及对应的文本样本。进一步，当音频样本长度过长时，需要对得到的音频样本进行切分处理，得到多个音频片段样本。音频片段样本可以如5-10秒，短音频片段可以更好地进行训练，避免过长音频样本在训练时需要与较多文本样本匹配，导致训练效率较低、训练不准确等问题。相应的对文本样本也进行切分处理，使文本样本与各音频片段样本向匹配。具体的，可以将音频片段样本转换成文字，从文本样本中解析出各个音频片段样本对应的语句样本，使其一一对应，从而得到训练样本数据。

步骤s302，针对任一样本对，确定样本对的至少一个表述因子。

针对得到的训练样本数据中的任一样本对，可以从音频样本或音频片段样本侧出发，根据语音分析工具，获取表述因子。表述因子包括人物表述因子、情感表述因子等。根据语音分析工具，确定音频样本或音频片段样本为愤怒的中年男子的语音，从而确定表述因子中的人物表述因子、情感表述因子等。或者，还可以根据文本样本，对其进行语义分析，得到表述因子中的人物表述因子、情感表述因子等。对文本样本确定表述因子时可以参照步骤102的描述，在此不再赘述。

步骤s303，根据样本对以及对应的至少一个表述因子，对文本-音频转换模型进行训练。

基于以上获取的样本对以及对应的至少一个表述因子，将样本对以及对应的至少一个表述因子进行向量化表示，得到样本数据向量，使样本数据更标准化，便于模型训练。

对于语句样本，将语句样本所包含的文字转化为文字拼音实现对语句样本向量化表示，对于音频片段样本，将音频片段样本采用傅里叶变化技术，对其进行分帧处理，得到各帧音频，实现对音频片段样本进行向量化表示。

进一步，对于语句样本，由于在实际阅读中，语句样本中各文字间会有停顿，为使训练更准确，在语句样本中插入停留间隔符，使其与音频片段样本更一一对应。对于语句样本中插入的停留间隔符也进行向量化表示，与音频片段样本中停顿的各帧音频相对应。语句样本中插入的停留间隔符可以根据日常停顿规则进行添加，如语句样本中各词语后插入停留间隔符、根据语气插入停留间隔符、根据样本对中的音频片段样本中的各文字的长音插入停留间隔符等，此处不做限定。

将向量化表示后的样本数据向量输入至待训练的文本-音频转换模型中进行训练，调整训练参数，以使样本数据向量相匹配，从而得到训练后的文本-音频转换模型。

根据本发明实施例提供的文本-音频转换模型训练过程，实现对文本向音频的准确转换，将文本转换为更真实化的音频效果，避免音频单一、呆板的效果。结合表述因子，使得音频转换更生动，提升用户体验。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的电子书音频生成方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取电子书的文本内容，对文本内容进行切句处理，得到语句集合；针对语句集合中的任一语句，确定语句的至少一个表述因子；至少一个表述因子包括人物表述因子和/或情感表述因子；将语句及对应的至少一个表述因子输入至训练后的文本-音频转换模型中，得到语句对应的音频片段；根据语句集合中各个语句的排列顺序，将各个语句对应的音频片段进行拼接处理，得到电子书对应的电子书音频。