基于车机语音识别的音频处理方法、装置和计算机设备与流程
本申请涉及车辆多媒体技术领域,特别是涉及一种基于车机语音识别的音频处理方法、装置、计算机设备和存储介质。
背景技术:
目前车机功能越来越丰富,语音识别功能在车机开始使用,可以通过语音识别做车身相关的控制功能。针对语音识别系统,有基于硬件的降噪处理,也有基于软件的降噪处理。针对车机端的纯软件降噪框架方案,相关技术中通常是将语音信号(micpcm)和参考信号(refpcm)数据通过多线程异步的方式传输至应用服务层进行软件语音降噪算法处理,然而,上述传输方式常常导致信号延时以及不稳定的问题。
针对相关技术中,语音识别过程中音频信号传输的延时以及不稳定的问题,目前尚未提出有效的解决方案。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种基于车机语音识别的音频处理方法、装置、计算机设备和存储介质。
第一方面,本申请实施例提供了一种基于车机语音识别的音频处理方法,所述方法包括:
在车机操作系统的语音识别服务进程启动时,所述语音识别服务进程调用录音接口;
打开与所述录音接口对应的麦克风录音通道采集麦克风信号,且打开与所述录音接口对应的参考录音通道采集参考信号,所述麦克风信号包括第一麦克风信号和第二麦克风信号,所述参考信号包括第一参考信号和第二参考信号;
将所述麦克风信号和所述参考信号混合为一路音频数据后发送给所述语音识别服务进程;
所述语音识别服务进程将混合后的所述一路音频数据进行分离后解析出所述第一麦克风信号、所述第二麦克风信号、所述第一参考信号和所述第二参考信号,以供语音识别应用基于解析后的所述第一麦克风信号、所述第二麦克风信号、所述第一参考信号和所述第二参考信号进行语音识别处理。
在其中一个实施例中,所述语音识别服务进程调用录音接口,包括:
所述语音识别服务进程通过车机操作系统中的函数接口调用与所述语音识别服务进程对应的录音接口。
在其中一个实施例中,所述将所述麦克风信号和所述参考信号混合为一路音频数据包括:
按照所述第一麦克风信号、所述第二麦克风信号、所述第一参考信号和所述第二参考信号的顺序混合为一路音频数据。
在其中一个实施例中,所述将所述麦克风信号和所述参考信号混合为一路音频数据包括:
将所述第一麦克风信号和所述第二麦克风信号混合为第一路音频数据;
将所述第一参考信号和所述第二参考信号混合为第二路音频数据;
将所述第一路音频数据和所述第二路音频数据混合为一路音频数据。
在其中一个实施例中,所述打开与所述录音接口对应的麦克风录音通道采集麦克风信号,且打开与所述录音接口对应的参考录音通道采集参考信号包括:
使能所述录音接口对应的麦克风录音通道采集麦克风信号;
同时,使能所述录音接口对应的参考录音通道采集参考信号。
在其中一个实施例中,所述第一麦克风信号为左路麦克风信号,所述第二麦克风信号为右路麦克风信号,所述第一参考信号为左路参考信号,所述第二参考信号为右路参考信号。
第二方面,本申请实施例还提供一种基于车机语音识别的音频处理装置,所述装置包括录音模块、混合模块和语音识别模块:
所述语音识别模块用于在车机操作系统的语音识别服务进程启动时,调用录音接口,
所述录音模块用于打开与所述录音接口对应的麦克风录音通道采集麦克风信号,且打开与所述录音接口对应的参考录音通道采集参考信号,所述麦克风信号包括第一麦克风信号和第二麦克风信号,所述参考信号包括第一参考信号和第二参考信号;
所述混合模块用于将所述麦克风信号和所述参考信号混合为一路音频数据后发送给所述语音识别模块;
所述语音识别模块还用于将混合后的所述一路音频数据进行分离后解析出所述第一麦克风信号、所述第二麦克风信号、所述第一参考信号和所述第二参考信号,以供语音识别应用基于解析后的所述第一麦克风信号、所述第二麦克风信号、所述第一参考信号和所述第二参考信号进行语音识别处理。
在其中一个实施例中,所述混合模块还用于将所述第一麦克风信号和所述第二麦克风信号混合为第一路音频数据;将所述第一参考信号和所述第二参考信号混合为第二路音频数据;将所述第一路音频数据和所述第二路音频数据混合为一路音频数据。
第三方面,本申请实施例提供了一种基于车机语音识别的音频处理计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于车机语音识别的音频处理方法。
第四方面,本申请实施例还提供一种基于车机语音识别的音频处理计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于车机语音识别的音频处理方法。
上述基于车机语音识别的音频处理方法、装置、计算机设备和存储介质,在车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口;打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号;将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程;语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用进行语音识别处理,解决了车机语音识别过程中音频信号延时不稳定的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例的基于车机语音识别的音频处理方法的车机硬件结构框图;
图2是根据本发明实施例中基于车机语音识别的音频处理方法的流程图;
图3是根据本发明一实施例的基于车机语音识别的音频处理方法中麦克风信号和参考信号的混合流程图;
图4是根据本发明另一实施例中基于车机语音识别的音频处理方法中麦克风信号和参考信号混合的流程图;
图5是根据本发明优选实施例中基于车机语音识别的音频处理方法的流程图;
图6是根据本发明优选实施例中基于车机语音识别的音频处理方法的系统架构图;
图7是根据本发明实施例中基于车机语音识别的音频处理装置的示意图;
图8是根据本发明实施例中基于车机语音识别的音频处理计算机设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在车辆的车机中,车机指的是安装在汽车里面的车载信息娱乐产品的简称,车机在功能上能够实现人与车,车与外界的信息通讯。图1是本发明实施例的基于车机语音识别的音频处理的车机硬件结构框图,如图1所示,车机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,上述车机还包括麦克风106以及播放设备108。在部署在处理器102上的车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口,打开与录音接口对应的麦克风录音通道,通过麦克风106采集麦克风信号,麦克风信号包括第一麦克风信号和第二麦克风信号;同时打开与录音接口对应的参考录音通道采集对应于播放设备108的参考信号,参考信号包括第一参考信号和第二参考信号。处理器102读取麦克风信号和参考信号,将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程,语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用基于解析后的第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号进行语音识别处理。
本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于车机语音识别的音频处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在一个实施例中,图2是根据本发明实施例中基于车机语音识别的音频处理方法的流程图,如图2所示,提供了一种基于车机语音识别的音频处理方法,该方法包括以下步骤:
步骤s210,在车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口。可选地,在语音识别服务进程的配置过程中,预设了该语音服务进程在运行过程中调用的录音接口,该录音接口可以是硬件接口也可以是软件接口。
步骤s220,打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号。通过硬件控制同时开启开关的方式或者软件控制,使得麦克风通道和参考录音通道的同时开启。其中,麦克风信号为通过车辆上的麦克风采集的语音生成的信号,上述语音将被用于语音识别,而参考信号则是在采集上述语音信号过程中录入的背景声,例如背景音乐等。从麦克风信号中将参考信号过滤的过程可以被认为是降噪的过程,对降噪后的麦克风信号进行语音识别将显著提高识别的准确性。
步骤s230,将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程。可选地,上述音频数据的混合可以是音频信号的线性相加,也可以是拼接的方式,即将麦克风信号与参考信号进行前后拼接,形成一路音频数据,并将这一路音频数据发送给第三方语音识别服务程序进行软降噪以及语音识别。
步骤s240,语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用基于解析后的第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号进行语音识别处理。语音识别服务进程将对获取到的混合的音频数据进行麦克风信号与参考信号的分离。在一些实施例中,可以根据音频的存储方式,例如8位单声道、8位双声道、16位单声道或者16位双声道等,按照音频文件的大小进行分离。可选地,也可以在拼接过程中在拼接点增加拼接标志。例如通过预设位比特的标志位,指示拼接点,分离时从该标志位执行分离。进一步,基于分离得到的麦克风信号和参考信号进行语音识别处理。具体而言,可根据参考信号对麦克风信号进行降噪处理,再通过语音识别算法从音频数据中识别出麦克风信号中的控制命令,进而通过车身的相应软硬件执行该控制指令所指示的操作,例如播放音乐,打开空调等。
步骤s210至步骤s240中,在车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口;打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号;将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程;语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用基于解析后的第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号进行语音识别处理。通过将麦克风信号和对应的参考信号混合为一路音频数据进行传输,避免了麦克风信号与参考信号异步传输的时延。麦克风信号和用于降噪的参考信号一一对应,提高了麦克风信号降噪的准确性,同时麦克风信号和参考信号混合为一路进行传输,用于降噪的音频数据为单线程输入,可以提高语音识别过程中的信号稳定性。
在一个实施例中,图3是根据本发明一实施例的基于车机语音识别的音频处理方法中麦克风信号和参考信号的混合流程图,如图3所示,将麦克风信号和参考信号混合为一路音频数据包括以下步骤:
步骤s310,将第一麦克风信号和第二麦克风信号混合为第一路音频数据。
步骤s320,将第一参考信号和第二参考信号混合为第二路音频数据。
步骤s330,将第一路音频数据和第二路音频数据混合为一路音频数据。
在步骤s310至步骤s330中,首先,把四路音频数据叠加到两路数据,可以适用于录音接口仅支持两路音频数据通道的车机操作系统,例如安卓系统中。在这种情况下,由于麦克风采集到的麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号则包括第一参考信号和第二参考信号,上述四路音频数据都会被用于进行语音软降噪以及识别处理,因此可实现通过两路音频数据通道传输上述四路音频数据。本实施例中车机操作系统的中间层可以接收到完整的四路音频数据,即将麦克风信号和参考信号进行了混合,第一麦克风信号和第二麦克风信号混合为一路,第二参考信号和第二参考信号混合为另一路,再将两路信号混合为一路音频数据,在这种情况下,录音接口只需执行一次读取请求即可读取到两路麦克风信号和两路参考信号,而无需多次进行读取请求,避免了多次读取过程中的可能产生的数据丢失、时延等情况。
在录音接口支持两路音频数据通道的情况下,依旧可以获取到完整的四路音频数据,使得基于音频数据进行语音识别的方法可以使用于更多类型的车机,无需进行额外的软件框架改进或者硬件改造,提高了车机的适用性和兼容性。
在一个实施例中,在一个实施例中,图4是根据本发明另一实施例中基于车机语音识别的音频处理方法中麦克风信号和参考信号混合的流程图,如图4所示,将麦克风信号和参考信号混合为一路音频数据包括以下步骤:
步骤s410,按照第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号的顺序混合为一路音频数据。
在步骤s410中,通过将麦克风的两路信号以及参考信号的两路信号按照预先设置的顺序进行混合。在一个实施例中,第一麦克风信号为左路麦克风信号(左mic),第二麦克风信号为右路麦克风信号(右mic),第一参考信号为左路参考信号(左ref),第二参考信号为右路参考信号(右ref),结合上述实施例即可得到具体的信号混合方式以及顺序,使得信号传输和分离过程更加准确和高效。例如,按照左麦克风信号、右麦克风信号、左参考信号和右参考信号的顺序,将麦克风信号和参考信号混合为一路音频数据。语音降噪识别进程在获取到上述音频数据后,根据预设的左mic、右mic、左ref和右ref的数据格式,即可从音频数据中分离出上述四路音频信号。可选地,在每一路音频信号分别为16比特的情况下,顺序将接收到的音频信号分为四个16比特的片段,第一个片段则对应与左mic信号,第二个片段对应右mic信号,以此类推。在实际应用的过程中,上述顺序是可以按照预设的规则进行调整的,语音识别服务进程也可以按照预设的规则进行音频数据分离,最终得到麦克风信号和参考信号。本实施例提供的实施方式,是通过拼接,对麦克风信号和参考信号进行混音处理,在提高了音频数据稳定性的前提下,音频数据混合以及分离的效率较高,进一步提高了车机语音识别的音频处理效率。
在一些实施例中,语音识别服务进程通过车机操作系统中的函数接口调用与语音识别服务进程对应的录音接口,上述函数接口可以是opensl接口,语音降噪识别算法服务程序会通过系统opensl接口,调用车机操作系统中的录音接口,其中,opensl接口中预先配置有录音接口的身份标识id,从而使得在语音识别服务进程启动的情况下,可以根据录音接口的id准确地开启车机操作系统中相应的录音接口,从而更加及时、准确地进行后续的音频数据获取。
在一个实施例中,打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号包括:使能录音接口对应的麦克风录音通道采集麦克风信号;同时,使能录音接口对应的参考录音通道采集参考信号。在本实施例中,通过在同一个函数接口中,开启麦克风通道的录音使能和参考录音通道的录音使能,在该函数接口即软件录音接口被调用的情况下,同时通知麦克风通道和参考录音通道开始录音,避免了信号延时问题,可以进一步提高车机语音识别的音频处理准确性。
下面通过优选实施例对本申请实施例进行描述和说明。图5是根据本发明优选实施例中基于车机语音识别的音频处理方法的流程图,图6是根据本发明优选实施例中基于车机语音识别的音频处理方法的系统架构图,如图5、图6所示,在一个优选实施例中,基于安卓系统的车机,语音识别的音频处理包括以下步骤:
步骤s510,启动语音识别服务。在安卓系统(android系统)开机时,安卓系统会在本地服务(native)层启动一个语音识别服务,即图6中的第三方语音降噪识别软件所对应的服务,该服务会在车机操作系统中启动一个语音识别服务进程。
步骤s520,打开mic录音通道和ref录音通道。第三方语音降噪识别算法服务程序会通过安卓系统android中的opensl接口,调用android中的录音接口,opensl接口中预先配置有录音接口的id,根据录音接口的id打开android中间层的录音接口。
步骤s530,获取mic音频数据和ref音频数据。可选地,安卓系统中间层根据步骤s520中打开的录音接口的id信息识别该录音接口是否与语音识别的音频数据的采集设备相连接,如果是,打开驱动层的mic录音通道,以及ref录音通道;如果否,则不打开mic录音通道以及ref录音通道。
因为android系统的录音接口只支持2路脉冲编码调制(pulsecodemodulation,简称pcm)音频数据,而语音软降噪方案,需要左mic、右mic、左ref和右ref四路音频数据,把四路音频数据叠加到两路音频数据。分别通过mic录音通道和ref录音通道进行获取。为了避免信号延时问题,在同一个函数接口里面,开启麦克风通道的录音使能和参考录音通道的录音使能,也就是同时通知麦克风通道和参考录音通道开始录音。
在本优选实施例中,参考信号获取的是车机操作系统中的音乐应用程序app所播放的背景音乐,上述音乐app为车机操作系统中应用软件层的任意音乐播放app,该音乐app在接收到软件层的播放命令时,将音乐pcm(pulsecodemodulation,脉冲编码调制)音频数据通过驱动软件传输至硬件层的播放器进行播放。此外,参考信号录音通道直接获取播放设备所播放的音乐pcm音频数据作为参考信号。步骤s540,读取mic音频数据。在安卓系统的中间层先通过mic录音通道读取麦克风的音频数据,可选地,车机操作系统的声卡芯片通过外接的麦克风获取到麦克风语音数据,并通过驱动软件将上述麦克风语音数据作为mic音频数据输入麦克风录音通道。麦克风录音通道获取到的音频数据包含左mic和右mic两路数据。
步骤s550,读取ref音频数据。读取完步骤s540中的麦克风信号,再通过ref录音通道读取参考信号,获取到的参考通道数据也是包含两路音频数据,分别为左ref和右ref两路数据。
步骤s560,混合mic音频数据和ref音频数据。把步骤s640和步骤s650中读取到的总共4路音频数据进行混合处理,混合成mic左,mic右,ref左,ref右的方式,合并pcm数据,返回给第三方语音识别的服务程序。混音处理时,将mic左,mic右、ref左和ref右四路音频数据集成为一路数据,但是mic左,mic右、ref左和ref右还是独立的音频数据。随后,将上述混合后的一路数据通过录音接口以及opensl接口传输至第三方语音降噪识别软件。
步骤s570,语音识别。语音识别算法接收混音数据后,解析并且分离得到四路音频数据。第三方语音识别的服务程序,对获取到的音频数据进行麦克风信号与参考信号分离,然后再进行语音识别处理,识别音频数据文字内容。
步骤s580,判断是否能够正确识别语音内容,若否,则返回步骤s530,重新获取mic音频数据和ref音频数据。若是,则进入步骤s590。
步骤s590,处理识别结果。第三方语音识别服务程序把识别的文件内容信息,发送给位于应用软件层的语音识别结果处理的应用程序app,并通过语音识别结果处理app对车身以及其他相关内容进行控制,例如播放音乐,打开空调等。
上述优选实施例基于现有的安卓系统android,通过硬件,如图6中的麦克风录音设备采集到的麦克风信号,以及播放的背景音乐信号,通过驱动软件传输至安卓系统中间层,在安卓系统中间层把与麦克风信号对应的麦克风(mic)音频数据和与北京音乐信号对应的参考(ref)音频数据进行混合组合成有序的音频数据包,然后再通过安卓系统原生的框架,输送到应用程序,做语音降噪算法处理,对降噪处理完后得到的麦克风信号进行语音别处理,最后根据得到的文字信息,做车身相关的控制功能。mic音频数据和ref音频数据组成一个混合信号,输送给需要应用程序,软件方案上采用单线程处理,减少多线程异步导致的信号延时不稳定问题。
应该理解的是,虽然图2至图5中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,图7是根据本发明实施例中基于车机语音识别的音频处理装置的示意图,如图7所示,提供了一种基于车机语音识别的音频处理装置,该装置包括录音模块72、混合模块74和语音识别模块76。
语音识别模块76用于在车机操作系统的语音识别服务进程启动时,调用录音接口。录音模块72用于打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号。混合模块74用于将麦克风信号和参考信号混合为一路音频数据后发送给语音识别模块。语音识别模块76还用于将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用基于解析后的第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号进行语音识别处理。
在一个实施例中,混合模块74还用于将第一麦克风信号和第二麦克风信号混合为第一路音频数据;将第一参考信号和第二参考信号混合为第二路音频数据;将第一路音频数据和第二路音频数据混合为一路音频数据。
关于基于车机语音识别的音频处理装置的具体限定可以参见上文中对于基于车机语音识别的音频处理方法的限定,在此不再赘述。上述基于车机语音识别的音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,图8是根据本发明实施例中基于车机语音识别的音频处理计算机设备的示意图,如图8所示,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于车机语音识别的音频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于车机语音识别的音频处理方法。
上述基于车机语音识别的音频处理计算机设备,在车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口;打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号;将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程;语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用进行语音识别处理,解决了车机语音识别过程中音频信号延时不稳定的问题。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于车机语音识别的音频处理方法。
上述基于车机语音识别的音频处理计算机可读存储介质,在车机操作系统的语音识别服务进程启动时,语音识别服务进程调用录音接口;打开与录音接口对应的麦克风录音通道采集麦克风信号,且打开与录音接口对应的参考录音通道采集参考信号,麦克风信号包括第一麦克风信号和第二麦克风信号,参考信号包括第一参考信号和第二参考信号;将麦克风信号和参考信号混合为一路音频数据后发送给语音识别服务进程;语音识别服务进程将混合后的一路音频数据进行分离后解析出第一麦克风信号、第二麦克风信号、第一参考信号和第二参考信号,以供语音识别应用进行语音识别处理,解决了车机语音识别过程中音频信号延时不稳定的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。
此文章来源于网络,如有侵权,请联系删除