HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

语音识别登入的制作方法

2021-01-28 13:01:13|290|起点商标网
语音识别登入的制作方法



背景技术:

可以使用机器学习和各种其他技术将人类语音转换成文本。区别不同讲话者以及辨识语音成分通常涉及登入流程,在登入流程中,来自目标讲话者的音频被采样和处理以生成话音签名。

附图说明

图1a示出了被配置为选择多个人类讲话者在不同时间发言的会议的音频样本的示例性计算机化会议助理。

图1b示出了图1a的计算机化会议助理的各方面。

图1c图示了由图1a的计算机化会议助理执行的定向录音的示例。

图2示出了图1a的计算机化会议助理的示例性声源定位机的各方面。

图3示出了图1a的计算机化会议助理的示例性波束形成机的各方面。

图4示出了图1a的计算机化会议助理的示例性面部定位机的各方面。

图5示出了图1a的计算机化会议助理的示例性面部识别机的各方面。

图6图示了对图1a的人类讲话者的讲话进行区分的示例性区分架构。

图7图示了图1a的计算机化会议助理的区分(diarization)机的示例性输出。

图8示出了图1a的计算机化会议助理的示例性语音识别机的各方面。

图9示出了流程图,其图示了执行语音登入的示例性方法。

图10图示了语音转录的示例。

图11示出了示例性会议记录。

图12示出了示例性架构,其中,语音识别机在图1a的计算机化会议助理的区分机下游。

图13示出了示例性架构,其中,语音识别机在图1a的计算机化会议助理的区分机上游。

图14示出了流程图,其图示了语音识别登入的示例性方法。

具体实施方式

如上文所描述的,在不同讲话者之间进行区分以及准确地识别语音成分通常涉及登入流程,在登入流程中,对来自目标讲话者的音频进行采样和处理以生成话音签名。在这样的登入流程中,相对于相对较短持续时间的音频样本,一般可能优选包括较长持续时间的人类语音的音频样本,因为更长的语音部分能够产生对人类讲话者的更准确的识别和话音签名的生成。然而,在典型设置中,来自给定讲话者的话语可能以短猝发出现并且常常被其他声音打断。来自其他讲话者的话语或其他声音可能与目标语音同时地出现。这些仅仅是几个示例——多种因素和环境会使得难以获得充分长持续时间的高质量语音样本用于登入。

在一些方案中,经由专用会话来执行登入。例如,可以提示讲话者以在受控环境中(例如,在距麦克风规定距离处)清晰地讲出预定义的短文。该单独的专用步骤能够是登入的载体——其有一定程度的耗时,并且潜在的登入者可能发现非常麻烦,以至于他们会延期登入或干脆避免登入。在最低程度上,在这种方案中某种量的不便是固有的。

这样,在本文中公开了涉及用于语音识别登入的经改进的方案的示例。在一些示例中,根据用于确立人类讲话者声纹的协议来选择会议音频(其中,两个或更多个人类讲话者在不同时间讲话)的样本。针对所述协议定义一个或多个条件,并且确定满足所述条件可能导致对会议音频的样本的选择。可以定义所述条件,从而识别用于收集音频样本的机会并且利用其来确立声纹。如下文所描述的,当会议音频的信噪比高于阈值时、当来自除了希望确立其声纹的讲话者之外的讲话者对会议音频的相应贡献少于阈值时、和/或当检测到人类讲话者的嘴唇移动时(以及其他可能情形),可以认为机会是符合需求的。在本文中还公开了用于优化用于收集音频样本的音频记录系统的配置的示例。在本文中所公开的方案可以促进语音识别登入过程,该过程是不唐突、对用户体验没有中断的,并且不显式地提示人类讲话者讲出预定短语或者执行其他预定动作。如下文所描述的,可以生成——和/或接下来使用——声纹以识别人类讲话者、识别语音分量、并且转录语音、以及其他潜在目的。图1a示出了包括围绕桌子104开会的三个会议参加者102a、102b和102c的示例性会议环境100。计算机化会议助理106在桌子104上,准备好以促进在会议参加者之间开会。根据本公开的计算机化会议助理可以被配置有被设计为促进富有成效的会议的大量特征。然而,以下描述主要集中于涉及使用所记录的语音来识别/认证讲话者并且将话语转换成已识别语音分量(例如,用于语音命令、转录等)的特征。由于可能在多个人类讲话者参与的会议中采用计算机化会议助理106并且讲话者可能在不同时间并且有时在重叠的时间讲话,所以所述助理可能尝试在不同讲话者之间进行区分。这可以包括将会议音频中的话语归因于个体的不同讲话者,以及识别机会来选择使得能够在讲话者之间进行区分的会议音频并且收集期望信号质量的音频样本。尽管以下描述使用计算机化会议助理106作为被配置为执行这样的鉴别/识别的示例性计算机,但是可以配置具有任意数量的不同麦克风和/或相机配置的其他计算机或计算机组合来实施下文所描述的技术。这样,本公开绝不限于计算机化会议助理106。

图1b示意性示出了计算机化会议助理106的相关方面,下文论述了其中的每个方面。特别相关的是,计算机化会议助理106包括(一个或多个)麦克风108——在本文中也被称为“记录系统”——以及(一个或多个)相机110。

如在图1a中所示的,计算机化会议助理106包括七个麦克风108a、108b、108c、108d、108e、108f和108g的阵列。如在图1c中所示的,这些麦克风108被配置为定向地记录声音并且将可听声音转换成计算机可读信号112(即,分别为信号1l2a、1l2b、1l2c、1l2d、112e、112f和112g)。麦克风108a-f围绕计算机化会议助理106等间距地分布,并且旨在定向地记录源自麦克风前方的声音。麦克风108g被定位在其他麦克风之间并且向上对准。

在一些实施方式中,计算机化会议助理106包括被配置为将一个或多个频带(例如,可见、红外和/或近红外)的光转换成360°数字视频114或者其他适当的可见、红外、近红外光谱和/或深度数字视频的360°相机。在一些实施方式中,360°相机可以包括:鱼眼光学系统,其将来自计算机化会议助理106周围的所有方位角的光重定向到光传感器的单个矩阵;以及用于将来自传感器的独立测量结果映射到360°数字视频中的对应像素矩阵的逻辑单元。在一些实施方式中,两个或更多个协作相机可以拍摄交叠的子图像,所述交叠的子图像被缝合在一起成为数字视频114。在一些实施方式中,(一个或多个)相机110具有小于360°的收集视场和/或两个或更多个初始视角(例如,从房间的四个角指向房间中心的相机)。360°数字视频114被示为基本矩形,而没有可测量的几何失真,但是这绝不是必须的。

返回简单地参考图1b,计算机化会议助理106包括被配置为基于信号112来估计(一个或多个)声音的(一个或多个)位置的声源定位(ssl)机120。图2示意性示出了ssl机120分析信号112a-g以输出通过信号112a-g建模的声音的估计的起源140。如上文所介绍的,信号112a-g分别由麦克风l08a-g生成。每个麦克风都具有不同的物理位置和/或指向不同的方向。相对于更接近于和/或指向声源的麦克风,更远离声源和/或背离声源指向的麦克风将生成相对较低幅度和/或相位稍微延迟的信号112。例如,尽管麦克风108a和l08d响应于相同声音可以分别产生信号112a和112d,但是如果记录的声音源自麦克风108a的前方,则信号112a可以具有可测量出的更大幅度。类似地,由于声音到麦克风108d的渡越时间(tof)更长,信号1l2d可以被相移到信号112a后方。ssl机120可以使用信号112a-g的幅度、相位差和/或其他参数来估计声音的起源140。ssl机120可以被配置为实施任何适当的二维或三维定位算法,包括,但不限于:在先训练的人工神经网络、最大似然算法、多信号分类算法以及交叉功率谱相位分析算法。根据在特定应用中所使用的(一种或多种)算法,ssl机120可以输出估计声音的起源140的角度、向量、坐标和/或其他参数。这样的输出——角度、向量、坐标等——和/或上文所描述的信号112a-g的一个或多个参数——幅度、相位差等——可以被称为“位置信息”,并且可以被用于例如通过帮助定位哪里话语并且由此定位其所源自的讲话者来确定人类讲话者的声纹。

如在图1b中所示的,计算机化会议助理106还包括波束形成机122。波束形成机122可以被配置为将起源于特定区域(例如,0-60°弧)的声音与起源于其他区域的声音隔离。在图3中所描绘的实施例中,波束形成机122被配置为在六个相同大小的静态区域中的任一个静态区域隔离声音。在其他实施方式中,可以有更多或更少的静态区域、动态设定尺寸的区域(例如,聚焦的15°弧)和/或动态对准的区域(例如,以9°为中心的60°区域)。可以利用任何适当的波束形成的信号处理以从所得到的波束形成的信号150中减去源自选定区域的外部的声音。在利用动态波束形成的实施方式中,可以将各个讲话者的位置用作选择各个波束形成区域的数量、尺寸和居中的标准。作为一个示例,可以将区域的数量选择为等于讲话者的数量,并且每个区域都可以在讲话者的位置上居中(例如,如通过面部识别和/或声源定位来确定的)。在一些实施方式中,波束形成机可以被配置为独立地并且同时地侦听两个或更多个不同区域,并且并行地输出两个或更多个不同的波束形成的信号。这样,可以独立地处理两个或更多个重叠/插话的讲话者。波束形成机122的操作——以及上文所描述的基于区域的音频处理——是可以如何调节记录系统(波束形成机可以形成其一部分)的一个或多个操作参数(例如,以增大音频样本的信噪比)的一个示例。

如在图1b中所示的,计算机化会议助理106包括面部定位机124和面部识别机126。如在图4中所示的,面部定位机124被配置为在数字视频114中寻找候选面部166。例如,图4示出了面部定位机124找到了在23°处的候选face(1)、在178°处的候选face(2)以及在303°处的候选face(3)。由面部定位机124输出的候选面部166可以包括所定位的面部图像周围的划界框的坐标、面部所在的数字图像的部分、其他位置信息(例如,诸如23°的角度)和/或标签(例如,“face(1)”)。由面部定位机124和面部识别机126利用和/或从面部定位机和面部识别机输出的面部图像数据可以被称为“面部数据”,并且可以被用于确立人类讲话者的声纹。

面部识别机164任选地可以被配置为通过仅分析数字视频114中已经发现候选面部166的部分来确定每个候选面部166的身份168。在其他实施方式中,可以省略面部定位步骤,并且所述面部识别机可以分析数字视频114的更大部分以识别面部。图5示出了面部识别机126将候选face(l)识别为“bob”、将候选face(2)识别为charlie、并且将候选face(3)识别为alice的示例。尽管未示出,但是每个身份168都可以具有相关联的置信度值,并且可能针对相同的面部发现具有不同置信度值的两个或更多个不同身份168(例如,bob(88%)、bert(33%))。如果不能够找到至少具有阈值置信度的身份,则该面部可以保持未识别的和/或可以被赋予一般性独有身份168(例如,“访客(42)”)。语音可以被归因于这样的一般性独有身份。

当使用时,面部定位机124可以采用现有技术的和/或将来的机器学习(ml)和/或人工智能(ai)技术的任何适当组合。在面部定位机124的实施中可以并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如,包括用于处理图像和/或视频的空间卷积神经网络)、回归神经网络(例如,长短期记忆网络(lstm))、关联记忆(例如,查找表、散列表、布隆过滤器、神经图灵机和/或神经随机存取存储器)、无监督的空间和/或聚类方法(例如,最近邻算法、拓扑数据分析和/或k均值聚类)和/或图形模型(例如,马尔科夫模型、条件式随机场和/或ai知识库)。

在一些示例中,可以使用一种或多种可微函数来实施由面部定位机124所利用的方法和过程,其中,可以相对于可微函数的输入和/或输出(例如,相对于训练数据和/或相对于目标函数)来计算和/或估计可微函数的梯度。这样的方法和过程可以至少部分地由一组可训练的参数来确定。因此,可以通过任何适当的训练流程来调节可训练的参数,以便连续地改善面部定位机124的功能。

用于面部定位机124的训练流程的非限制性示例包括监督的训练(例如,使用梯度下降或者任何其他适当的优化算法)、零样本、少样本、无监督的学习方法(例如,基于从无监督的聚类方法导出的类别的分类)、强化学习(例如,基于反馈的深度q学习)和/或基于生成对抗神经网络训练方法。在一些示例中,可以相对于目标函数来同时地训练面部定位机124的多个组件,所述目标函数测量所述多个组件的集体功能的性能(例如,相对于强化反馈和/或相对于标记的训练数据),以便改善这样的集体功能。在一些示例中,可以独立于其他组件来训练面部定位机124的一个或多个组件(例如,历史数据上的离线训练)。例如,可以经由对标记的训练数据的监督的训练并且相对于目标函数来训练面部识别机124,所述标记的训练数据包括具有标记的图像,所述标记指示这样的图像内存在的任何(一个或多个)面部,并且所述目标函数测量面部定位机124定位面部的与标记的训练数据中指示的面部实际位置相比的准确度、精确度和/或查全率。

在一些示例中,面部定位机124可以采用卷积神经网络,其被配置为将输入与一个或多个预定义随机化的和/或学习的卷积内核进行卷积。通过将卷积内核与输入向量(例如,表示数字视频114)进行卷积,所述卷积神经网络可以检测与卷积内核相关联的特征。例如,可以将卷积内核与输入图像进行卷积,以基于与多个不同卷积内核的各种卷积操作,来检测低层级视觉特征,诸如线、边、角等。各种卷积运算的卷积输出可以由池化层(例如,max池化)来处理,所述池化层可以检测输入图像的一个或多个显著特征和/或聚合输入图像的显著特征,以便检测在输入图像中的特定位置处的输入图像的显著特征。池化层的池化的输出可以进一步由另外的卷积层来处理。另外的卷积层的卷积内核可以识别更高层级的视觉特征,例如,形状和图案,以及较低层级视觉特征的更一般空间布置。卷积神经网络的一些层可以相应地识别和/或定位面部的视觉特征(例如,鼻子、眼睛、嘴唇)。因此,所述卷积神经网络可以识别并且定位输入图像中的面部。尽管相对于卷积神经网络描述了前述示例,但是其他神经网络技术可能能够基于检测低层级视觉特征、高层级视觉特征和视觉特征的空间布置来检测和/或定位面部和其他显著特征。

面部识别机126可以采用现有技术的和/或将来的ml和/或ai技术的任何适当组合。面部识别机126的实施中可以并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络、回归神经网络、关联记忆、无监督的空间和/或聚类方法和/或图形模型。

在一些示例中,面部识别机126可以使用一个或多个可微函数来实现,并且至少部分地由一组可训练的参数来确定。因此,可以通过任何适当的训练流程来调节所述可训练的参数,以便连续地改善面部识别机126的功能。

用于面部识别机126的训练流程的非限制性示例包括监督的训练、零样本、少样本、无监督的学习方法、强化学习和/或生成对抗神经网络训练方法。在一些示例中,可以相对于目标函数来同时地训练面部识别机126的多个组件,所述目标函数测量多个组件的集体功能的性能,以便改善这样的集体功能。在一些示例中,可以独立于其他组件来训练面部识别机126的一个或多个组件。

在一些示例中,面部识别机126可以采用被配置为检测和/或定位输入图像的显著特征的卷积神经网络。在一些示例中,可以经由对标记的训练数据的监督的训练并且相对于目标函数来训练面部识别机126,所述标记的训练数据包括具有标记的图像,所述标记指示这样的图像内存在的任何(一个或多个)面部的具体身份,并且所述目标函数测量面部识别机126识别面部的与所述标记的训练数据中指示的面部实际身份相比的准确度、精确度和/或查全率。在一些示例中,可以经由对标记的训练数据的监督的训练并且相对于目标函数来训练面部识别机126,所述标记的训练数据包括成对的具有标记的面部图像,所述标记指示一对中的两幅面部图像是单个个体的图像还是两个不同个体的图像,所述目标函数测量将单个个体的对与两个不同个体的对区分开的准确度、精确度和/或查全率。

在一些示例中,面部识别机126可以被配置为通过以下操作对面部进行分类:选择和/或输出针对来自身份的预定义选集的身份的置信度值,例如,用于训练面部识别机126的训练数据中有其面部图像的身份的预定义选集。在一些示例中,面部识别机126可以被配置为例如基于面部识别机126中所采用的神经网络的隐藏层的输出,来评估表示面部的特征向量。由面部识别机126针对面部图像评估的特征向量可以表示在由面部识别机126学习的表示空间中对面部图像的嵌入。因此,特征向量可以基于在表示空间中的这样的嵌入而表示面部的显著特征。

在一些示例中,面部识别机126可以被配置为登入一个或多个个体以供将来识别。面部识别机126进行登入可以包括例如基于个体的面部的图像和/或视频来评估表示个体的面部的特征向量。在一些示例中,基于测试图像对个体的识别可以基于由面部识别机126针对测试图像评估的测试特征向量与先前评估的特征向量的比较,从那时起登入个体以供稍晚识别。可以通过任何适当的方式和/或通过无监督的空间和/或聚类方法(例如,近似k最近邻方法)执行测试特征向量与来自登入的特征向量的比较,例如,使用相似性度量,诸如余弦或内积相似性。将测试特征向量与来自登入的特征向量比较可以适合于例如基于比较由向量表示的面部的显著特征来评估由两个向量表示的个体的身份。

如在图1b中所示的,计算机化会议助理106包括语音识别机128。语音识别机128类似于面部识别机126,因为其也尝试识别个体。然而,与面部识别机126(针对视频图像训练并且对视频图像操作)不同的是,语音识别机是针对音频信号、诸如波束形成的信号150和/或(一个或多个)信号112来训练并且对其操作的。上文所描述的ml和ai技术可以由语音识别机128来使用。所述语音识别机输出语音id170,任选地具有对应的置信度(例如,bob(77%))。

图6示意性示出了用于计算机化会议助理106的上述组件的示例性区分架构600。尽管下文参考计算机化会议助理106描述了区分架构600,但是可以使用不同的硬件、固件和/或软件组件(例如,不同的麦克风和/或相机放置和/或配置)来实现区分架构。此外,ssl机120、波束形成机122、面部定位机124和/或面部识别机128可以用于被设计成将语音话语与正确的讲话者相关联的不同传感器融合架构中。

在所图示的实施方式中,麦克风108向ssl机120和波束形成机122提供信号112,并且ssl机向区分机602输出起源140。相机110向面部定位机124和面部识别机126提供360°数字视频114。所述面部定位机将候选面部166的位置(例如,23°)传递到波束形成机122,波束形成机可以利用其选择已经识别出讲话者的期望区域。波束形成机122将波束形成的信号150传递到区分机602并且传递到语音识别机128,其将语音id170传递到区分机602。面部识别机128向区分机输出具有候选面部的对应位置(例如,23°)的身份168(例如,“bob”)。尽管未示出,但是所述区分机可以接收其他信息并且使用这样的信息将语音话语归于正确的讲话者。

区分机602是被配置为使用各种接收到的信号将所记录的语音与适当的讲话者相关联的传感器融合机。在一些情形下,区分机602可以对表示两个或更多个人类讲话者所发出的声音的音频样本进行区分,以将每个相应的话语与对应的人类讲话者相关联。在一个非限制性示例中,可以采用以下算法:

将从开始到时间t的视频输入(例如,360°数字视频114)表示为v1:t

来自n个麦克风的音频输入(例如,信号112)被表示为

区分机602通过使下式最大化来求解出谁(who)在什么地方(where)以及什么时候(when)讲话:

其中,是通过来计算的。

其中,是语音id170,其获取n个信道输入并且根据候选面部166的角度来选择一个波束形成的信号150;

是起源140,其获取n个信号输入并且预测哪个角度最可能有声音;

p(who,angle|v1:t)是身份168,其以视频114作为输入,并且预测每个面部在每个角度出现的概率。

以上架构可以适于使用任何适当的处理策略,包括,但不限于上述ml/ai技术。使用以上架构,在所发现的角度处的一个面部的概率通常为决定性的,例如,bob的面部在23°处的概率为99%,其面部在其他角度的概率几乎为0%。

图7是区分机602的示例性输出的视觉表示。在图6中,使用垂直轴来表示谁(例如,bob)在讲话;水平轴表示讲话者何时(例如,30.01s-34.87s)在讲话;并且深度轴表示讲话者从哪里(例如,23°)讲话。区分机602可以使用该谁/何时/何处信息在利用标记608的分析下标记(一个或多个)音频信号606的对应片段604。可以从区分机602以任何适当格式输出片段604和/或对应的标记。所述输出有效地在n个讲话者之间的会话期间将语音与特定讲话者相关联,并且允许将对应于每个语音话语的音频信号(带有谁/何时/何处标记/元数据)用于多种下游操作。如下文更详细描述的,一种非限制性下游操作是会话转录。作为另一示例,将语音话语准确地归于正确的讲话者能够由ai助理用于识别谁正在说话,由此减小了讲话者利用关键字(例如,“cortana”)唤出ai助理的必要性。

返回简要参考图1b,计算机化会议助理106可以包括语音识别机130。如在图8中所示的,语音识别机130可以被配置为将所记录的语音的音频信号(例如,信号112、波束形成的信号150、信号606和/或片段604)转换为文本800。在图8中所图示的情形中,语音识别机130将信号802转变为文本:“你想玩游戏吗?”

语音识别机130可以采用现有技术的和/或将来的自然语言处理(nlp)、ai和/或ml技术的任何适当组合。可以在语音识别机130的实施中并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如,包括用于处理自然语言语句的时域卷积神经网络)、文字嵌入模型(例如,glove或word2vec)、回归神经网络、关联记忆、无监督的空间和/或聚类方法、图形模型和/或自然语言处理技术(例如,令牌化、词干提取、成分和/或依赖性句法分析和/或意图识别)。

在一些示例中,语音识别机130可以使用一个或多个可微函数来实现,并且至少部分地由一组可训练的参数来确定。因此,可以通过任何适当的训练流程来调节所述可训练的参数,以便连续地改善语音识别机130的功能。

用于语音识别机130的训练流程的非限制性示例包括监督的训练、零样本、少样本、无监督的学习方法、强化学习和/或生成对抗神经网络训练方法。在一些示例中,可以相对于目标函数同时地训练语音识别机130的多个组件,所述目标函数测量多个组件的集体功能的性能,以便改善这样的集体功能。在一些示例中,可以独立于其他组件来训练语音识别机130的一个或多个组件。在示例中,可以经由对标记的训练数据的监督的训练,相对于目标函数来训练语音识别机130,所述标记的训练数据包括被注释成指示与语音音频相对应的实际词汇数据(例如,单词、短语和/或文本形式的任何其他语言数据)的语音音频,所述目标函数测量正确地识别与语音音频相对应的词汇数据的准确度、精确度和/或查全率。

在一些示例中,语音识别机130可以使用ai和/或ml模型(例如,lstm和/或时域卷积神经网络)以计算机可读格式来表示语音音频。在一些示例中,语音识别机130可以将语音音频表示为由语音音频模型和文字嵌入模型共享的学习的表示空间中的文字嵌入向量(例如,用于glove向量的潜在性表示空间和/或用于word2vec向量的潜在性表示空间)。因此,通过在学习的表示空间中表示语音音频输入和文字,语音识别机130可以将表示语音音频的向量与表示文字的向量进行比较,以针对语音音频输入评估最接近的文字嵌入向量(例如,基于余弦相似性和/或近似k最近邻方法或任何其他适当的比较方法)。

在一些示例中,语音识别机130可以被配置为将语音音频分割成单词(例如,使用被训练成识别单词边界的lstm和/或基于相邻单词之间的静默或幅度差分隔单词)。在一些示例中,语音识别机130可以对个体单词分类以评估针对每个个体单词的词汇数据(例如,字符序列、单词序列、n元语法)。在一些示例中,语音识别机130可以采用依赖性和/或成分句法解析来导出针对词汇数据的解析树。在一些示例中,语音识别机130可以操作ai和/或ml模型(例如,lstm)以将语音音频和/或在学习的表示空间中表示语音音频的向量转换成词汇数据,其中,对序列中的单词的转换基于当前时间的语音音频,并且进一步基于表示序列中先前时间的先前单词的ai和/或ml模型的内部状态。以这种方式将来自语音音频的单词转换成词汇数据可以捕获可能为语音识别提供信息的单词之间的关系,例如,基于先前单词的上下文来识别可能歧义的单词和/或基于先前单词的上下文来识别发音错误的单词。因此,语音识别机130可以能够稳健地识别语音,即使当这样的语音可能包括歧义、发音错误等的时候也是如此。

可以相对于个体、多个个体和/或群体来训练语音识别机130。相对于一群个体训练语音识别机130可能使得语音识别机130在考虑到在群体内可能更频繁地出现的语音的可能不同特性(例如,语音的不同语言、讲话口音、包括口语和新词的词汇和/或可能在群体成员之间变化的语音的任何其他不同特性)的情况下按照群体的成员来识别语音。相对于个体和/或相对于一群个体训练语音识别机130还可以调谐对语音的识别以考虑个体和/或多个个体的语音特性中的其他不同。在一些示例中,可以相对于个体的不同群体训练不同的语音识别机(例如,语音识别机(a)和语音识别机(b)),由此使得每个不同的语音识别机在考虑到可能在不同群体之间不同的语音特性的情况下按照不同群体的成员来稳健地识别语音。

为了恰当地启用并且支持话音辨识和语音识别,可以采用登入过程以便为参与者生成所谓的“话音签名”或“声纹”。这些签名被用于区分一位参与者的话语与另外那些参与者的话语,并且有效地将那些话语转换成计算机识别的单词、短语等。有效的登入需要从用户获取基线语音样本。这可以在已知并且识别出要登入的讲话者的环境中执行。此外,语音登入常常要求最小的噪声或其他干扰,并且所捕获的样本要不被中断并且有较大的持续时间(例如,两分钟或更长)。

满足以上登入要求(已知讲话者、无噪声环境、跨数分钟的无中断的捕获)对于用户而言会是繁冗的。典型地,必须要独立于任何其他生产性活动将登入作为独立的任务来执行,并且如上所述,用户必须要留出数分钟来执行该任务。该障碍可能导致用户延迟或延期登入,或者干脆避免登入,尤其是如果语音辨识/识别的一些/全部益处对于用户而言并非显而易见的话。其他因素可能使登入复杂化,诸如人类语音的自然变化和词中省略,以及多个人类讲话者参与会议,在其中希望在给定登入单个体类讲话者。

因此,在一些实施方式中,当前系统可能使得能够不突兀地自动进行语音登入。如在别处所指示的,环境100在任何给定时刻可能包含多个参与者,并且又进一步地,来自给定组织的任意数量的人可能参与环境100中的会议。因此,为了进行语音登入,阈值步骤是识别要寻找登入数据的参与者。可以使用音频(例如,来自麦克风108)和/或视频(例如,来自相机110)来识别要登入的参与者。这种信息可以由其他数据来补充,例如可以通过查看日历信息以查看谁接受过会议邀请来调节面部识别置信度水平。

作为具体示例,可以评估进入麦克风阵列(即,麦克风108a-108g)中的音频信息,以例如使用ssl机120来识别活动讲话者102的角位置。然后,可以评估相机信息以识别讲话者。在很多情况下,对用户做出视觉识别所需的信息和处理资源比执行语音识别/辨别所需的那些更容易地获得。例如,对于所识别的个体(例如,雇员)能容易获得视频内容和静止图像,并且在很大程度上,能够捕获其而没有与干扰/噪声(与音频捕获相反)相关联的担心或问题。因此,通常在音频登入之前完成视觉/面部“登入”,并且因此能够被用于执行语音登入所需的阈值识别。

可以使用其他信息来识别活动讲话者。例如,如果已知正在会议室的前方的壁装显示设备处使用特定用户的指示笔,并且在壁装设备的位置中的单个个体指示的相机,那么可以有信心地推断出讲话者的身份。在另一示例中,可以使用相对配准/间距来估计所观察讲话者的性别,并且由此基于已知的会议参与者来提高/降低置信度水平。同样地,将意识到,可以在事后后期处理操作中进行识别,从而使得给定用户的声纹可用于将来使用(如果不在当前会议中使用的情况下)。

在任何情况下,所述系统可以关于以下内容做出确定:何时执行采样,和/或针对给定量的采样的音频,将这样的音频的什么部分要被指定为用于生成声纹的样本。这样的确定的示例包括:(1)对开始于讲话者嘴唇活动时的音频进行采样和/或处理;(2)当其他参与者未讲话时对音频进行采样和/或处理;(3)当噪声或其他声源最小时对音频进行采样和/或处理;等等。

再者,所述系统可以主动地尝试通过控制对音频的处理来改善登入音频的质量。例如,在多个麦克风的阵列中,如在图1a中那样,可以以不同的方式来控制处理。例如,基于讲话者的音频是在特定麦克风处最有利地捕获的确定,可以对在其他麦克风处捕获的信号进行衰减或给予更低权重。除此之外或作为替代,可以基于在其他麦克风处捕获的信号,在选定的麦克风处采用有源噪声消除。可以采用任意数量的适当处理和噪声消除策略。

图9的方法900描绘了根据以上描述进行语音登入的示例。如所指示的,这样的方法可以包括识别活动讲话者(902)并且获得适于建立声纹的样本(904)。步骤904可以包括基于所识别的讲话者已经开始说话的确定而例如经由使用相机发起捕获/采样,以查看嘴唇活动,或者使用麦克风来检测讲话的开始。也可以在讲话者以充分大音量和/或噪声、来自其他参与者的语音或其他干扰低于阈值水平时预测这种情况。也可以结合先前捕获的音频来执行步骤904,目的在于指定音频片段可用于计算声纹。在906处,使用缓解技术来执行捕获和/或处理以改善样本的质量,可以将其视为改善目标讲话者的音频捕获的信噪比(snr)。例如,如果目标讲话者的音量在麦克风108中的一个或两个麦克风(图1a)处最强,那么捕获/处理可以使其他麦克风不突出。另外,可以使用非主导麦克风处的信号生成被应用于(一个或多个)主导麦克风中的捕获的消除信号。可以使用任意数量的技术来改善针对目标讲话者的音频的质量/保真性/音量,同时使来自其他源的非信号贡献最小化。在908处,使用采样的音频来构建话音签名,接下来用于认证/识别、语音命令、语音转文本等中(步骤910)。

可以使用标记和/或部分标记的音频片段不仅确定多个n个讲话者的哪个讲话者负责话语,而且将话语转换成文本表达,用于下游操作,诸如转录。图10示出了非限制性示例,其中,计算机化会议助理106使用麦克风108和相机110来确定特定声音流是来自bob的语音话语,bob坐在围绕桌子104的23°处,并且正在说道:“你想玩游戏吗?”还解出了charlie和alice的身份和位置,从而可以对来自那些讲话者的语音话语类似地进行归属并转换成文本。

图11示出了示例性会议记录1100,其包括按照时间顺序归属到正确讲话者的文本。转录任选地可以包括其他信息,如每个语音话语的时间和/或每个话语的讲话者的位置。在不同语言的讲话者正在参与会议的情形中,可以将文本转换成不同语言。例如,可以为转录的每个读者呈现所有文本都是该读者优选语言的转录版本,即使讲话者中的一个或多个讲话者一开始讲不同的语言。可以实时地更新根据本公开生成的转录,从而能够向转录添加新文本,响应于每次新话语而做出恰当的讲话者归属。

图12示出了非限制性架构1200,其中,语音识别机130a-n在区分机602的下游。每个语音识别机130任选地可以针对特定个体讲话者(例如,bob)或讲话者的类属(例如,中文讲话者或带中文口音的英语讲话者)而被调谐。在一些实施例中,用户概况可以指定适合于特定用户的语音识别机(或其参数),并且可以在(例如,经由面部识别)识别出所述用户时使用该语音识别机(或参数)。以这种方式,可以为特定讲话者选择利用具体语法和/或声学模型调谐的语音识别机。此外,因为可以独立于所有其他讲话者的语音来处理来自每个不同讲话者的语音,所以可以在进行中动态地更新所有讲话者的语法和/或声学模型。在图12中所图示的实施例中,每个语音识别机可以接收针对对应讲话者的片段604和标记608,并且每个语音识别机可以被配置为输出具有标记608的文本800,用于下游操作,诸如转录。

图13示出了非限制性架构1300,其中,语音识别机130a-n在区分机602的上游。在这样的架构中,区分机602一开始可以向除了或替代片段604之外的文本800施加标记608。此外,当求解哪位讲话者对每个话语负责时,区分机可以将文本800的自然语言属性视为额外的输入信号。

图14示出了流程图,其图示了语音识别登入的方法1400。例如,可以至少部分在计算机化会议助理106上实施方法1400。这样,在方法1400的整个描述中参考了助理106。然而,可以在(一个或多个)任何适当的设备上实施方法1400。通常,方法400可以在讲述人类语音的环境中促进各种功能:识别人类讲话者,识别有人类讲话者讲出的语音分量,语音的转录,以及来自一个或多个人类讲话者的语音的归属或区分,以及其他可能功能。

在1402处,方法1400包括在两个或更多个人类讲话者在不同时间讲话的会议期间确定用于对用于确定人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足。如在1404处所指示的,(一个或多个)条件可以包括检测人类讲话者正在讲话。检测人类讲话者可以包括分析来自(一个或多个)麦克风108的输出(例如,检测高于阈值大小的输出)、经由(一个或多个)语音识别机130执行语音识别和/或(一个或多个)任何其他适当的过程。如在1406处所指示的,(一个或多个)条件可以包括会议音频的snr大于阈值。所述阈值可以具有任何适当的值,并且可以被预先确定为使得高于阈值的会议音频可能产生有充分完整性的样本以确立人类讲话者的声纹。如在1408处所指示的,(一个或多个)条件可以包括检测人类讲话者的嘴唇/嘴移动。可以通过诸如以光学方式经由(一个或多个)相机110、面部定位机124和/或(一个或多个)面部识别机126检测嘴唇移动,来使用检测嘴唇移动的任何适当方法。如在1410处所指示的,(一个或多个)条件可以包括针对与来自一个或多个其他人类讲话者相对应的话语的会议音频的相应贡献小于阈值。所述阈值可以采用任何适当的值(例如,音频的大小),并且可以预先确定,使得低于阈值的相应贡献可能不会给出不足以确立当下人类讲话者的声纹的会议音频的样本——例如,正为其执行方法1400的给定人类讲话者。评估不同人类讲话者对会议音频的贡献可以利用以下中的一个或多个:(一个或多个)麦克风108、机器120、机器122、机器124、(一个或多个)机器126、(一个或多个)机器128和(一个或多个)机器130。

在1412处,方法1400包括:响应于确定所述一个或多个条件被满足,根据协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语。如在1414处所指示的,所述协议可以包括选择使用多麦克风设置中的最接近目标讲话者的麦克风的样本。例如,可以分析来自(一个或多个)麦克风108的两个或更多个麦克风的输出以——例如,基于幅度和/或相位差——来确定哪个麦克风输出最高信号(例如,就幅度和/或snr而言)并且因此最接近人类讲话者。作为额外的示例,所述协议可以包括在特定时间处使用特定组的麦克风,结合选择样本而使用机器120、122、124、126、128和130中的一个或多个机器,当人类讲话者而非其他讲话者正在讲话时选择样本,响应于来自人类讲话者的收集样本的显式命令而选择样本,从一个或多个选定的波束形成区域中收集的音频选择样本和/或在(一个或多个)预定时间选择样本。在一些示例中,对样本的选择可以相对于在样本中捕获的话语基本实时地话语——例如,可以在时间上接近或紧随这样的话语而选择样本。在这样的示例中,会议音频的样本在时间上对应于一个或多个条件变得被满足的时间。在其他示例中,可以通过后期处理的方式实现样本选择,其中,在记录之后的某个时间(例如,在会议结束之后)分析会议音频的记录,以使用在本文中所描述的驱动样本选择的一个或多个因素来选择样本。通常,可以相对于会议在任何适当的时间进行样本选择。类似地,可以相对于会议在任何适当的时间进行对会议音频的记录;在一些示例中,(一个或多个)条件的满足可以提示对会议音频的记录,而在其他示例中,可以基于先前记录的会议音频来确定条件的满足。在1416处,方法1400包括至少基于所述样本来确立人类讲话者的声纹。如在1418处所指示的,可以进一步基于人类讲话者的面部数据来确立声纹。例如,可以基于由面部定位机124使用或从其输出的数据(诸如从该机器输出的该人类讲话者面部的位置,其帮助在空间上将人类讲话者的话语与其位置相关联)和/或由(一个或多个)面部识别机126使用或从其输出的数据(诸如能够与声纹和表示来自人类讲话者的话语的音频样本相关联的身份)来确立声纹。如在1420处所指示的,可以基于确定关于人类讲话者话语的位置的位置信息来确立声纹。这可以包括使用由(一个或多个)麦克风108(例如,话语最强的方向的位置)、(一个或多个)相机110(检测到嘴唇移动的位置)、ssl机120(例如,定位的声源位置)、波束形成机122(例如,声音最强的一个或多个区域)和/或面部定位机124(例如,所检测到面部的位置)使用或者从其输出的数据。所述声纹可以被用于任何适当目的——人类讲话者辨识、语音分量识别、转录、区分等。

在1422处,所述方法1400包括确定人类讲话者的身份。可以基于声纹(例如,如果已经将身份与声纹相关联),使用(一个或多个)发音识别机128(例如,其使用声纹来确定身份)和/或经由机器120、122、124、126、128和130的一个或多个机器来确定身份。如在1424处所指示的,可以在确立声纹之前确定身份——例如,以上文所描述的方式,或者在其他示例中,可以预先确定身份,诸如在先前的计算设备会话中或由人类讲话者明确提供。如在1426处所指示的,可以在确立声纹之后(例如,基于声纹)来确定身份。因此,可以基于被用于确定身份的数据集中的一个或多个数据集,将身份与声纹相关联:例如,人类讲话者的音频数据、人类讲话者的面部数据(例如,面部位置、识别/辨别的面部)和/或识别的语音。

在1428处,方法1400包括根据协议选择会议音频的另一样本,所述另一样本表示由两个或更多个人类讲话者做出的相应话语。在1430处,方法1400包括对其他样本进行区分(例如,经由图6的区分机602)以将每个相应话语与对应人类讲话者相关联。

在1432处,方法1400包括基于在1416处确立的声纹来执行计算设备命令。执行计算设备命令可以包括代表基于用户输入而为其确立声纹的人类讲话者执行计算设备动作,利用人类讲话者的凭据,基于用户输入将命令归属于人类讲话者,等等。可以执行任何适当的计算设备命令,包括,但不限于执行应用程序并且提供输入。在一些示例中,计算设备命令的执行可以相对于请求命令的用户输入基本实时地进行,而在其他示例中,可以基本在接收到请求命令的用户输入之后(例如,在会议结束之后)执行计算设备命令。

方法1400可以包括替代的或额外的步骤。例如,方法1400可以包括调节被用于对会议音频进行采样的记录系统(例如,诸如(一个或多个)麦克风108的多个麦克风)的操作参数。在一些示例中,可以调节操作参数以提高会议音频的当前或后续样本的snr。调节操作参数可以包括选择使用哪个(哪些)麦克风对音频进行采样、对来自一个或多个麦克风的(一个或多个)信号采用噪声/信号消除、调节波束形成机122的操作、调节ssl机120的操作和/或任何其他适当类型的调节。

可以将在本文中所描述的语音区分、识别和转录结合到一个或多个计算设备的计算系统。具体地,可以将这样的方法和过程实现为计算机应用程序或服务、应用程序设计接口(api)、库和/或其他计算机程序产品。

图1b示意性示出了能够编校上文所描述的方法、过程和/或处理策略的一个或多个的计算机化会议助理106的非限制性实施例。在图1b中以简化形式示出了计算机化会议助理106。计算机化会议助理106可以采取一个或多个独立的麦克风/相机计算机、物联网(iot)设备、个体计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或在其他实施方式中的其他计算设备的形式。通常,在本文中所描述的方法和过程可以适于具有多种不同的麦克风和/或相机配置的多种不同计算系统。

计算机化会议助理106包括逻辑系统180和存储系统182。计算机化会议助理106可以任选地包括(一个或多个)显示器184、输入/输出(i/o)186和/或在图1b中未示出的其他组件。

逻辑系统180包括被配置为执行指令的一个或多个物理设备。例如,所述逻辑系统可以被配置为执行指令,所述指令是一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的部分。可以实现这样的指令以执行任务、实施数据类型、变换一个或多个组件的状态、实现技术效果或通过其他方式实现期望结果。

所述逻辑系统可以包括被配置为执行软件指令的一个或多个处理器。另外地或替代地,所述逻辑系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑电路。所述逻辑系统的处理器可以是单核的或多核的,在其上执行的所述指令可以被配置用于顺序、并行和/或分布式处理。任选地,可以在两个或更多个单独设备之间分布逻辑系统的个体组件,所述两个或更多个单独设备可以远程地定位和/或配置用于进行协调处理。逻辑系统的各方面可以被可远程访问的以云计算配置来配置的联网计算设备来虚拟化并且执行。

存储系统182包括被配置为保存能由所述逻辑系统执行以实现在本文中所描述的方法和过程的指令的物理设备。当实施这样的方法和过程时,可以转换存储系统182的状态——例如,以保存不同的数据。

存储系统182可以包括可移除的和/或内置设备。存储系统182可以包括光学存储器(例如,cd、dvd、hd-dvd、蓝光盘等)、半导体存储器(例如,ram、eprom、eeprom等)和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、mram等)等。存储系统182可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序访问、位置可寻址、文件可寻址和/或内容可寻址的设备。

将意识到,存储系统182包括一个或多个物理设备,而不仅仅是物理设备不在有限持续时间内保持的电磁信号、光信号等。

可以将逻辑系统180和存储系统182的各方面一起集成到一个或多个硬件逻辑组件中。例如,这样的硬件逻辑组件可以包括现场可编程门阵列(fpga)、程序特定和应用特定集成电路(pasic/asic)、程序和应用特定标准产品(pssp/assp)、片上系统(soc)以及复合可编程序逻辑器件(cpld)。

如在图1b中所示的,逻辑系统180和存储系统182可以协作以实例化ssl机120、波束形成机122、面部定位机124、面部识别机126、语音识别机128、语音识别机130和体验机132。如在本文中所使用的,术语“机器”被用于集合地指代硬件、固件、软件和/或协作提供所述功能的任何其他组件的组合。换言之,“机器”绝不是抽象概念,并且始终都具有有形形式。为特定机器赋予其功能的软件和/或其他指令可以任选地被保存为适当存储设备上的未执行模块,并且可以经由网络通信和/或保存模块的物理存储介质的转移来传输这样的模块。

当包括时,(一个或多个)显示器184可以被用于呈现由存储系统182保存的数据的视觉表示。该视觉表示可以采取图形用户界面(gui)的形式。作为一个示例,可以在显示器184上视觉地呈现转录1000。在本文中所描述的方法和过程改变由存储机保存的数据,并且由此变换存储机的状态,(一个或多个)显示器184的状态可以类似地被变换以在视觉上呈现下层数据的变化。例如,可以将新用户话语添加到转录1000。(一个或多个)显示器184可以包括利用几乎任何类型技术的一个或多个显示设备。这样的显示设备可以与共享外壳中的逻辑系统180和/或存储系统182相组合,或者这样的显示设备可以是外围显示设备。

当被包括时,输入/输出(i/o)186可以包括或者与一个或多个用户输入设备进行接口,诸如键盘、鼠标、触摸屏或游戏控制器。在一些实施例中,输入子系统可以包括或者与选定的自然用户输入(nui)组件进行接口。这样的组件可以是集成的或外围的,并且可以在板上或板外应对输入动作的转换和/或处理。示例性nui组件可以包括用于语音和/或语音识别的麦克风;用于机器视觉和/或姿态识别的红外、色彩、立体和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪;以及用于评估大脑活动的电场感测组件。

此外,i/o186任选地可以包括被配置为将计算机化会议助理106与一个或多个其他计算设备通信地耦合的通信子系统。所述通信子系统可以包括与一种或多种不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,所述通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网来通信。在一些实施例中,所述通信子系统可以允许计算机化会议助理106经由诸如因特网的网络向和/或从其他设备发送和/或接收消息。

另一示例提供了一种语音识别登入的方法,包括:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者的声纹的会议音频进行采样的协议的一个或多个条件是否被满足,响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语,以及至少基于所述样本来确立人类讲话者的声纹。在这样的示例中,所述一个或多个条件可以包括检测到人类讲话者已经开始讲话。在这样的示例中,所述一个或多个条件替代地或另外地可以包括会议音频的信噪比大于阈值。在这样的示例中,所述协议可以包括选择使用多个麦克风中最靠近人类讲话者的麦克风的样本。在这样的示例中,所述方法替代地或另外地可以包括在确立人类讲话者的声纹之后确定人类讲话者的身份。在这样的示例中,所述方法替代地或另外地可以包括在确立人类讲话者的声纹之前确定人类讲话者的身份。在这样的示例中,会议音频的样本替代地或另外地可以在时间上对应于一个或多个条件变得被满足的时间。在这样的示例中,所述一个或多个条件替代地或另外地可以包括检测人类讲话者的嘴唇移动。在这样的示例中,所述一个或多个条件替代地或另外地可以包括对于与来自一个或多个其他人类讲话者的话语相对应的会议音频的相应贡献小于阈值。在这样的示例中,所述方法替代地或另外地可以包括:根据协议来选择会议音频的另一样本,所述另一样本表示由两个或更多个人类讲话者的相应话语,以及对其他样本进行区分以将每个相应话语与对应的人类讲话者相关联。在这样的示例中,替代地或另外地可以基于人类讲话者的面部数据来确立声纹。在这样的示例中,所述方法替代地或另外地可以包括确定人类讲话者的身份,以及基于面部数据将身份与声纹相关联。在这样的示例中,替代地或另外地,可以基于确定关于做出话语的位置的位置信息来确立声纹。

另一示例提供了一种计算设备,其包括逻辑机和保存指令的存储机,所述指令能由逻辑机执行以:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于对用于确立人类讲话者声纹的会议音频进行采样的协议的一个或多个条件是否被满足,响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语,以及至少基于所述样本来确立人类讲话者的声纹。在这样的示例中,所述一个或多个条件可以包括检测到人类讲话者已经开始讲话。在这样的示例中,所述一个或多个条件替代地或另外地可以包括会议音频的信噪比大于阈值。在这样的示例中,所述一个或多个条件替代地或另外地可以包括检测人类讲话者的嘴唇移动。在这样的示例中,所述一个或多个条件替代地或另外地可以包括对于与来自一个或多个其他人类讲话者的话语相对应的会议音频的相应贡献小于阈值。

另一示例提供了一种语音识别登入系统,其包括多个麦克风、逻辑机和存储机,存储机保存指令,所述指令能由逻辑机执行以:在两个或更多个人类讲话者在不同时间讲话的会议期间,确定用于经由多个麦克风对用于确立人类讲话者声纹的会议音频采样的协议的一个或多个条件是否被满足,响应于确定所述一个或多个条件被满足,根据所述协议来选择会议音频的样本,所述样本表示由人类讲话者中的一个人类讲话者做出的话语,以及至少基于样本确立人类讲话者的声纹。在这样的示例中,替代地或另外地,可以执行指令以调节多个麦克风的操作参数,以提高会议音频的后续样本的信噪比。

应当理解,在本文中所描述的配置和/或方法在本质上是示范性的,并且这些具体实施例或示例不应当以限制性意义被考虑,因为有很多变化都是可能的。在本文中所描述的具体例程或方法可以表示任意数量的处理策略的一种或多种策略。这样,可以按照所图示和/或所描述的顺序、按照其他顺序、并行地执行所图示和/或描述的各个动作或者省略。同样,可以改变上文所描述的过程的次序。

本公开的主题包括各种过程、系统和配置,以及本文公开的其他特征、功能、动作和/或性质以及其任何和所有等价物的所有新颖和非显而易见的组合和子组合。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

相关标签: 麦克风语音识别
tips