一种具有人机交互体验的智能互动设备的制作方法

2021-01-28 12:01:36|

318|

起点商标网

[0001]
本实用新型涉及一种具有人机交互体验的智能互动设备，属于智能设备技术领域。

背景技术：

[0002]
人机互动（英文：human
–
computer interaction或human
–
machine interaction，简称hci或hmi），是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板，或发电厂的控制室。人机交互界面的设计要包含用户对系统的理解（即心智模型），那是为了系统的可用性或者用户友好性。
[0003]
人机交互技术领域热点技术的应用潜力已经开始展现，比如智能手机配备的地理空间跟踪技术，应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术，应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术，应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术。
[0004]
虽然人机交互技术已经在各个方面取得长足发展，但有些情况下仍然无法达到让人满意的底部。以语音识别为例，在使用者与环境背景音多方因素的影响下，识别准确率大打折扣，无法提供很好的人机交互体验。此外，在公共场合下，非一对一的人机交互方式可能会暴露使用者的隐私，造成不必要的尴尬。

技术实现要素：

[0005]
为了解决以上技术问题，本技术方案的目的在于解决现有技术的不足，提供一种具有人机交互体验的智能互动设备。
[0006]
本技术方案的目的，将通过以下技术方案得以实现：一种具有人机交互体验的智能互动设备，包括视觉识别模块、前端显示、后端存储、超声波定向扩音模块、语音输入模块、语音识别模块和智能模块；
[0007]
所述视觉识别模块与智能模块连接，所述语音输入模块与语音识别模块连接，所述语音识别模块与所述智能模块连接，所述后端存储分别与所述智能模块连接和所述前端显示连接，所述超声波定向扩音模块通过网络与所述前端显示保持通信连接，并协同工作；
[0008]
所述智能模块，接收由语音识别模块转化后的计算机可读的输入；并根据识别后的声音信息所对应的编码，将该编码对应的主题内容由后端存储发送到前端显示；
[0009]
所述视觉识别模块,包括用于图像获取的摄像头和人脸识别模块，用以识别使用者;
[0010]
所述语音输入模块, 输入人类语音；并以采用双麦降噪的方式进行语音的采集。
[0011]
所述语音识别模块，将所述语音输入模块中输入的人类语音中的词汇内容转换为计算机可读的输入。
[0012]
本实用新型的技术方案具有如下有益效果：本方案以超声定向扩音作为设备的音源输出，避免了使用者在公共场合下使用时的尴尬局面，以及可能带来的隐私暴露问题。
[0013]
上述方案的进一步改进是：当所述智能化互动设备前方有使用者时，所述将首先进行身份识别；对于符合条件的使用者，前端显示为使用者展示应用界面，且所述智能化互动设备的其他各模块进入待机状态。
[0014]
上述方案的进一步改进是：超声定向扩音模块，用于播放和预处理，当后端存储提供到一体机的信息中需要包含音频时，超声定向扩音模块便开始运作。
[0015]
上述方案的进一步改进是：语音输入模块，用于拾取位于设备前方一定范围内使用者说出的声音信息。
[0016]
上述方案的进一步改进是：当主题内容中包含音频文件时，则前端显示在收到后端存储发送的主题内容后，将音频文件同步到超声波定向扩音模块中以播放。
[0017]
上述方案的进一步改进是：所述前端显示为屏蔽了音频输出的一体机。
[0018]
本实用新型进一步改进后的技术方案具有如下有益效果：本实用新型借助语音输入端采用双麦降噪的手段，使得输入的语音信息更为准确。可以在有效的设计距离内使用本智能互动设备。因此在使用本智能互动设备时不需要特意去寻找麦克风的位置，也不用去考虑使用时他人干扰的问题。使得本智能化互动设备更适用于公共场合使用。
附图说明
[0019]
图1是本实用新型实施例一种具有人机交互体验的智能互动设备的功能模块图。
具体实施方式实施例
[0020]
如图1所示，本实施例是一种具有人机交互体验的智能互动设备，包括视觉识别模块、前端显示（一体机）、后端存储（后台）、超声波定向扩音模块、语音输入模块、语音识别模块和智能模块。
[0021]
视觉识别模块与智能模块连接，语音输入模块与语音识别模块连接，语音识别模块与智能模块连接，后台分别与智能模块和一体机连接，超声波定向扩音模块通过网络与一体机连接。
[0022]
视觉识别模块，当该视觉识别模块识别到设备前方存在使用者时，点亮一体机主屏，并使智能化互动设备的其他各模块进入待机状态。
[0023]
本实施例的视觉识别模块一般为摄像镜头，可为一体机自带，亦可自行选择安装需要的规格。
[0024]
语音输入模块，用于拾取位于设备前方一定范围内使用者说出的声音信息。
[0025]
一体机，用于展示由后台提供的相关视频或图片信息；此外，一体机可以裸眼3d技术增加临场感，或是使用手持ar终端进行交互操作，还可以通过vr增强实景体验，进一步增加临场感，提升代入感。
[0026]
后台，用于存储和更新维护，为方便更新和维护，后台留有远程控制入口和本地接入入口，且后台可支持容灾备份功能，防止用户数据及系统设置等损毁和丢失。
[0027]
超声定向扩音模块，用于播放，和预处理，当后台提供到一体机的信息中需要包含音频时，超声定向扩音模块便开始运作。
[0028]
语音识别模块，用于接收并识别声音信息，将声音信息中的主题名称和操作指令或操作指令组合进行分离；并在操作指令或操作指令组合识别时，据语言、语义的近义词和/或同义词与预设操作指令进行关联。
[0029]
智能模块，接收语音识别模块发送的操作指令或操作指令组合以及（和/或）主题名称；依照主题名称所对应的的编码，从后台调取该编码所对应的主题内容发送到一体机。
[0030]
当主题内容中包含音频文件时，则一体机在收到后台发送的主题内容后，将音频文件同步到超声波定向扩音模块中以播放。
[0031]
本实施例中的视觉模块采用现有的人脸识别技术，主要实现人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别的功能。
[0032]
人脸图像采集：不同的人脸图像都能通过摄像镜头采集下来，比如静态图像、动态图像、不同的位置、不同表情等方面都可以得到很好的采集。当用户在采集设备的拍摄范围内时，采集设备会自动搜索并拍摄用户的人脸图像。
[0033]
人脸检测：人脸检测在实际中主要用于人脸识别的预处理，即在图像中准确标定出人脸的位置和大小。人脸图像中包含的模式特征十分丰富，如直方图特征、颜色特征、模板特征、结构特征及haar特征等。并挑选其中有用的特征信息，利用这些特征信息实现人脸检测。
[0034]
本实施例采用主流的人脸检测方法基于以上特征采用adaboost学习算法。adaboost算法是一种用来分类的方法，它把一些比较弱的分类方法合在一起，组合出新的很强的分类方法。
[0035]
人脸检测过程中使用adaboost算法挑选出一些最能代表人脸的矩形特征(弱分类器)，按照加权投票的方式将弱分类器构造为一个强分类器，再将训练得到的若干强分类器串联组成一个级联结构的层叠分类器，有效地提高分类器的检测速度。
[0036]
人脸图像预处理：对于人脸的图像预处理是基于人脸检测结果，对图像进行处理并最终服务于特征提取的过程。识别过程中获取的原始图像由于受到各种条件的限制和随机干扰。因此不能直接使用，须在图像处理的早期阶段进行灰度校正、噪声过滤等图像预处理。预处理过程主要包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等。
[0037]
人脸图像特征提取：本实施例的人脸图像特征提取的为通常使用的特征，包括视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。本实施例的人脸特征提取的方法为：一种是基于知识的表征方法；另外一种是基于代数特征或统计学习的表征方法。基于知识的表征方法主要是根据人脸器官的形状描述以及他们之间的距离特性来获得有助于人脸分类的特征数据，其特征分量包括特征点间的欧氏距离、曲率和角度等。人脸由眼睛、鼻子、嘴、下巴等局部构成，及对这些局部和它们之间结构关系的几何描述，作为识别人脸的重要特征，即几何特征。基于知识的人脸表征主要包括基于几何特征的方法和模板匹配法。
[0038]
人脸图像匹配与识别：提取的人脸图像的特征数据与数据库中存储的特征模板进行搜索匹配，设定一个阈值，当相似度超过这一阈值，则把匹配得到的结果输出。人脸识别
就是将待识别的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸的身份信息进行判断。判断过程分两类，确认和辨认。确认是一对一进行图像比较的过程，辨认是一对多进行图像匹配对比的过程。
[0039]
本实施例中的语音输入模块采用双麦降噪技术。
[0040]
双麦克风降噪技术是大规模应用的最普遍的降噪技术，一个麦克风为普通的用户通话时使用的麦克风，用于收集人声，而另一个麦克风，具备背景噪声采集功能，方便采集周围环境噪音。
[0041]
本实施例设有a、b两个性能相同的电容式麦克风，其中a是主话筒，用于拾取通话的语音，话筒b是背景声拾音话筒。本实施例中的两个话筒，安装于主面板上方便拾取。两个话筒在内部有主板隔离。正常拾音时，话筒a产生较大的音频信号va，同时话筒b得到一些语音信号vb，但比a小得多，这两个信号输入话筒处理器，其输入端是个差分放大器，即将两路信号相减后再放大，于是得到的信号是vm=va-vb。如果在使用环境中有背景噪音，音源是远离本具有人机交互体验的智能互动设备，因此到达具有人机交互体验的智能互动设备时的两个话筒时声波的强度几乎是一样的，即va≈vb，于是对于背景噪音，两个话筒虽然是都拾取了，但vm=va-vb≈0 可大大提高正常通话的清晰度。
[0042]
本实施例中的一体机采用常规一体机，并屏蔽其自带的音频输出，作为前端使用。
[0043]
本实施例通过后台可以有效的管理具有人机交互体验的智能互动设备供使用者查阅信息。本实例的后台可以依据视觉模块确认到的身份信息进行验证，身份信息正确则验证而后允许前端（一体机登入使用）并进行相关的一系列操作，例如，产品、企业信息的增加、更新、删除等。管理系统后台的部分功能举例：新闻发布、图片及其他文件上传、新闻定时发布和定自动更新、内容采集、图片及影音文件加水印、新闻审核、新会员审核、邮件群发、域名绑定和解析
……
以及对上述所有信息的修改删除等操作。
[0044]
网站的后台通常需要帐号及密码等信息的登陆验证，登陆信息正确则验证而后进入网站后台的管理界面进行相关的一系列操作。
[0045]
网站后台采用现有的如kcm后台系统，省去开发一套全新高性能的网站后台管理系统所需要费的时间、人力及资源投入。使用现有的网站后台主要原因，一则是自发布之日起就经过了大量的时间开发，根据市场的需求开发，操作简单，灵活，高性能，而且内置高性能的搜索引擎推广（seo）技术；二则是现有的系统自身具有强大、完备的后台管理功能，功能全面，操作简易。系统前台的栏目、菜单、功能入口等全部实现后台控制，使用时只需在后台进行简单的设置即可上线使用。后台管理系统的生成可采用以下软件，例如，spb、ucenter home、phpwind、cmstop、phpcms，上述软件均可以直接安装生成管理系统系统，使用便捷。
[0046]
本实施例中的超声波定向扩音模块采用有源超声波音箱，自带必要的调音、降噪、功放等功能；当然也可以采用无源，自然需配置更多设备以供使用。例如江苏中协智能科技有限公司的pt-3265超声定向音箱就是一种有源音箱，具备功放、降噪、调音等功能。
[0047]
本实施例中的语音识别和智能模块部分的内容，主要是基于上海华镇电子科技有限公司的语音大脑开发平台6291_asr_kit_ver4.3进行的功能设计和应用。除此处提到的语音大脑开发平台，在语音识别时也可以借助像阿里云这类的云计算方式。利用人工智能et基于语音识别、自然语言理解等技术，在对于方言俚语的理解上会有更佳的效果。
[0048]
最后需要说明的是，所描述的实施例仅是本实用新型的具体应用范例之一，并不用于限制本实用新型，对于本领域的技术人员来说，实际应用过程中均可根据具体情况酌情选择替代元器件和调整部分步骤的顺序，但对本技术方案的保护范围不构成任何限制，且所作的任何修改、等同替换、改进等，均应包含在本实用新型的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。