智能语音对话辅助识别系统的制作方法

2021-01-28 16:01:23|

270|

起点商标网

本发明涉及人工智能语音对话领域，尤其是具有摄像头，能将语音与图像相结合，识别对话场景的，有连续对话功能的语音对话系统。

背景技术：

现在语音交互用到的技术主要是麦克风阵列、语音识别、语义理解、语音转文字、文字转语音等。市场上主流的语音对话系统只能通过用户呼叫特定唤醒词语进行唤醒，无法主动发起对话。且唤醒一次只能对话一次，有少部分产品可一次唤醒多次对话，但仅通过语言内容进行算法判断，其算法逻辑准确性和可用性较低。

技术实现要素：

为了提高连续对话的逻辑准确性和可用性，让语音互交更加完善智能。本发明提供一种智能语音对话辅助识别系统，该系统用摄像头作为智能语音系统的“眼睛”，不仅能实现传统智能语音对话功能，而且能收集视频图像资料，将视频图像和语音相结合进行算法运算，大幅提高人工智能语音对话系统对用户是否在与之对话判断的准确性，实现可用性更高的连续人机对话，视线唤醒，主动发起对话，并通过摄像头人脸识别建立常用对象库，实现针对不同用户的个性化功能。

本发明提供的技术方案是：一种智能语音对话辅助识别系统，在普通语音识别系统上加上摄像头，摄像头收集视频图像，麦克风收集声音，在语音识别、语义理解算法的基础上加以视频图像识别、视线跟踪、音色识别算法。将用户的人脸、体型、音色等特征生成个人账户，以识别不同的用户。

根据摄像头收集到的用户状态和语言内容综合判断，用户是否在和智能语音系统对话。在唤醒后一段时间内，发现用户有看着摄像头说话，则判断用户是在与智能语音系统对话。在唤醒后一段时间内，发现用户未看着摄像头说话，但场景内仅有一个人，且用户说话音量明显高于自言自语音量时，判断用户是在与智能语音系统对话。在多人场景中，通过人脸识别、音色识别、音源方位识别，排除非唤醒人发出的语音。在唤醒后一段时间内，发现用户未看着摄像头说话，同时场景内有多人时，仅用户一人说话其他人未应答，且用户视线不在任何一人身上时，判断用户是在与智能语音系统对话。其有益效果是：能识别不同用户，判断用户视线方向，帮助语义理解算法，更准确的识别用户是否在和智能语音系统对话，实现人机连续对话功能。

进一步的，智能语音系统通过摄像头和麦克风识别用户，当用户信息不完整时，可通过语音对话发起询问，以收集用户姓名、年龄、性别、生日、爱好、电话号码等私人信息，建立个性账户，记住用户的特定喜好。设定管理员、常用用户、陌生人等分级档案，建立不同用户之间的关系网。其有益效果是：使智能语音系统可以区别不同用户，并呼叫用户名字，可根据喜好和历史对话侧重推送内容。

进一步的，用户不需呼叫特点唤醒词语进行唤醒，能通过摄像头识别，用户视线停留在摄像头上并说话，可唤醒智能语音系统。其有益效果是：省略呼叫特定词语的唤醒过程，可用视线唤醒，使人机对话更加简洁，更接近于人类自然对话方式。

进一步的，在用户长时间离开再返回的情况下，通过人脸识别，智能语音系统能在用户未发起唤醒命令的情况下，主动向用户问好。摄像头发现场景中有火灾、陌生人等异常状况时，可给用户打电话、发短信、发图片进行交流。其有益效果是：智能音箱可主动发起对话，向用户问好，汇报一段新闻时事、天气状况、家中异常情况等消息。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除