语音交互技术作为搭建未来智慧家庭的入口,在本届CES上成为互联网巨头、家电巨头以及无数创新型企业集中展示的关键。三星、谷歌等推出相关新品。中国企业不甘落后,百度一口气推出了三款全新的智能家庭中心控制设备;科大讯飞也将发布多款智能语音硬件产品。
在计算机几十年的发展过程中,人机交互也就是人和机器之间的信息交换的技术,我们可以不夸张的说,也是一项引领性的技术。而人工智能和大数据的进步使人机交互成为现实、可用。
人机交互的目的是为了让机器更懂“你”,让用户更加自如。人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一。
今天我们说的语音识别、人脸识别还有一些生物识别比如指纹、虹膜等等,这些东西其实都属于人机交互的技术。当然它后面可能还有人工智能的支撑,可是不会所有的东西都只通过语音,或者是人脸识别,它可能是人机交互的一部分入口,但是它绝对不是全部的入口。
自然交互中,我们还很期待一些很科幻的场景,比如我们在很多科幻片中会有这样的,像手势、姿态的交互和识别。实际上手势识别或者姿态的识别,在人机交互是一个很难的命题,像一些具体的任务上,比如空中打字,也就是我抬手,现在很多人有盲打的能力,实际上你一抬手就在敲你想打的字,你已经有了这个习惯。
目前,中国正在向“2030年成为世界领先的人工智能创新中心”这个目标大步迈进,四个新成立的国家人工智能开放创新平台更是相当引人注目,Al将在今后以人类辅助性伙伴的形式参与到人类各项实际应用之中。
随着接口技术的变化,交互模式也发生了变化,计算机从实验室、机房已经走到了我们的办公室、家庭,甚至今天已经都走到了我们的手上,计算机的台数也发生了极大的数量级变化。
目前,在一些特定的情境里,语音交互已经成为主要的方式了。语音时代的最大意义在于,真正做到了解放双手。尤其在汽车里、家里这样的场景,意义非凡。解放了双手之后,人类与世界的交互,才第一次实现了随时随地,随心所欲。
简单地说,世界是由懒人创造的,人机交互的演进也可以认为是人们越来越懒的演进过程。俗话说得好,“能动口的绝不动手”,就是这个道理。语音最大的优势是,它是人类最自然的交互方式。
国家政策层面,也在大力推动智能语音的发展。去年12月14日,科技部印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,明确对智能语音的发展做出展望,“到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。”
当然,语音交互目前还存在很多问题。比如由于空间距离、背景噪音、其他人声干扰、回声、混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点。再比如单是中国语系、方言和口音就相当多,加上中文的多语义性,所以不同地区的人使用语音控制识别率差异较大。同时,在语义识别上,也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。
未来,随着计算超速
手机渗入到我们生活更多方面,智能技术的进步,也将为人机共生的美好前景提供支撑的技术。