人类使用像“钢铁侠”中那样的智能和高级语音助手需要多长时间?去年,一些国内语音识别制造商宣布了自己的语音识别新策略。看来人类与言语之间的自然互动越来越近了。
科大讯飞曾经宣布,将自行开发的离线语音听写引擎应用于诸如“讯飞输入法”,“语音输入法”,“语音输入法”等产品。在没有网络或网络较弱的情况下满足用户对语音技术的需求。
在此之前的几天,另一家Spitz公司也在一家工业沙龙上宣布重新定义人机交互体验的方向,主张将机器从听和说的能力转变为听和做的能力。外国巨头也正在布局语音识别领域。
一些外国媒体报道说,微软正在开发自己的代号为“ Cortana”的语音个人助理软件,并计划在Windows Phone平台的下一个重大升级中启动它,以与Google Now和Apple Siri竞争。正如Dialogue Works副总裁兼总经理李建辉所说,智能设备的发展趋势和移动互联网时代的到来使感知计算成为人机交互的未来发展方向,这就要求更加自然,直观和沉浸式互动。
道路。 iFLYTEK移动互联网业务部副总经理张继东将马拉松式语音识别产品的发展描述为“马拉松”。
在此过程中,许多制造商已经退出该领域,搜狗语音助手不再具有高调的推广,Airi一年前就停止了更新。另一个Xiaoi机器人被转移到B2B市场。
一些制造商退出并加入了新的制造商,基于语音识别应用程序的新一轮布局和竞争已经开始。废话的交互体验尽管iFLYTEK的iFLYTEK输入法的语音识别率可以达到95%以上,但从整个语音识别应用程序的角度来看,当前的用户体验只能说是糟糕的。
一方面,由于先天性缺陷,语音交互的错误很容易传播。 “如果语音识别的准确性在85%-95%之间,则语义分析的准确性在85%-95%之间,而最终的识别准确性仅为70%-90%。
语音首席科学家于凯说。离线语音技术更困难。
目前,有两家国际巨头,谷歌(微博)和苹果,以及科技大学的iFLYTEK都采用了离线语音技术。但是,由于缺乏网络连接和有限的存储空间,在科大的离线语音识别成功率仅为约85%,“刚刚达到可用水平”。
& rdquo;另一方面,由于语音识别技术的技术门槛很高,向高级功能的演进才刚刚开始。 “从语音评估和语音合成到对自然语义的理解,需要足够的语料库和算法来在各个方向上进行连续优化。
张继东说。在优化技术的同时,还必须建立一个生态系统。
例如,社区问题和答案类似于刘德华演过的电影的问题,或者基于音乐和视频的知识图谱,类似于刘德华演过的电影的问题。 < Ld<趋势是基于语音的自然交互将变得越来越方便并且将取代键盘输入,但是不是时候上升到仅需的水平。
张继东说。在语音识别上投入了大量资金:尽管困难重重,但语音识别技术的总体方向是不可逆的。
< Ldquo;所有手机制造商都在语音方面进行投资,扩大在语音技术领域的投资,创建更优雅的设计,并将其深深地集成到手机中。 “语音识别技术公司Nuance的高级副总裁Michael”汤普森说。
尽管苹果公司的Siri一再受到嘲笑,甚至被称为苹果最失败的产品之一,但苹果公司的投资仍在持续增长。苹果甚至在麻省理工学院(MIT)附近设立了一个神秘的办公室,以研究和开发Siri语音识别技术。
于凯透露,Siri语音技术部门的员工保持着1:4的比例。一个人负责研究语音的输入和输出,四个人负责自然语言处理,以克服自然语音交互的困难
