网站发布网(发布号)

当前的位置:网站发布网 > 科技 > 正文

语音助手不是未来?

KaisamWu 2019-05-16 02:44  WZFBW.COM

我们在看《钢铁侠》的时候,对科技的期待,除了Stark 那身炫酷的装备外,另一者,可能就是与人交流自如的人工智能Jarvis 了。现在像个傻蛋一样的Siri,或者口碑还算好的谷歌助手,在Jarvis 面前妥妥被吊锤。然而,我们深思一下,语音智能助手就是人类与机器自然交互的最佳解决方案了吗?

语音助手不是未来?

在刘慈欣的科幻巨著《三体》中,三体人的世界会因为恒星的不稳定,动不动就毁灭一次,在如此恶劣的环境中发展,三体文明的科技水平却远超人类,可以穿梭于恒星之间,而人类连太阳系都不能乱窜。

首先我们假定这个设定是真实的,为什么人类在拥有更舒适的环境的情况下,发展程度却远落后于三体人呢?书中有什么比较科学地设定能支撑这一点呢?从我的观点来看,那就是「脑电波交流」。

施拉姆在《传播学概论》里,将传播类型分为四种:人内传播(内心活动)、人际传播、组织传播以及大众传播。其中,传播过程中传递的一切都是符号,包括印刷符号、语音或动作,而交流者必须揣测符号背后的含义,所以除人内传播之外(因为符号本身就由自己定义和释意),其他传播都需要揣测。

语音助手不是未来?

三体人没有嘴巴,人和人之间全靠脑电波交流,脑子里想什么,全世界都知道,没法隐藏,而且还能发射到很远之外。这就像大家都能做到如人类的人内传播般快速地、无揣测的沟通,也就是小说中所说的「不可能说谎」;此外,他们还能随时随地讲这些高信任度的信息传播得很远,等于人均出生自带无谣言互联网,你说可不可怕。所以,三体人近乎于一个超级整体,所有人的智慧都是共享的、协同的。而人类存在私密性很强的人内传播,大家的实际行为于内心行为总有很大出入,正如《三国演义》里整天尔虞我诈、党同伐异,在充满不信任感的环境里,人类与三体人的发展效率差距可谓一个天一个地。

讲了这么多,我们大概也能明白,脑电波交流的效率是远高于语音交流的。然后今天的重头戏就来了:美国华裔科学家Edward F. Chang 等数名加州大学旧金山分校的科学家,在著名的学术杂志《自然》(Nature)发表了一篇名为《Speech synthesis from neural decoding of spoken sentence》的论文,表示成功研发出一种能够将脑电波解码为电子语音的解码器。

语音助手不是未来?

不用开口,用脑电波即可说话

下图来源于论文中,上面是一个参与人员说话所形成的声谱图,而下面是他在说话时破译相关脑电波后所得到的声谱图,虽然精准性存在不足,但大体上已经能还原出相对应的声音了。

语音助手不是未来?

它的处理过程分为两步,首先要将记录所得大脑电信号转换为人类声带运动的表征,包括嘴唇、喉咙、舌头和下巴在内的运动;接着,通过循环神经网络将这些表征转换为电子语音。

近未来的应用对象是那些无法说话的人,通过这一解码器,这类残疾人士可以与普通人进行正常言语交流;而在更遥远的未来,当技术足够成熟且成本足够低的时候,大众化将是必然趋势。

如今,人们关于人工智能助手的讨论越来越多,其中大部分人都认为语音智能助手在未来将是主要存在形式,科技大佬们也倾力打造着,诸如Siri、谷歌助手、cortana 和Alexa 等。根据Strategy Analytics 所公布的报告显示,2018 年在全球出售的智能手机,有47.7% 都配备了AI 语音助手,覆盖量约为7 亿台,可以说非常普遍。

语音助手不是未来?

然而,语音交互存在许多问题,大家也会称其鸡肋——迟钝的反馈令人尴尬、开口说话需要控制音量、声音影响附近的人、容易被其他声音影响等等,使用场景的局限性极大。

而利用脑电波解码技术,则可以让电子设备真正成为人的器官,因为它直接与大脑交互,默念着例如“hey siri,打开微信”,我们仅需要思考着,除了眼球外,什么都不需要动,也不需要注意会不会影响外界环境。

为了验证解码准确率,这个实验也找来了数百名听众对这些语音进行听写,其中,包含50 个单词的长句子的成功转写率为21%;而25 个单词的句子的成功正确转写率已经高达43% 。显然,短句子的成功率高很多,而我们在与语音助手交流的时候,其实大多是短句子,譬如大多数人都问过的「今天天气怎么样」。仅仅在目前这个初期阶段,已经让人有足够信心让其去代替语音助手,相信在未来更是前途可观。安全与伦理,让语音助手还能暂时苟延

如果这一技术发展顺利,那是不是,罗永浩的还需要用手按一下的Touch and Talk(TNT,按着说话)交互尚未成气候,就要被淘汰了?并非如此,在短时间内,它们还是有继续发展的空间,因为脑电波解码技术存在明显使用方法缺陷,而且这个难题非常难以解决。

语音助手不是未来?

到目前为止,实现这脑电波转语音技术,就需要用到「脑机接口」(Brain-computer interface,BCI)技术,这是一项涉及信号处理、模式识别、神经科学等学科的交叉技术,通过它才能获得脑电信号,为人脑与外界环境间直接交互成为可能。其分有两种采集方式——无创采集和有创采集。

无创采集指将检测脑电信号的非入侵式电极安装在大脑头皮上进行采集活动,这是比较理想的大众化产品采集方式,因为它对我们的身体没有伤害,和戴手表、研究一样,如果应用在HoloLens 这种AR 眼镜上基本没有违和感,而且相关研究已经在进行中了。但无创采集的问题也非常明显,就是信号极易受干扰,由于信号相当模糊,处理起来就非常困难,错误率很高。在广东博物馆的三年展里,笔者就体验过无创采集的脑电波检测仪器,可通过情绪改变场景灯光,但反应相当迟钝,集中精力半天都很难出现什么变化。

语音助手不是未来?

猜你喜欢

Copyright © 2019 WWW.WZFBW.COM 网站发布网(发布号).COM Corporation, All Rights Reserved.

网站发布网(发布号)-自媒体平台 版权所有